Vous êtes sur la page 1sur 7

EXAMEN

Semestre : 1 2

Session : Principale Rattrapage

Unité d’enseignement : Intelligence des affaires


Modules : Data Mining, BD NoSQL, Séries temporelles et contrôle qualité
Classes : 4 ERP-BI
Nombre des questions : 50 questions Nombre de pages : 7 pages
Date : 02/07/2020 Heure: 08h30 Durée : 1h30

Partie I: Module ‘Data Mining’ On souhaite partitionner l’ensemble des visites en trois
groupes, chacun caractérisant le profil de navigation au
Sélectionner la bonne réponse: sein du site marchand. Quelle est la méthode la plus
appropriée afin de répondre à cet objectif? (2pts)
1. Les deux premières phases de la méthodologie
CRISP-DM sont: (2pts)

A. (1) Compréhension des données (2) Compréhension du


métier.

B. (1) Compréhension du métier (2) Compréhension des


A. K-NN.
données.
B. Kmeans.
C. (1) Compréhension des données (2) Modélisation.
C. SVM.
D. Aucune réponse.
D. Régression logistique.
2. La méthodologie CRISP-DM permet de rendre les
projets de Data Mining: (2pts)
4. En appliquant l’ACP, nous avons obtenu deux
représentations graphiques, en deux dimensions: l’une
A. Plus rapides mais complexes.
concernant les observations, l’autre les variables, comme
B. Plus coûteux en termes de temps d’exécution. celles-ci, quelle affirmation est correcte ? (2pts)

C. Plus coûteux mais efficaces.

D. Plus fiables.

3. On considère l’échantillon de données suivant issues de


l’entrepôt pour le suivi des cybernautes d’un site marchand.
Ce dernier donne la description des visites utilisateurs par :
le nombre de pages visitées (NbPage), le nombre de clicks
par page (Nb Click), le produit consulté (Produit) de type
‘O’ pour ouvrage, ‘M’ pour musique ou ‘F’ pour film. On
admet qu’il n’y a qu’un seul produit consulté par visite, la
durée moyenne de navigation par page en minutes (durée), A. L’axe 1 est plutôt expliqué par les variables du saut en
et l’action commerciale de type ‘A’ pour achat, ‘C’ pour longueur (long jump), 100m, 110 mètres haies.
commande ou ‘N’ pour annulation. On se positionne dans
l’espace défini par les dimensions « Nb Click» et « Durée B. l’axe 2 est plutôt expliqué par le saut à la perche (Pole
». vault).
1
C. Plus les athlètes sautent loin et courent rapidement les 7. On donne les deux lignes de commandes suivantes et le
épreuves du 100 mètres et du 110 mètres haie plus leur résultat associé. Choisir l’ordre de pertinence
nombre de points est important. (décroissant) des variables. (2pts)

D. Plus les athlètes sautent loin et courent rapidement les


épreuves du 100 mètres et du 110 mètres haie plus leur
nombre de points est faible.

5. On considère le cercle de corrélation suivant. La


variable NET est: (2pts)

A. 1-Intercept 2-prix 3-cylindree 4-puissance 5-poids.

B. 1-Puissance 2-poids 3-cylindree 4-prix.

C. 1-Puissance 2-poids 3-prix 4-cylindree.

D. 1-intercept 2-puissance 3-poids 4-prix 5-cylindree.

8. On souhaite réaliser la classification d’un certain nombre


de vins de bordeaux en se référant à leur qualité. Choisir le
classifieur qui permet d’avoir le résultat suivant: (2pts)

A. Corrélée positivement avec le premier axe factoriel.

B. Corrélée positivement avec le deuxième axe factoriel.

C. Corrélée positivement avec le plan factoriel.

D. Corrélée négativement avec le premier axe factoriel.

6. Soit les courbes ROC suivantes, tracées pour 3 modèles


différents. quelle affirmation est correcte ? (2pts)

A. K-NN

B. SVM

C. CART

D. CAH

9. On donne les transactions suivantes (T1…T5). Nous


souhaitons appliquer l’algorithme Apriori des règles
associatives. Quelle est l’affirmation
correcte concernant le support relatif: (2pts)

A. Le modèle 1 est le meilleur modèle.

B. Le modèle 3 est le meilleur modèle.

C. Le modèle 2 est le meilleur modèle.

D. On ne peut pas conclure, il faut calculer les AUC de


chaque modèle.

2
A. support(A,B→C)=1/5 12. Choisir l’affirmation correcte en ce qui concerne la
précision: (2pts)
B. support(A,B→C)=2/5
A. La précision indique les observations bien classées par
C. support(A,B→C)=4/5 rapport au nombre total des observations réelles
appartenant à la classe considérée.
D. support(A,B→;C)=2/4
B. La précision indique les observations bien classées par
10. En appliquant l’algorithme de l’arbre de décision sur un rapport à la totalité des observations prédites dans la même
ensemble de données, on obtient la figure ci-dessous. classe
Ayant reçu une nouvelle observation comportant les
valeurs suivantes: [sexe: F, age: 30, credit:No], quel label C. La précision indique les observations bien classées par
prendra cette observation? (2pts) rapport au nombre total d’observations.

D. Aucune de ces réponses.

13. Pour le cas d’un problème de classification à plusieurs


labels (nombre de labels>3), quel(s) algorithme(s)
procède(nt) par une classification un contre tous (one
Vs all) : (2pts)

A. La précision indique les observations bien classées par


rapport au nombre total des observations réelles
appartenant à la classe considérée.

B. La précision indique les observations bien classées par


rapport à la totalité des observations prédites dans la même
classe.
A. Le label ‘Yes’.
C. La précision indique les observations bien classées par
B. Le label ‘No’. rapport au nombre total d’observations.
C. L’arbre n’a pas été totalement construit, on ne peut pas
D. Aucune de ces réponses.
affecter de label à cette observation.
14. Pour le cas d’un problème de classification à plusieurs
D. La nouvelle observation possède un champ dont la
labels (nombre de labels >3), quel(s) algorithme(s)
valeur est manquante ce qui nuit à la décision. procède(nt) par une classification un contre tous (one Vs
all) : (2pts)
11. On applique l’algorithme SVM sur des données
bruitées. Le modèle généré sera-t-il influencé par les
A. Régression logistique et arbre de décision.
données aberrantes? (2pts)
B. SVM et arbre de décision.

C. SVM.

D. Aucune de ces réponses.

15. Pour un problème de classification, vous avez subdivisé


vos données en 70% pour le l’apprentissage et 30% pour le
test. Votre modèle a obtenu une précision de 0.59 pour les
données d’apprentissage. Qu’est-ce que vous devez faire
pour améliorer vos résultats? (2pts)

A. Ajouter des variables plus significatives sachant qu’il


A. Vrai. n’y a pas eu une étude sur la significativité des variables

B. Faux. B. Prendre 90% des données pour l’apprentissage et


seulement 10% pour le test.
C. Vrai si les valeurs atypiques ne sont pas des vecteurs
supports. C. Evaluer les performances plutôt sur les données de test.

D. Vrai si les valeurs atypiques sont des vecteurs support. D. Rien à faire
3
16. La commande sous R pour réaliser une ACP est: le test. Lequel des algorithmes suivants est à éviter dans
(2pts) ce genre de situation en termes de temps de calcul?
(2pts)
A. ACP()
A. Arbre de décision.
B. Res.pca()
B. SVM.
C. PCA()
C. K-NN.
D. Res.acp()
D. Régression logistique.
17. La classification hiérarchique a pour objet de
regrouper: (2pts)

A. Les observations en k groupes simultanément. Partie 2: Module ‘BD NoSQL’


B. Les observations les plus semblables séquentiellement. 21. Laquelle de ces propositions est correcte ? (2pts)
A. Les bases de données non relationnelles sont largement
C. Les observations les plus proches des centres de gravités
distribuées
des groupes.
B. Les bases de données non relationnelles imposent un
D. Les observations les plus semblables parallèlement. modèle de données avec schéma

18. Pour la classification hiérarchique, la stratégie du C. Les bases de données non relationnelles ne sont pas
saut minimum ou single linkage consiste à: (2pts) performantes sur les données non structurées

A. Regrouper les 2 éléments présentant la plus petite D. Les bases de données non relationnelles sont de deux
types
distance entre éléments des deux classes.
22. La scalabilité horizontale permet de : (2pts)
B. Regrouper les 2 éléments présentant la plus grande
distance entre éléments des deux classes. A. Répartir les données sur plusieurs machines

C. Gain minimum d’inertie intra-classe à chaque B. Répliquer les données sur plusieurs machines
agrégation C. Stocker les données sur une seule machine
D. Aucune de ces réponses. D. Filtrer les données et stocker les plus pertinentes

19. On donne les transactions suivantes (T1…T5). Nous 23. L’instance mongos est chargée de l’acheminent des
souhaitons appliquer l’algorithme Apriori des règles requêtes et l’écriture des opérations sur les shards d'un
associatives. Quelle est l’affirmation sharded cluster : (2pts)
correcte concernant le support relatif: (2pts)
A. Oui
B. Non
C. Uniquement si le cluster contient des réplicas
D. Uniquement pour les requêtes d'agrégation

24. Quel est le nombre minimal de réplica sets à avoir


dans un sharded cluster ? (2pts)
A. 0
B. 1
A. Lift (A, B→ C) = 2/10.
C. 2
B. Lift (A, B→ C) = 4/5.
D. 3
C. Lift (A, B→ C) = 1/3.
25. Laquelle des commandes suivantes permet de lister
D. Lift (A, B→ C) = 1/6 les collections d’une base MongoDB : (2pts)
A. display collections
20. Pour un problème de classification, on dispose de
20000 observations pour le train et 500 observations pour B. collections.show()
4
C. show collections 31. La commande hint permet de : (2pts)
D. Aucune de ces réponses A. Forcer l’utilisation aléatoire d’un index

26. Compléter la phrase suivante concernant les bonnes B. Forcer l’utilisation d’un index spécifique
pratiques de modélisation: (2pts) C. Permet d’indexer uniquement les documents contenant
« ……………permet de fusionner deux collections. » des valeurs non nulles d’un champ

A. Le référencement D. N’est pas une commande relative aux indexes

B. L’externalisation 32. Quel est le résultat de cette requête ? (2pts)


db.movies.find({$text:{$search: "Star Wars"}},
C. L’imbrication {synopsis:1})
D. Aucune de ces réponses A. Retourne le champ synopsis des documents qui
contiennent exactement la chaine « Star Wars »
27. Quelle proposition permet de supprimer la
collection « dettes » : (2pts) B. Retourne les champs _id et synopsis des documents qui
contiennent exactement la chaine « Star Wars »
A. db.dettes.remove()
C. Retourne les champs _id et synopsis des documents qui
B. db.dettes.drop() contiennent toutes les combinaisons de mots de la
chaine « Star Wars »
C. db.runCommand({dropCollection : 1})
D. Retourne tous les champs des documents qui
D. Toutes ces réponses contiennent toutes les combinaisons de mots de la
chaine « Star Wars »
28. Quelle proposition permet d’afficher le nombre de
documents de la collection de bateaux « bats » : (2pts) 33. La commande suivante permet d’ : (2pts)

A. db.bats.aggregate([{$group:{_id:{}, db.employe.find({"salaire" : {"$lte" : 1800},


tot:{$sum:1}}}]); salaire :{"$gt" : 3000}})
B. db.bats.aggregate([{$group:{_id:{}, A. Afficher les employés qui ont un salaire inférieur à
tot:{$sum:1}}},{$project:{tot:1}}]); 1800dt et supérieur à 3000dt.
C. db.bats.aggregate([{$group:{_id:{}, B. Afficher les employés dont le salaire est supérieur à
tot:{$sum:1}}},{$project:{_id :0, tot:1}}]); 3000dt.
D. Toutes ces réponses C. Afficher les salaires entre 1800dt et 3000dt de la
collection « employe ».
29. Quel est le résultat de cette requête ? (2pts)
db.movies.aggregate([{$group: D. Aucune de ces réponses.
{_id:{$year:"$date_sortie"},
34. Les critères de recherche avec l’index suivant sont:
realisateur:{$first:"$director"}}}])
db.employe.createIndex({"employe_id":1,
A. Affiche pour chaque année de sortie d’un film la "poste":1, "salaire":1}) (2pts)
première lettre du realisateur
A. Poste
B. Affiche pour chaque année de sortie d’un film le
premier realisateur B. Salaire

C. Affiche pour chaque realisateur l’année de sortie du C. Employe_id, poste, salaire


film
D. Aucune de ces réponses
D. Aucune de ces réponses
35. Quelle est la commande à utiliser sous Mongodb
30. L’opérateur « $group » est l’équivalent, en SQL, pour créer un index géo-spatial avec un ordre
de : (2pts) ascendant sur le champ location: (2pts)
A. SELECT A. db.city.createIndex({location:'geo-spatial', type: 1})
B. AVG B. db.city.createIndex({location:'geo-spatial', type: -1})

C. SUM C. db.city.createIndex({location:'2d', type: 1})

D. Aucune de ces réponses D. db.city.createIndex({location:'2d', type: -1})

5
Partie 3: Module ‘Séries temporelles et A. La valeur d’AIC la plus minimal.
B. La valeur d’ AIC la plus élevé.
contrôle qualité’ C. Une valeur d’ AIC proche de 1.
D. Une valeur d’ AIC nulle.
36. Soit le modèle suivant : 𝑋𝑡 = 0.5𝑋𝑡−1 +
0.3𝑋𝑡−2 + 𝜀𝑡 + 0.7𝜀𝑡−1. 42. L’analyse d’une série chronologique
Il s’agit d’un modèle : (2pts) quelconque pourra être considérée comme
réussie si : (2pts)
A. ARMA(2,1).
B. AR(1). A. On obtient un R² relativement élevé.
C. Ma(2). B. Les résidus finaux vérifient le comportement d’un bruit
D. ARIMA(1,2) blanc.
C. Tous les coefficients du modèle sont significatifs.
37. Afin d’étudier la relation temporelle entre deux D. Absence d’un comportement saisonnier
variables on utilise : (2pts)
43. Pour le graphe de l’auto corrélation (ACF) :
A. PACF (2pts)
B. Le chnologramma
C. ACF A. La forte indépendance est marquée par des valeurs
D. Le qqplot proches de 1.
B. La forte dépendance est marquée par des valeurs
38. Pour tester la normalité des résidus, on se sert proches de 1.
du : (2pts) C. La forte dépendance est marquée par des valeurs
proches de 0.
A. Test de student D. La forte indépendance est marquée par des valeurs
B. Test de Dickey-Fuller proches de -1.
C. Test de Box-Pierce
D. La courbe de la série brute 44. Pour modéliser la saisonnalité on utilise : (2pts)

39. Considérons les figures suivantes associées à la A. Des fonctions périodiques


série du nombre de cas de varicelle relevés à New- B. Une fonction exponentielle
York de janvier 1931 à juin 1972 : C. Des fonctions polynomiales
D. Des fonctions logarithmiques

45. Un processus stationnaire permet de : (2pts)

A. Modéliser des séries temporelles qui ne peuvent pas


présenter une tendance ou une saisonnalité.
B. Modéliser des séries temporelles présentant une
tendance.
C. Modéliser des séries temporelles présentant une
Les figures 1 et 2, montrent : (2pts) saisonnalité.
D. Modéliser des séries temporelles présentant une
A. L’existence d’un comportement saisonnier et non pas tendance et une saisonnalité
une tendance.
B. L’existence d’une tendance et non pas une saisonnalité. 46. Pour rendre une série stationnaire : (2pts)
C. L’existence d’une tendance et d’une saisonnalité.
D. La stationnarité de la série. A. On différencie la série.
B. On applique la fonction Log ().
40. Pour que les coefficients d’un modèle de C. On applique le test de Dickey-Fuller.
régression linéaire soient significatifs, il faut : D. On standardise les données.
(2pts)
47. Un processus MA est caractérisé par : (2pts)
A. |t-value|>1.96
B. t-value<1.96 A. des auto-corrélations simples et partielles s'annulant
C. -1.96<t-value<1.96 à partir d'un certain rang.
D. R soit proche de 1 B. des auto-corrélations simples décroissant rapidement
vers 0 et des auto-corrélations partielles s'annulant à
41. L’AIC est un critère de choix entre plusieurs partir d'un certain rang.
modèles, le modèle retenu est celui qui a : (2pts)

6
C. des auto-corrélations simples s'annulant à partir d'un
certain rang et des auto-corrélations partielles
décroissant rapidement vers 0.
D. des auto-corrélations simples et partielles qui ne
s’annulent pas.

48. Choisir le meilleur modèle : (2pts)

A. R² =0.9, AIC=-13, Nombre de paramètres


significatifs= 8.
B. R² = 0.8, AIC=0, Nombre de paramètres
significatifs= 6.
C. R²= 0.7, AIC=-10, Nombre de paramètres
significatifs= 7.
D. R² = 0.99, AIC=-1, Nombre de paramètres
significatifs= 16.

49. Un processus ARMA est caractérisé par


: (2pts)

A. des auto-corrélations simples et partielles s'annulant


à partir d'un certain rang
B. des auto-corrélations simples s'annulant à partir d'un
certain rang
C. des auto-corrélations partielles s'annulant à partir
d'un certain rang
D. aucune des propriétés précédentes

50. Soit la série du volume des ventes en relation avec


les TIC aux USA. Choisir l'ordre des opérations
à entreprendre pour rendre la série. (2pts)

A. Modélisation des points de rupture et de la saisonnalité,


différentiation si c'est nécessaire.
B. Modélisation des points de rupture, différentiations
multiples.
C. Test de stationnarité, différentiations, modélisation de
la saisonnalité.
D. Modélisation de la saisonnalité, test de stationnarité,
différentiations.

Bon travail ☺

Vous aimerez peut-être aussi