Académique Documents
Professionnel Documents
Culture Documents
Semestre : 1 2
Partie I: Module ‘Data Mining’ On souhaite partitionner l’ensemble des visites en trois
groupes, chacun caractérisant le profil de navigation au
Sélectionner la bonne réponse: sein du site marchand. Quelle est la méthode la plus
appropriée afin de répondre à cet objectif? (2pts)
1. Les deux premières phases de la méthodologie
CRISP-DM sont: (2pts)
D. Plus fiables.
A. K-NN
B. SVM
C. CART
D. CAH
2
A. support(A,B→C)=1/5 12. Choisir l’affirmation correcte en ce qui concerne la
précision: (2pts)
B. support(A,B→C)=2/5
A. La précision indique les observations bien classées par
C. support(A,B→C)=4/5 rapport au nombre total des observations réelles
appartenant à la classe considérée.
D. support(A,B→;C)=2/4
B. La précision indique les observations bien classées par
10. En appliquant l’algorithme de l’arbre de décision sur un rapport à la totalité des observations prédites dans la même
ensemble de données, on obtient la figure ci-dessous. classe
Ayant reçu une nouvelle observation comportant les
valeurs suivantes: [sexe: F, age: 30, credit:No], quel label C. La précision indique les observations bien classées par
prendra cette observation? (2pts) rapport au nombre total d’observations.
C. SVM.
D. Vrai si les valeurs atypiques sont des vecteurs support. D. Rien à faire
3
16. La commande sous R pour réaliser une ACP est: le test. Lequel des algorithmes suivants est à éviter dans
(2pts) ce genre de situation en termes de temps de calcul?
(2pts)
A. ACP()
A. Arbre de décision.
B. Res.pca()
B. SVM.
C. PCA()
C. K-NN.
D. Res.acp()
D. Régression logistique.
17. La classification hiérarchique a pour objet de
regrouper: (2pts)
18. Pour la classification hiérarchique, la stratégie du C. Les bases de données non relationnelles ne sont pas
saut minimum ou single linkage consiste à: (2pts) performantes sur les données non structurées
A. Regrouper les 2 éléments présentant la plus petite D. Les bases de données non relationnelles sont de deux
types
distance entre éléments des deux classes.
22. La scalabilité horizontale permet de : (2pts)
B. Regrouper les 2 éléments présentant la plus grande
distance entre éléments des deux classes. A. Répartir les données sur plusieurs machines
C. Gain minimum d’inertie intra-classe à chaque B. Répliquer les données sur plusieurs machines
agrégation C. Stocker les données sur une seule machine
D. Aucune de ces réponses. D. Filtrer les données et stocker les plus pertinentes
19. On donne les transactions suivantes (T1…T5). Nous 23. L’instance mongos est chargée de l’acheminent des
souhaitons appliquer l’algorithme Apriori des règles requêtes et l’écriture des opérations sur les shards d'un
associatives. Quelle est l’affirmation sharded cluster : (2pts)
correcte concernant le support relatif: (2pts)
A. Oui
B. Non
C. Uniquement si le cluster contient des réplicas
D. Uniquement pour les requêtes d'agrégation
26. Compléter la phrase suivante concernant les bonnes B. Forcer l’utilisation d’un index spécifique
pratiques de modélisation: (2pts) C. Permet d’indexer uniquement les documents contenant
« ……………permet de fusionner deux collections. » des valeurs non nulles d’un champ
5
Partie 3: Module ‘Séries temporelles et A. La valeur d’AIC la plus minimal.
B. La valeur d’ AIC la plus élevé.
contrôle qualité’ C. Une valeur d’ AIC proche de 1.
D. Une valeur d’ AIC nulle.
36. Soit le modèle suivant : 𝑋𝑡 = 0.5𝑋𝑡−1 +
0.3𝑋𝑡−2 + 𝜀𝑡 + 0.7𝜀𝑡−1. 42. L’analyse d’une série chronologique
Il s’agit d’un modèle : (2pts) quelconque pourra être considérée comme
réussie si : (2pts)
A. ARMA(2,1).
B. AR(1). A. On obtient un R² relativement élevé.
C. Ma(2). B. Les résidus finaux vérifient le comportement d’un bruit
D. ARIMA(1,2) blanc.
C. Tous les coefficients du modèle sont significatifs.
37. Afin d’étudier la relation temporelle entre deux D. Absence d’un comportement saisonnier
variables on utilise : (2pts)
43. Pour le graphe de l’auto corrélation (ACF) :
A. PACF (2pts)
B. Le chnologramma
C. ACF A. La forte indépendance est marquée par des valeurs
D. Le qqplot proches de 1.
B. La forte dépendance est marquée par des valeurs
38. Pour tester la normalité des résidus, on se sert proches de 1.
du : (2pts) C. La forte dépendance est marquée par des valeurs
proches de 0.
A. Test de student D. La forte indépendance est marquée par des valeurs
B. Test de Dickey-Fuller proches de -1.
C. Test de Box-Pierce
D. La courbe de la série brute 44. Pour modéliser la saisonnalité on utilise : (2pts)
6
C. des auto-corrélations simples s'annulant à partir d'un
certain rang et des auto-corrélations partielles
décroissant rapidement vers 0.
D. des auto-corrélations simples et partielles qui ne
s’annulent pas.
Bon travail ☺