Académique Documents
Professionnel Documents
Culture Documents
Il s'agit de conteneurs de données centralisés dans un espace spécialement conçu à cet effet, qui prend en
charge l'informatique décisionnelle et les rapports, mais limite les analyses approfondies.
0 Marques de données
( Entrepôts de données
r L'écrin de sable analytique
0 Aucune de ces réponses
Quels sont les problèmes rencontrés dans l'architecture traditionnelle des données ?
r Les données de grande valeur sont difficiles à atteindre et à exploiter, et les activités d'analyse prédictive et
d'exploration des données sont les dernières à obtenir des données.
r Les scientifiques des données sont limités à l'analyse en mémoire, ce qui restreint la taille des ensembles de
données qu'ils peuvent utiliser.
0 Les projets de science des données resteront isolés et ad hoc, plutôt que gérés de manière centralisée.
6 Tout ce qui précède
Lequel des énoncés suivants est toujours VRAI en ce qui concerne le Big Data ?
I. En raison de leur taille ou de leur structure, les Big Data ne peuvent pas être analysées efficacement en
utilisant uniquement des bases de données ou des méthodes traditionnelles.
II. Bien que la variété des Big Data tende à attirer l'attention, le volume et la vitesse des données
constituent généralement une définition plus appropriée des Big Data.
( Je ne
r II seulement
r ni Ini
II
Lequel des énoncés suivants est VRAI en ce qui concerne les différences entre la Business Intelligence (BI) et
la Data Science ?
I. Alors que les problèmes liés à la science des données ont tendance à nécessiter des données hautement
structurées organisées en lignes et en colonnes pour l'établissement de rapports précis, les projets de BI ont
tendance à utiliser de nombreux types de sources de données, y compris des ensembles de données
volumineux ou non conventionnels.
II. La science des données a tendance à être de nature plus exploratoire et peut utiliser l'optimisation de
scénarios pour traiter des questions plus ouvertes.
r J'ai seulement
( II seulement
r I et II
r ni moi ni
II
Parmi les facteurs qui poussent les entreprises à devenir plus analytiques et axées sur les données, celui-ci
concerne la perte de clientèle, la fraude et les défaillances.
0 Optimiser les opérations commerciales
( Identifier les risques pour l'entreprise
r Prévoir de nouvelles opportunités commerciales
0 Respecter les exigences réglementaires
Lequel des énoncés suivants est vrai en ce qui concerne l'architecture analytique actuelle ?
I. Les sources de données sont d'abord chargées dans l'entrepôt de données où les données doivent être
bien comprises, structurées et normalisées avec les définitions de type de données appropriées. Ce type de
centralisation permet d'assurer la sécurité, la sauvegarde et le basculement des données hautement critiques.
II. Une fois dans l'entrepôt de données, les données sont lues par d'autres applications dans toute l'entreprise
à des fins de BI et de reporting. Il s'agit de processus opérationnels hautement prioritaires qui reçoivent des
données critiques des entrepôts de données et des référentiels.
r J'ai seulement
r II seulement
c I et II
r ni moi ni
II
Quels sont les attributs qui définissent le mieux les caractéristiques des Big Data ?
r Énorme volume de données
r Complexité des types et structures de données
0 Vitesse de création et de croissance des nouvelles données
0 Tout ce qui précède
Ce type de données n'a pas de structure inhérente et peut inclure des documents textuels, des PDF, des
images et des vidéos. r Données quasi-structurées
( Données non structurées
c Données semi-structurées
r Données structurées
Quiz 2
Ce groupe comprend par exemple les analystes financiers, les analystes d'études de marché, les spécialistes
des sciences de la vie, les responsables des opérations et les responsables commerciaux et fonctionnels.
( Professionnels compétents en matière de données
r Un grand sens de l'analyse
r Facilitateurs de technologie et de données
r Aucune de ces réponses
Lesquels des éléments suivants décrivent la décennie postérieure à 2010 en ce qui concerne les données
massives (big data) ?
I. À l'heure actuelle, tout et chacun laisse une empreinte numérique.
II. Les volumes de données de cette décennie se mesurent en termes de pétaoctets.
( Je ne
r II seulement
r à la fois I et II
r ni Ini
II
Les activités suivantes sont des activités récurrentes du scientifique des données SAUF r Reformuler les défis
commerciaux en défis analytiques.
r Concevoir, mettre en œuvre et déployer des modèles statistiques et des techniques d'exploration de données
sur les Big Data.
( Fournir une expertise technique pour soutenir les projets analytiques tels que l'approvisionnement et
l'administration des bacs à sable analytiques.
r Élaborer des idées qui débouchent sur des recommandations exploitables.
Lequel des groupes d'acteurs suivants de la chaîne de valeur des données donne un sens aux données
collectées auprès de diverses entités ?
r Dispositifs de données
r Collecteurs de données
( Agrégateurs de données
r Utilisateurs de données et Acheteurs
Les données proviendraient de nombreuses sources, dont r des photos et des séquences vidéo téléchargées
sur le World Wide Web.
0 Dispositifs informatiques non traditionnels, y compris l'utilisation de lecteurs d'identification par radiofréquence
(RFID), de systèmes de navigation GPS et de traitement sismique
0 Informations médicales, telles que le séquençage génomique et l'imagerie diagnostique
c Tout ce qui précède
Parmi les rôles clés suivants dans le nouvel écosystème du big data, quel est celui dont les membres
possèdent une combinaison de compétences leur permettant de traiter des données brutes et non structurées
et d'appliquer des techniques analytiques complexes à grande échelle ?
0 Professionnels avertis en matière de données
( Analyse approfondie Talent
r Technologie et Facilitateurs de données
r Aucune des Au-dessus
Les compétences et caractéristiques comportementales qu'un scientifique des données doit posséder sont les
suivantes SAUF e Compétences qualitatives
r Curieux et créatif
r Esprit sceptique et pensée critique (] Communicatif et collaboratif
Quiz 3
r Planification du modèle
( Opérationnaliser
Lequel des énoncés suivants est VRAI en ce qui concerne le cycle de vie de l'analyse des données ?
I. Une erreur fréquente dans les projets de science des données est de se précipiter dans la collecte et
l'analyse des données, ce qui empêche de consacrer suffisamment de temps à la planification et à l'évaluation
de la quantité de travail nécessaire, à la compréhension des exigences ou même à la formulation correcte du
problème de l'entreprise.
II. Un bon processus d'analyse des données garantit une méthode d'analyse complète et reproductible et
permet de concentrer le temps et l'énergie.
r Je ne
r II seulement
c I et II
r ni moi ni
II
Les éléments suivants font partie de la phase de préparation des données SAUF r Exécution de l'ETLT
r Enquête et visualisation
( Élaboration de l'hypothèse initiale
r Préparation de l'environnement analytique
Parmi les questions clés suivantes, quelles sont celles qu'il est utile de poser au cours de la phase de
découverte lors de l'entretien avec le commanditaire du projet ?
C Quel est le résultat souhaité du projet ? Quelles sont les sources de données disponibles ?
r Quelles sont les sources de données disponibles ?
0 Quelles sont les questions sectorielles susceptibles d'influer sur l'analyse ?
(* Tout ce qui précède
Laquelle des personnes suivantes fournit le financement et évalue le degré de valeur des résultats finaux de
l'équipe de travail dans le cadre d'un projet d'analyse de données ?
r Chef de projet
( Promoteur du projet
r Analyste en intelligence économique
r Utilisateur professionnel
Quiz 4
Lequel des énoncés suivants est VRAI en ce qui concerne la construction de modèles ?
I. Les phases de planification et de construction du modèle peuvent se chevaucher assez largement et, dans
la pratique, il est possible de passer d'une phase à l'autre pendant un certain temps avant d'aboutir à un
modèle final.
II. Bien que les techniques de modélisation et la logique nécessaire à l'élaboration des modèles puissent être
très complexes, la durée réelle de cette phase peut être courte par rapport au temps consacré à la préparation
des données et à la définition des approches.
r J'ai seulement
r II seulement
c I et II
r ni moi ni
II
Parmi les outils suivants, quels sont ceux qui sont gratuits ou à source ouverte et qui sont disponibles pour les
praticiens de l'analyse de données ? r SAS Enterprise Miner
r SPSS Modeler
0 Octave
n Mineur alpin
Lequel des éléments suivants est un produit livrable dans le cadre de la phase d'opérationnalisation ?
r Présentation pour les sponsors du projet
r Présentation aux analystes
r Spécifications techniques pour la mise en œuvre du code
(* Tout ce qui précède
Les activités suivantes font partie de la phase de planification du modèle SAUF r Évaluer la structure des
ensembles de données.
r S'assurer que les techniques d'analyse permettent à l'équipe d'atteindre les objectifs commerciaux et
d'accepter ou de rejeter les hypothèses de travail.
0 Évaluer s'il existe des approches similaires existantes ou si l'équipe doit créer quelque chose de nouveau.
( Évaluer la validité du modèle et de ses résultats.
Lequel des énoncés suivants est VRAI en ce qui concerne la planification des modèles ?
I. Au cours de cette phase, l'équipe développe des ensembles de données à des fins de formation, de test et
de production.
II. Cette phase se caractérise par l'exploration des données, la sélection des variables et des modèles.
r J'ai seulement
( II seulement
r à la fois I et II
r ni moi ni
II
Lequel des énoncés suivants est VRAI en ce qui concerne la phase finale du cycle de vie de l'analyse des
données ?
I. Dans la phase finale, l'équipe fait connaître les avantages du projet à un plus grand nombre et met en
place un projet pilote pour déployer le travail de manière contrôlée avant de l'étendre à l'ensemble de
l'entreprise ou de l'écosystème d'utilisateurs.
II. Au cours de cette phase, l'équipe réfléchit au projet et examine les obstacles rencontrés et ce qui peut être
amélioré à l'avenir. Elle formule également des recommandations pour les travaux futurs ou les améliorations à
apporter aux processus existants.
( Je ne
r II seulement
r à la fois I et II
r ni Ini
II
Lors de la création de modèles robustes, les questions suivantes doivent être prises en compte SAUF r Le
modèle évite-t-il les erreurs intolérables ?
( Quelle est la cohérence des contenus et des dossiers ?
r L'un des intrants doit-il être transformé ou éliminé ?
r Le type de modèle choisi permettra-t-il de répondre aux exigences en matière de durée d'exécution ?
Parmi les activités suivantes, lesquelles sont réalisées dans le cadre de la phase 5 du cycle de vie de l'analyse
des données ?
r L'équipe détermine si elle a atteint ou non ses objectifs.
r L'équipe réfléchit aux implications de ces résultats et mesure la valeur commerciale.
0 L'équipe enregistre toutes les conclusions et sélectionne les trois plus importantes qui peuvent être partagées
avec les parties prenantes.
<- Tout ce qui précède
Quiz 5
Avant toute modélisation de régression, les données doivent toujours être vérifiées pour les éléments suivants
SAUF r Erreurs de saisie des données
( Modèle attendu
r Valeurs aberrantes
r Valeurs manquantes
q II uniquement
"I et II
c ni moi ni
II
En prédisant le chiffre d'affaires à l'aide des dépenses liées aux annonces dans les journaux, nous
obtenons les résultats de régression suivants
Estimez les ventes prévues si les dépenses liées aux annonces dans les journaux sont de 60 unités.
(• 15.
6
q 17.
4
q 19.
2
c 20.
8
Les éléments suivants caractérisent les statistiques inférentielles SAUF r Tirer des conclusions pour un
groupe/des données plus important(s)
( Déterminer les relations
( Données actuelles
r II uniquement
r I et II
( ni moi ni
II
Lequel/lesquels des éléments suivants est/sont TOUJOURS VRAI(s) en ce qui concerne l'analyse de
régression ?
I. C'est la technique la plus fréquemment utilisée pour analyser la relation entre deux ou plusieurs variables.
II. Les variables prédictives peuvent être discrètes ou continues.
( Je ne
r II seulement
r à la fois I et II
r ni Ini
II
En prédisant le chiffre d'affaires à l'aide des dépenses publicitaires pour la télévision et la radio, nous
obtenons les résultats de régression suivants
Estimez les ventes prévues si les dépenses de publicité à la télévision et à la radio sont respectivement de 200
et 50.
r 19.
3
o 21.
r 23.
7
r 25.
9
Quiz 6
Sur la base des résultats suivants de la régression logistique, laquelle/lesquelles des affirmations suivantes
est/sont VRAIE(s) ?
I. Pour chaque unité d'augmentation de l'âge, la valeur de la fonction logistique augmente de 0,16.
II. Le coefficient de régression pour la variable "Marié" n'est pas significatif.
Coefficients
Estimation Std. Erreur valeur z PrO>|z|)
(Intercept) 3.415201 0.163734 20.858 <2e-16 ***
L'âge -0,156643 0.004088 -38.320 <2e-16 ***
Mar ri ed 0.066432 0.068302 0.973 a.331
Années de garde 0,017857 0.030497 0,586 0,558
Chu rn ed_cont acts 0.382324 0.027313 13.998 <2e-16 ***
Codes significatifs : 0 ****'0,001 ***'0,01 **'0,05 ".'0,1 ''1
r J'ai seulement
( II seulement
r à la fois I et II
r ni moi ni
II
D'après les résultats suivants de la régression logistique, quelle est la probabilité de changer de fournisseur
lorsque l'âge est de 40 ans et que le nombre de contacts changés est de 5 ? (Remarque : arrondir les
coefficients à la deuxième décimale)
Coefficients :
Estimation Std. Erreur Valeur z Pr(>|z|)
Quiz 2...............................................................................................................................................2
Quiz 6...............................................................................................................................................9
r 0.35
(* 0.26
9
Lequel des énoncés suivants est VRAI en ce qui concerne la fonction logistique ?
I. Lorsque la valeur de y augmente, la probabilité de l'événement f(y) augmente également.
II. Les valeurs de y ne sont pas directement observées, mais seule la valeur de f(y) en termes de succès ou
d'échec est observée.
r Je ne
r II seulement
c les deux I
et II
r ni moi
ni II
Lequel des énoncés suivants est VRAI en ce qui concerne la régression logistique ?
I. Lorsque la variable de résultat est de nature catégorielle, la régression logistique peut être utilisée pour
prédire la probabilité d'un résultat en fonction des variables d'entrée.
II. La régression logistique ne peut s'appliquer qu'à une variable de résultat comportant deux valeurs telles
que vrai/faux, réussite/échec ou oui/non.
( Je ne
r II seulement
r les deux I et II
r ni l'un ni l'autre I ni
II