Académique Documents
Professionnel Documents
Culture Documents
Une entreprise data-driven est une entreprise « pilotée par les données ». Elle utilise les
technologies analytiques pour analyser les données à sa disposition afin de prendre des décisions.
Dans la masse de données présente dans l’entreprise, il existe peut-être des relations entre les
données (règles, phénomènes, tendances, exceptions) potentiellement utiles pour l’activité, créant
de la valeur (ex : couches / bières aux USA).
1.3 Technologies
Le data warehousing (entreposage de données) est le fait de rassembler dans une base de données
unique, des données issues de source multiples (internes et externes), de les historiser (leur donner
une date), afin de leur donner du sens (interpréter l’information qu’elles contiennent).
Le datamart désigne la base de données (plus petite) utilisée pour stocker les informations d’un
secteur ou d’une activité de l’organisation.
Principe du DataWarehouse
Stockage
- les données sont stockées sur un support de grande capacité (plusieurs téraoctets) administré par
un SGBD de type relationnel ou multidimensionnel.
- Il y a un ajout continuel de données plus récentes : les données ne sont donc pas “volatiles”
- Les données sont historisées (classement chronologique) et classées par sujet (clients, produits…)
Exploitation
Les données sont stockées sous forme de « cube » ou « d’hypercube » dont les axes peuvent être
changés. Les tableaux croisés dynamiques dans le tableur Excel sont l’illustration d’un hypercube.
Avantages :
Outils permettant d’obtenir des connaissances à partir de l’analyse de grandes quantités de données
en y découvrant des tendances, des règles, des corrélations...
Améliorer la gestion de la relation client
Eviter le « churn » (perte de clients)
Connaître le comportement de sa clientèle (anecdote des bières /couches culottes)
Définition : Ensemble des méthodes, outils, concepts et processus permettant de s’assurer que les
données de référence soient correctement identifiées, de bonne qualité, dépourvues d’erreurs et
utilisables sans le moindre risque.
On distingue 3 grands types de données de référence qui appellent différents types de gouvernance
et de socle technique :
Les données “maitres” sont en général les objets métiers principaux d’un domaine
fonctionnel. Ces données sont donc au cœur du système d’information et structurent les
principales applications. Exemples : client, article, fournisseur…
Les données “constitutives” sont des données constituées elles-mêmes d’attributs, qui
caractérisent en général des données maitres mais aussi d’autres objets métier. Exemple :
adresse. Elle peut caractériser des données maitres comme client, fournisseur…
Les données “paramètres” sont des tables de valeurs ou des nomenclatures. Exemples :
codes postaux, codes devises, taux des taxes des communes. Ce sont les données les plus
partagées au sein du SI.
2. Le Big Data
1.1. Définition
Ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de
gestion de l’information (tableur, BDD relationnelle) ne peut exploiter. Le big data peut contenir de
nombreuses données « non structurées ».
Ces données sont pour l’essentiel issues des appareils connectés aux réseaux informatiques fixes et
mobiles (smartphones, tablettes, ordinateurs et autres objets) et peuvent fournir des indications sur
les utilisateurs : localisations, déplacements, centres d’intérêts, habitudes de consommation, etc.
- Volume de données
- Variété d’informations
- Vélocité plutôt bonne (mise à jour)
- Valeur : capacité de ces données à générer du profit
- Véracité : leur qualité, précision, fiable
Technologie de stockage : Supportées par du cloud computing fonctionnant dans des DATACENTERS
2.3. Les enjeux du big data
A vendre les données pour en tirer des revenus. Le cas le plus fréquent est celui de la
monétisation de données personnelles (ex : vente de fichier client)
A générer du profit en améliorant les performances de l’entreprise ou de ses produits suite à
l’analyse de données et l’amélioration de la prise de décision
Les données sont l’instrument qui permet à l’IA d’apprendre à la manière dont les humains pensent
--> + un système Machine Learning reçoit de données + il apprend
Ingestion : Importer les données brutes. Il peut s’agir de données transmises en streaming
par des appareils, de données stockées sur site et transmises par lots, de journaux
d’applications, d’analyses et événements concernant les utilisateurs d’applications mobiles.
Stockage : une fois récupérées, les données doivent être stockées dans un format durable et
facile d’accès.
Traitement et analyse : Les données brutes sont transformées pour faire apparaître des
informations exploitables.
Exploration et visualisation : Consiste à convertir les résultats de l’analyse dans un format
facile à exploiter et à partager avec des collègues et des pairs.
Mise à disposition à la demande, via les réseaux de communication (internet), d’un ensemble de
ressources et de services, mutualisés et évolutifs en fonction du besoin.
3 modèles :
Le datacenter réuni dans un seul lieu l’ensemble des machines et des compétences humaines qui
assurent le fonctionnement du cloud --> bâtiment qui rassemblent des milliers de serveur de faible
encombrement (serveur lame) fonctionnant au sein de rack (châssis où sont empilés les serveurs).
Étant donné la chaleur dégagée, ces bâtiments doivent être parfaitement climatisés.
Il y a différents risques
- Température de l’air
- Humidité
- Erreur humaine et accès au personnel
- Incendie
- Contaminants dangereux en suspension
Avantages Limites
Flexible techniquement L’accès se faisant à distance par Internet, l’entreprise
permettant d’adapter la utilisatrice devient dépendante du fonctionnement du réseau
ressource info aux besoins Internet (disponibilité et qualité du débit…)
Flexible financièrement : Les données circulant sur Internet font courir un risque
variabilisation d’une charge fixe sécuritaire : détérioration ou piratage des échanges pendant
(à relativiser selon le mode de la communication.
facturation)
Déploiement immédiat de Centralisant les données de nombreuses entreprises, le
solution (aucune installation, pas prestataire cloud devient une cible des pirates. Toute
d’intervention au sein des entreprise peut donc faire les frais d’une attaque qui ne lui
locaux…) est pas directement destinée.
Flexibilité organisationnelle : Le prestataire doit mettre en place des dispositifs de sécurité
Partage et accès à distance pour protéger les données de ses clients ; or il est difficile de
facilité connaitre la politique de sécurité de son fournisseur cloud.
Aucun souci pour le client : le Il est parfois impossible de choisir le lieu où sont stockées les
prestataire se charge de « tout » données. De fait, des données stockées à l’étranger peuvent
(à nuancer en fonction du type se voir appliquer une législation très différente de celle
de cloud SAAS / IAAS / PAAS) applicable en France.
Il peut être difficile de revenir en arrière ; malgré l’existence
de clauses contractuelles, le fournisseur cloud peut utiliser
des formats de données ou des langages propriétaires qui
bloquent leur utilisation future.
4.1 Savoir évaluer son besoin : On utilise le sigle DICT (ou DICP)
Disponibilité, faculté d’un élément à être accessible dans des conditions prédéterminées
d’exploitation et de maintenance (de délais et de performances)
Intégrité, consistant à empêcher les altérations, suppressions ou ajouts d’informations non
autorisées
Confidentialité, consistant à empêcher la divulgation d’informations à des personnes non
autorisées
Traçabilité/Preuve, consistant à gérer les traces des accès, actions ou échanges réalisés, afin
d’assurer la possibilité d’un contrôle systématique ou a posteriori, d’apporter des preuves
4.2 Savoir distinguer les enjeux sécuritaires et les actions à mettre en oeuvre