Chapitre 4: Management Strate4Gique Des Donnees: 1. L'analyse Des Données Et L'entreprise "Data Driven"

CHAPITRE 4 : MANAGEMENT STRATE4GIQUE DES DONNEES
1. L’analyse des données et l’entreprise “data driven”
1.1. Définition d’une entreprise Data-Driven
Une entreprise data-driven est une entreprise « pilotée par les données ». Elle utilise les
technologies analytiques pour analyser les données à sa disposition afin de prendre des décisions.
1.2 Enjeu : Extraction de connaissances par les données (ECD)
Dans la masse de données présente dans l’entreprise, il existe peut-être des relations entre les
données (règles, phénomènes, tendances, exceptions) potentiellement utiles pour l’activité, créant
de la valeur (ex : couches / bières aux USA).
L’information devient une ressource permettant de créer de la valeur en améliorant la gestion de

tous les domaines de l’entreprise
1.3 Technologies
1.3.1 L’entreposage de données : Data warehousing
Le data warehousing (entreposage de données) est le fait de rassembler dans une base de données
unique, des données issues de source multiples (internes et externes), de les historiser (leur donner
une date), afin de leur donner du sens (interpréter l’information qu’elles contiennent).
Le datawarehouse désigne la base de données utilisée pour collecter et stocker de manière

définitive des informations transversales à des fins d’analyse et d’aide à la décision.
Le datamart désigne la base de données (plus petite) utilisée pour stocker les informations d’un
secteur ou d’une activité de l’organisation.
Principe du DataWarehouse
 Acquisition des données
Un outil informatique de type ETL = Extract Transform Load :
 Va piocher des données

o Dans des systèmes opérationnels (source principale)
o Dans les bases de données utilisateurs (fichiers locaux)
o Dans des bases externes (sources accessibles via internet)
 Va assurer le « nettoyage » et l’homogénéité des données qui peuvent être à l’origine sous
des formats différents
 Stockage
- les données sont stockées sur un support de grande capacité (plusieurs téraoctets) administré par
un SGBD de type relationnel ou multidimensionnel.
- Des métadonnées (données sur les données) sont également stockées
- Il y a un ajout continuel de données plus récentes : les données ne sont donc pas “volatiles”
- Les données sont historisées (classement chronologique) et classées par sujet (clients, produits…)
 Exploitation
Le datawarehouse et datamarts vont servir de ressources de données permettant aux utilisateurs

d’extraire des informations. Ces outils permettent donc de créer des connaissances tirées de
l’expérience (les données passées), de mettre en valeur des corrélations cachées ….
1.3.2 Les outils d’informatique décisionnelle
1.3.2.1 Les Requêteurs et tableurs
Interrogation de la base de données relationnelle au moyen d’un requêteur.
1.3.2.2 Traitement analytique en ligne (TAL ou OLAP : on line analytical process)
Progiciels permettant d’examiner de façon interactive et de manipuler de grandes quantités de

données détaillées et consolidées sous plusieurs aspects.
Les données sont stockées sous forme de « cube » ou « d’hypercube » dont les axes peuvent être
changés. Les tableaux croisés dynamiques dans le tableur Excel sont l’illustration d’un hypercube.
Avantages :
 Elle est directement compréhensible

 Elle est facilement manipulable par un analyste qui souhaite changer son point de vue sur les
données (zoom vers le détail, changement d’axe de vue, etc.)
1.3.2.3 Forage de données (datamining)
Outils permettant d’obtenir des connaissances à partir de l’analyse de grandes quantités de données
en y découvrant des tendances, des règles, des corrélations...
 Améliorer la gestion de la relation client
 Eviter le « churn » (perte de clients)
 Connaître le comportement de sa clientèle (anecdote des bières /couches culottes)
1.4 Le MDM : master data management (gestion des données de référence)
Définition : Ensemble des méthodes, outils, concepts et processus permettant de s’assurer que les
données de référence soient correctement identifiées, de bonne qualité, dépourvues d’erreurs et
utilisables sans le moindre risque.
On distingue 3 grands types de données de référence qui appellent différents types de gouvernance
et de socle technique :
 Les données “maitres” sont en général les objets métiers principaux d’un domaine
fonctionnel. Ces données sont donc au cœur du système d’information et structurent les
principales applications. Exemples : client, article, fournisseur…
 Les données “constitutives” sont des données constituées elles-mêmes d’attributs, qui
caractérisent en général des données maitres mais aussi d’autres objets métier. Exemple :
adresse. Elle peut caractériser des données maitres comme client, fournisseur…
 Les données “paramètres” sont des tables de valeurs ou des nomenclatures. Exemples :
codes postaux, codes devises, taux des taxes des communes. Ce sont les données les plus
partagées au sein du SI.
2. Le Big Data
1.1. Définition
Ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de
gestion de l’information (tableur, BDD relationnelle) ne peut exploiter. Le big data peut contenir de
nombreuses données « non structurées ».
Ces données sont pour l’essentiel issues des appareils connectés aux réseaux informatiques fixes et
mobiles (smartphones, tablettes, ordinateurs et autres objets) et peuvent fournir des indications sur
les utilisateurs : localisations, déplacements, centres d’intérêts, habitudes de consommation, etc.
Le big data regroupe un ensemble d’outils sensé satisfaire la règle des 5V :
- Volume de données
- Variété d’informations
- Vélocité plutôt bonne (mise à jour)
- Valeur : capacité de ces données à générer du profit
- Véracité : leur qualité, précision, fiable
2.2. Technologies sous-jacente
Technologie de stockage : Supportées par du cloud computing fonctionnant dans des DATACENTERS
2.3. Les enjeux du big data
Le principal enjeu du big data est la « data monétization » qui consiste :
 A vendre les données pour en tirer des revenus. Le cas le plus fréquent est celui de la
monétisation de données personnelles (ex : vente de fichier client)
 A générer du profit en améliorant les performances de l’entreprise ou de ses produits suite à
l’analyse de données et l’amélioration de la prise de décision
2.4. Big Data et data analyses
Le Machine Learning (apprentissage automatique) est une technologie d’intelligence artificielle

permettant aux ordinateurs d’apprendre sans avoir été programmés explicitement à cet effet.
Les données sont l’instrument qui permet à l’IA d’apprendre à la manière dont les humains pensent
--> + un système Machine Learning reçoit de données + il apprend
Deep Learning (apprentissage profond) : sous-catégorie du machine Learning, il focalise

l’apprentissage automatique à partir de données brutes, càd qui n’ont pas été « pré-travaillées »
2.5. Ecosystème des plateformes
On peut identifier 4 grandes étapes dans le traitement des méga données :
 Ingestion : Importer les données brutes. Il peut s’agir de données transmises en streaming
par des appareils, de données stockées sur site et transmises par lots, de journaux
d’applications, d’analyses et événements concernant les utilisateurs d’applications mobiles.
 Stockage : une fois récupérées, les données doivent être stockées dans un format durable et
facile d’accès.
 Traitement et analyse : Les données brutes sont transformées pour faire apparaître des
informations exploitables.
 Exploration et visualisation : Consiste à convertir les résultats de l’analyse dans un format
facile à exploiter et à partager avec des collègues et des pairs.
3. L’information dans les nuages (cloud computing)
Mise à disposition à la demande, via les réseaux de communication (internet), d’un ensemble de
ressources et de services, mutualisés et évolutifs en fonction du besoin.
 Il est considéré comme un service (applications, puissance de calcul, moyens de stockage…) ;

l’entreprise utilisatrice ne dispose donc plus des matériels ni des technologies et ne s’occupe
donc plus de l’exploitation ni de la maintenance.
 Le paiement s’effectue selon la consommation : transformation d’une charge fixe
(amortissement matériels, salaires des informaticiens) en charge variable
 Les ressources physiques sont mutualisées et adaptées en temps réel par le gestionnaire du
cloud à la demande de l’entreprise utilisatrice selon ses éventuels pics de charge.
3.1. Les différentes approches du cloud computing
 IaaS (Infrastructure as a Service) : ce service met à disposition une infrastructure

informatique hébergée ; le client conserve le contrôle sur les systèmes d’exploitation qu’il
souhaite installer, sur les SGBD ainsi que sur les applications dont il a besoin.
 PaaS (Platform as a Service) : Le PaaS propose l’infrastructure + tous les outils et middleware
utiles pour faire fonctionner les applications de son choix.
 SaaS (Software as a Service) : C’est la totalité de la chaîne informatique qui est déportée
chez un tiers. L’entreprise n’a alors besoin que de postes clients connectés à Internet.
3 modèles :
- Cloud public : c’est l’accès à un service mutualisé, hébergé chez un fournisseur

- Cloud interne : c’est le déploiement, en interne, d’un service géré par l’entreprise
- Cloud privé : c’est le déploiement, en interne, d’une version “privatisée” du service ou la
mise à disposition d’un datacenter privé, exploité spécifiquement pour l’entreprise par un
fournisseur tiers
3.2. Les datacenters
Le datacenter réuni dans un seul lieu l’ensemble des machines et des compétences humaines qui
assurent le fonctionnement du cloud --> bâtiment qui rassemblent des milliers de serveur de faible
encombrement (serveur lame) fonctionnant au sein de rack (châssis où sont empilés les serveurs).
Étant donné la chaleur dégagée, ces bâtiments doivent être parfaitement climatisés.
Selon le modèle de cloud, ces bâtiments et infrastructure matérielle appartiennent à l’entreprise

(cloud interne) ou à un prestataire (cloud public, cloud hybride).
Il y a différents risques
- Température de l’air
- Humidité
- Erreur humaine et accès au personnel
- Incendie
- Contaminants dangereux en suspension
3.2. Avantages et limites du cloud computing (SAAS)
Avantages Limites
Flexible techniquement L’accès se faisant à distance par Internet, l’entreprise
permettant d’adapter la utilisatrice devient dépendante du fonctionnement du réseau
ressource info aux besoins Internet (disponibilité et qualité du débit…)
Flexible financièrement : Les données circulant sur Internet font courir un risque
variabilisation d’une charge fixe sécuritaire : détérioration ou piratage des échanges pendant
(à relativiser selon le mode de la communication.
facturation)
Déploiement immédiat de Centralisant les données de nombreuses entreprises, le
solution (aucune installation, pas prestataire cloud devient une cible des pirates. Toute
d’intervention au sein des entreprise peut donc faire les frais d’une attaque qui ne lui
locaux…) est pas directement destinée.
Flexibilité organisationnelle : Le prestataire doit mettre en place des dispositifs de sécurité
Partage et accès à distance pour protéger les données de ses clients ; or il est difficile de
facilité connaitre la politique de sécurité de son fournisseur cloud.
Aucun souci pour le client : le Il est parfois impossible de choisir le lieu où sont stockées les
prestataire se charge de « tout » données. De fait, des données stockées à l’étranger peuvent
(à nuancer en fonction du type se voir appliquer une législation très différente de celle
de cloud SAAS / IAAS / PAAS) applicable en France.
Il peut être difficile de revenir en arrière ; malgré l’existence
de clauses contractuelles, le fournisseur cloud peut utiliser
des formats de données ou des langages propriétaires qui
bloquent leur utilisation future.
4. Le problème de la sécurité des données en ligne
4.1 Savoir évaluer son besoin : On utilise le sigle DICT (ou DICP)
 Disponibilité, faculté d’un élément à être accessible dans des conditions prédéterminées
d’exploitation et de maintenance (de délais et de performances)
 Intégrité, consistant à empêcher les altérations, suppressions ou ajouts d’informations non
autorisées
 Confidentialité, consistant à empêcher la divulgation d’informations à des personnes non
autorisées
 Traçabilité/Preuve, consistant à gérer les traces des accès, actions ou échanges réalisés, afin
d’assurer la possibilité d’un contrôle systématique ou a posteriori, d’apporter des preuves
4.2 Savoir distinguer les enjeux sécuritaires et les actions à mettre en oeuvre
Données métiers Données personnelles

Définition Données liées à l’activité Information se rapportant à une
personne physique identifiée ou
identifiable directement ou
indirectement
Enjeu sécuritaire Menace business Menace juridique
Exemple - Concurrentiel (divulgation des prix, Mise en cause de la resp pénale
fichiers clients, fournisseurs...) et civile
- Opérationnels (indispo ou perte d’info
stratégique...) *
Actions à mettre Managériales : s’assurer du choix du + juridique : savoir si l’on est
en œuvre prestataire, négocier les contrats sous-traitant
Juridiques : se protéger, analyser les resp Si on connait la réglementation
Techniques : s’assurer que des bons outils (RGPD, loi I&L...)
techniques sont utilisés. Si on l’applique correctement
* Incendie chez OVH

Chapitre 4: Management Strate4Gique Des Donnees: 1. L'analyse Des Données Et L'entreprise "Data Driven"

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 4: Management Strate4Gique Des Donnees: 1. L'analyse Des Données Et L'entreprise "Data Driven"

Transféré par

Droits d'auteur :

Formats disponibles

CHAPITRE 4 : MANAGEMENT STRATE4GIQUE DES DONNEES

1. L’analyse des données et l’entreprise “data driven”

1.1. Définition d’une entreprise Data-Driven

1.2 Enjeu : Extraction de connaissances par les données (ECD)

L’information devient une ressource permettant de créer de la valeur en améliorant la gestion de

1.3.1 L’entreposage de données : Data warehousing

Le datawarehouse désigne la base de données utilisée pour collecter et stocker de manière

 Acquisition des données

Un outil informatique de type ETL = Extract Transform Load :

 Va piocher des données

- Des métadonnées (données sur les données) sont également stockées

Le datawarehouse et datamarts vont servir de ressources de données permettant aux utilisateurs

1.3.2 Les outils d’informatique décisionnelle

1.3.2.1 Les Requêteurs et tableurs

Interrogation de la base de données relationnelle au moyen d’un requêteur.

1.3.2.2 Traitement analytique en ligne (TAL ou OLAP : on line analytical process)

Progiciels permettant d’examiner de façon interactive et de manipuler de grandes quantités de

 Elle est directement compréhensible

1.3.2.3 Forage de données (datamining)

1.4 Le MDM : master data management (gestion des données de référence)

Le big data regroupe un ensemble d’outils sensé satisfaire la règle des 5V :

2.2. Technologies sous-jacente

Le principal enjeu du big data est la « data monétization » qui consiste :

2.4. Big Data et data analyses

Le Machine Learning (apprentissage automatique) est une technologie d’intelligence artificielle

Deep Learning (apprentissage profond) : sous-catégorie du machine Learning, il focalise

2.5. Ecosystème des plateformes

On peut identifier 4 grandes étapes dans le traitement des méga données :

3. L’information dans les nuages (cloud computing)

 Il est considéré comme un service (applications, puissance de calcul, moyens de stockage…) ;

3.1. Les différentes approches du cloud computing

 IaaS (Infrastructure as a Service) : ce service met à disposition une infrastructure

- Cloud public : c’est l’accès à un service mutualisé, hébergé chez un fournisseur

3.2. Les datacenters

Selon le modèle de cloud, ces bâtiments et infrastructure matérielle appartiennent à l’entreprise

3.2. Avantages et limites du cloud computing (SAAS)

4. Le problème de la sécurité des données en ligne

Données métiers Données personnelles

Vous aimerez peut-être aussi