Vous êtes sur la page 1sur 5

Data warehouse et Data mining

Dekkak Hind
Le Data warehouse

1- Qu’est-ce-que le Data warehouse ?


Le terme de « Data Warehousing » designe le processus consistant à collecter et à gérer
des données en provenance de sources diverses, afin d’en dégager de précieuses
informations exploitables par l’entreprise.

Un « Data Warehouse » (en français : entrepôt de données) est une plateforme utilisée
pour collecter et analyser des données en provenance de multiples sources
hétérogènes. Elle occupe une place centrale au sein d’un système de Business
Intelligence (Informatique décisionnelle : permet de transmettre des informations
pertinentes aux responsables et managers dans les sociétés)

Cette plateforme marie plusieurs technologies et composants permettant d’exploiter la


donnée. Elle permet le stockage d’un large volume de données, mais aussi la requête et
l’analyse. L’objectif est de transformer les données brutes en informations utiles, et de
les rendre disponibles et accessibles aux utilisateurs.

Un Data Warehouse est généralement séparé de la base de données opérationnelle


d’une entreprise. Il permet aux utilisateurs de s’appuyer sur les données historiques et
actuelles pour prendre de meilleures décisions.

2- Comment est apparu le Data warehouse ?

Au fil du temps, les ordinateurs sont devenus plus complexes. Le volume de données à
disposition des entreprises a considérablement augmenté. Cette augmentation est à la
fois une aubaine et un défi pour les entreprises.

-Une aubaine, car les Données Clients permettent de connaître les besoins des clients et
d’y répondre au mieux avec des produits adaptés.

- Un défi, car les datas ont besoin d’être récoltées, unifiées et correctement traitées,
aussi bien pour des raisons marketing que pour des questions légales.

C’est la raison pour laquelle les Data Warehouses sont devenus indispensables.

En 1970, pour la première fois, Nielsen et IRI introduisent le concept de Data Marts
dimensionnels (une forme simple de Data Warehouse centré sur un seul sujet ou
fonction) pour les commerces de détail. En 1983, Teradata lance un système de gestion
de base de données spécifiquement conçu pour l’aide à la décision.

C’est IBM qui a créé le premier Data Warehouse d’entreprise à la fin des années 1980.
Cela dit, le concept d’entrepôt de données aurait été inventé par l’informaticien William
H. Inmon. Selon ce dernier, un Data Ware House doit présenter 4 caractéristiques :
 Être orienté sujet : il peut analyser les données en fonction de leur typologie.
 Être intégré : il rassemble et harmonise des données issues de différentes
sources.
 Être non volatile : il ne doit pas modifier les données qu’il stocke.
 Être « time-variant » : il permet des analyses par dates.

3- Comment ça fonctionne ?

Pour mettre en application ces 4 caractéristiques, les entrepôts de données sont


des assemblages complexes de plusieurs technologies. En plus de stocker un gros volume de
datas, les Data Ware Houses sont capables de transformer les données brutes (structurées,
semi-structurées ou non-structurées) en informations pertinentes et exploitables par des
utilisateurs humains (via des outils de Business Intelligence et des tableurs).

En ce qui concerne l’intégration des données, le fonctionnement d’un Data Warehouse


applique le processus ETL (Extract, Transform, Load. C’est un processus automatisé qui
prend les données brutes, extrait l'information nécessaire à l'analyse, la transforme en un
format qui peut répondre aux besoins opérationnels et la charge dans un Data Warehouse)
Ce qui fait que le Data Warehouse fonctionne comme un grand répertoire central.

L’agrégation et le stockage d’informations au même endroit permettent aux entreprises


d’avoir une vue d’ensemble sur les données concernant leurs clients et leurs utilisateurs. Le
Data Warehousing est là pour tirer profit autant que possible de ces données.

4- Les types de Data warehouse : Il en existe 3, à savoir :


- Les « Data Warehouses d’entreprise » (EDW) sont des entrepôts de données
centralisés (qui sont présentées de manière unifiée) permettant d’assister les
décisions de l’entreprise. Les EDW permettent aussi de classifier les données en
fonction de leur sujet.
- Les Data Stores opérationnels (ODS). Les données sont mises à jour en temps réel, ce
qui s’avère très utile pour les activités quotidiennes comme l’enregistrement des
rapports et enregistrements des employés.
- Les Data Marts qui sont une sous-catégorie de Data Warehouse. Elle est conçue pour
les entreprises des secteurs de la vente ou de la finance. Les données peuvent être
collectées directement depuis les différentes sources.
5- Les composants du Data warehouse : Un Data Warehouse repose sur quatre
composants principaux :

- Le « load manager » permet toutes les opérations d’extraction et de chargement des


données vers l’entrepôt. Il est aussi en charge de la transformation des données.

- Le Warehouse Manager, quant à lui, effectue les opérations liées à la gestion des données
au sein de l’entrepôt. Il permet notamment d’assurer la consistance des données, la création
d’index et de visualisation, la transformation et la fusion de données de plusieurs sources et
l’archivage.

- Le gestionnaire de requêtes effectue les opérations liées à la gestion des requêtes


d’utilisateurs en les aiguillant vers les tableaux appropriés.

- Les outils d’accès permettent aux utilisateurs finaux d’interagir avec le Data Warehouse. Il
peut s’agir d’outils de reporting, de requête, de développement d’application ou encore
d’exploration de données.

Le Data mining
1- Définition :

Le Data Mining (exploration de données, forage de données) est une pratique qui permet
de répondre à des questions et de résoudre des problèmes qui prennent traditionnellement
trop de temps et sont bien trop complexes. Pour y parvenir, on analyse les données en
utilisant différentes techniques statistiques.

Ce processus permet d’identifier des tendances, des relations entre les données qui seraient
passées inaperçues de prime abord. Les découvertes ainsi réalisées peuvent être utilisées
pour prédire les événements les plus probables et agir en fonction.

Le Data Mining combine plusieurs branches de l’informatique et de l’analyse de données.


L’une de ses caractéristiques principales est l’automatisation, par le biais du Machine
Learning (une forme d'intelligence artificielle (IA) qui est axée sur la création de systèmes qui
apprennent, ou améliorent leurs performances, en fonction des données qu'ils traitent) ou
d’outils de bases de données, afin d’accélérer le processus analytique et de découvrir des
informations pertinentes plus rapidement.

2- Les étapes du Data mining :


Le processus de Data Mining se décompose en plusieurs étapes. Tout commence par la
capture et le stockage des données.

Par la suite, les données sont triées selon leurs catégories. On procède ensuite à l’analyse
afin de découvrir des tendances ou des corrélations.

Plusieurs méthodes analytiques peuvent être utilisées. L’analyse en cluster consiste à


rechercher des tendances et des motifs récurrents dans des groupes de données. La
technique de régression permet de prédire les résultats les plus probables à partir de
variables connues.

La détection d’anomalie a pour but de détecter des phénomènes inhabituels dans un


ensemble de données. Le forage de « patterns » séquentielles, quant à lui, vise à découvrir
les connexions et les dépendances entre les données.

3- Quelles sont les techniques couramment utilisées en Data


Mining ?
Les techniques de fouille de données mises en place lors d’un projet de Data Mining
proviennent de l’Intelligence artificielle et des statistiques elles-mêmes. Ce sont des
algorithmes qui sont appliqués sur un ensemble des données d’une source (ex : Data
Warehouse) dans le but d’améliorer la qualité des données et d’en obtenir des résultats.

Réseaux neuronaux
C’est un paradigme d’apprentissage et de traitement automatisé qui s’inspire du
fonctionnement du système nerveux humain. Ce système permet aux neurones d’être
interconnectés dans un réseau (réseau neuronal) qui collabore pour produire des stimuli de
sortie.

Arbres de décision
C’est un modèle de prédiction qui est utilisé dans le domaine de l’Intelligence artificielle à
partir d’une base de données où sont construits des diagrammes de constructions logiques.
Il s’agit d’un système similaire à la prédiction basée sur des règles. Celles-ci servent à la
représentation d’une série de conditions qui se présentent successivement dans la
résolution des problèmes.

Techniques statistiques
C’est une expression symbolique sous forme d’égalité qui est utilisée dans les plans
expérimentaux et la régression. Elle permet d’identifier les facteurs qui modifient la variable.

Regroupement (clustering)
Il s’agit du regroupement d’une série de vecteurs selon certains critères, dont le plus
considéré est la distance. Il s’agit d’agencer les vecteurs d’entrée de manière à ce qu’ils
soient plus proches de ceux ayant des caractéristiques communes.
4- Le rôle du Data mining dans la Gestion de la Relation Client :

Les techniques d'exploration de données dans le CRM aident votre entreprise à trouver et à
sélectionner les informations pertinentes. Cela peut ensuite être utilisé pour obtenir une
vision claire du cycle de vie du client.

Le cycle de vie comprend l'identification, l'attraction, la fidélisation et le développement


des clients. Plus il y a de datas dans la base de données, plus les modèles créés seront précis
et donc plus de valeur sera gagnée. Le Data mining implique généralement l'utilisation de
techniques de modélisation prédictive, de prévision et de modélisation descriptive comme
éléments clés.

Le CRM à l'ère de l'analyse de données permet à une entreprise de s'engager dans de


nombreuses activités utiles. Vous pouvez gérer la fidélisation de la clientèle, choisir les bons
segments, définir des politiques de tarification optimales et classer les fournisseurs en
fonction de vos besoins.

Vous aimerez peut-être aussi