Vous êtes sur la page 1sur 24

Le Datamining dans le business décisionnel

Introduction

Dans un monde de plus en plus compétitif, on peut constaté que les entreprises tentent de se différencier par une meilleure
maîtrise de leur système d’information.

Dans un premier temps, il a été impératif de mettre en place les systèmes opérationnels liés au
coeur de métier des sociétés. Dans un second temps, la problématique s’est positionnée sur
l’accès à l’information pour l’intégrer dans les différents processus d’aide à la décision. Cela
correspond à la mise oeuvre des infocentres.

Dans un troisième temps, se dégage la nécessité d’un point de vue global afin d’augmenter
l’efficacité analytique - un "business process"- ne peut se faire d’une manière isolée, il faut
prendre en compte les autres "business process" de l’entreprise. Les solutions passent alors
par le concept de DataWarehouse

De fait, le DataWarehouse(cf glossaire) se positionne en tant qu’architecture de solution aux


problématiques de qualité et d’intégration de données hétérogènes.

Parmi les domaines de progrès, la capacité d’analyser et de convertir les données en


informations pertinentes constitue l’un des enjeux majeurs du système d’information de
pilotage.

A l’intérieur de ce schéma, le DataMining tente précisément de fournir à l’utilisateur du


DataWarehouse cette capacité de convertir les données en informations « intelligentes ».

L’enjeu majeur consiste alors à intégrer le DataMining dans une démarche institutionnelle
accessible par différents niveaux d’utilisateurs et ne pas considérer ce type de technologie
comme un phénomène de mode ou une technique marginale mais comme un outil à valeur
ajoutée, partie intégrante de l’architecture de pilotage.

D’après, le Gartner Group, plus de 50% des plus grandes entreprises envisageraient
d’exploiter effectivement les données transactionnelles de l’entreprise dans le but d’en tirer un
avantage compétitif.

Ainsi, il apparaît intéressant d’anticiper les potentiels liés à cette technologie tout en analysant
plus précisément le contexte de développement dans lequel elle se situe actuellement.

1/ Le DataMining, pourquoi ?

Aujourd’hui, les entreprises doivent savoir anticiper pour mieux réagir, essayer de décrypter
le moindre écart de comportement sur les différents axes d’analyses dont elles disposent afin
de consolider leur avantage compétitif.

La prise de conscience du fait que les données, qui font partie de leurs transactions
quotidiennes, ont une valeur stratégique fondamentale qui augmentent et permettent d’orienter
les axes de recherche.
Parmi les axes d’analyses, on retrouve régulièrement le client, le centre de profit, les produits,
ou le temps auxquels sont associés tout un ensemble de paramètres associés.

Le DataMining prend une ampleur réelle et stratégique par rapport à un ensemble de facteurs
convergents et notamment :

<!--[if !supportLists]-->1. <!--[endif]-->Les progrès technologiques


spectaculaires dans le domaine du DataMining, proprement dit.

<!--[if !supportLists]-->2. <!--[endif]-->L’installation de plus en plus répandue


des DataWarehouse ainsi que l’augmentation exponentielle du nombre de
données. De fait, on trouve dans le DataWarehouse de plus en plus de données
aussi bien externes qu’internes.

<!--[if !supportLists]-->3. <!--[endif]-->Les évolutions technologiques du


hardware et du software soutiennent l’orientation des possibilités d’analyses
performantes sur des volumes de données de plus en plus importantes.

<!--[if !supportLists]-->4. <!--[endif]-->La maturité technologique et


commerciale des outils OLAP (On-line Analytical Process) qui automatisent
les reportings et facilite l’analyse des données multidimensionnelles.

<!--[if !supportLists]-->5. <!--[endif]-->La généralisation des besoins


d’intelligence métier pour les différents niveaux d’utilisateurs.

<!--[if !supportLists]-->6. <!--[endif]-->Le besoin de rapprocher des sources de


données hétérogènes nombreuses pour analyser une problématique de
l’entreprise.

De plus, il y a de toute évidence un effet marketing dans le développement des outils du


DataMining, mais il est associé à un effet tangible qui est une synthèse :

• <!--[if !supportLists]--> <!--[endif]-->de la chronologie des concepts décisionnels, c’est-à-dire, il fallait que la
collecte des données soit maîtrisée, que l’accès aux données soit facilité et enfin que le DataWarehouse se positionne
pour que le DataMining commence à s’imposer.

• de l’évolution technologique et des coûts qui font qu’on peut envisager de mettre en place aujourd’hui un projet
DataMining à un coût intéressant.

• de l’aspect OLAP, la base multidimensionnelle qui a permis à l’utilisateur de se familiariser dans l’exploration et
l’utilisation des données décisionnelles sous un format multidimensionnel.

• de la maturité des algorithmes de DataMining qui ont acquis une fiabilité et une diversité qui justifient une réelle
valeur ajoutée par rapport aux anciennes méthodes statistiques.

En résumé, la présence concrète du DataMining actuellement est due à la conjonction d’une


maturité technologie, d’une présence des systèmes stabilisés qui répondent à une maturité et
une curiosité de la part des utilisateurs.

2/ Qu'est ce que le DataMining ?


Le DataMining dans son sens le plus large veut dire la recherche des liens schématiques
dans une base d’informations volumineuse ou complexe dans le but de les transformer en
connaissance.

Ce que l’on désigne comme outils du DataMining dans cette étude sera plus précisément des
outils automatisés du DataMining, c’est-à-dire, la découverte de la connaissance en utilisant
une combinaison des techniques inspirées des statistiques traditionnelles, de l’intelligence
artificielle et des graphiques.

Le DataMining s’assimile ainsi à une recherche perpétuelle des schémas utiles dans les
données.

Cette recherche peut être automatisée ou guidée manuellement. L’inconvénient d’un système
guidé manuellement (OLAP, outils de Reporting & de Query) est que l’utilisateur doit créer
lui-même les types de schémas à utiliser et il se peut que dans la foulée, il ne s’aperçoive pas
ou néglige des schémas moins évidents.

Le DataMining est une méthode de recherche automatisée dans la mesure où même si


l’utilisateur doit fournir une certaine quantité de données au système, il ne les orchestre pas
lui-même pour trouver les schémas exploitables.

Le DataMining permet de donner un sens aux informations dont dispose l’entreprise. Cet outil
relève essentiellement de la sémantique.

Le DataMining a vu le jour dans les années 80, quand les professionnels ont commencé à se
soucier des grands volumes de données informatiques inutilisables tels quels par les
entreprises.

Le DataMining d'alors consistait essentiellement à extraire de l'information de gigantesques


bases de données de la manière la plus automatisée possible; contrairement à aujourd'hui où le
DataMining consiste à l'analyse qui suit l'extraction des données. Le dataMining s'est donc
dissocé du Datawarehouse.

3/ Les objectifs du DataMining

Dans un premier temps, les entreprises ont été appelées à constituer des bases opérationnelles
pour permettre de récupérer des données.

Dans un deuxième temps, les entreprises ont essayé de valider ces données par des outils de
pilotage comme l’EIS et le DataWarehouse. Elles se sont mises à transformer des données en
informations afin de prendre une décision.

C’est ainsi qu’on a pu découvrir l’émergence du système décisionnel.

A ce stade du processus, l’utilisateur est amené à donner une "intelligence" à l’information,


par conséquent, la problématique n’est plus seulement d’accéder à l’information mais de faire
en sorte que cette information soit interprétée selon des règles de statistique ou d’intelligence
artificielle pour lui donner toute sa valeur.

Les principales actions du DataMining sont :


3.1 EXPLIQUER un événement ou un incident
indiscernable

Par la consultation des données grâce à des outils de tableaux de bord papier ou électronique,
on peut etre en mesure de formuler la question suivante :

Comment se fait-il que l’on perd des clients sur tel segment dans telle région ?

En scrutant les données automatiquement l’outil de DataMining va essayer de trouver un


certain nombre d’explications à cette question en se basant sur des données connectées ou des
mises en signification de paramètres liés.

Le DataMining va aider à trouver des hypothèses d’explications.

3.2 CONFIRMER : un comportement ou une hypothèse

Par la consultation des données grâce à des outils de tableaux de bord papier ou électronique,
on peut être en mesure de formuler la question suivante :

Comment se fait-il que nous perdons des clients sur tel segment dans telle région ?

Toujours par la consultation, on essai de trouver un certain nombre d’explications à cette


question en se basant sur des données connectées ou des mises en signification de paramètres
liés.

En appliquant des méthodes statistiques ou d’intelligence artificielle, le DataMining va


aider à valider les hypothèses d’explications que nous avons découvertes.

3.3 EXPLORER : les données pour découvrir un lien


"inconnu" jusqu là.

Il n’y a pas d’idée sur une hypothèse ou sur un fait précis. Par conséquent, on demande au
système de proposer des associations ou des corrélations qui pourraient aider à découvrir des
événements marquants puis à découvrir des éléments d’explication.

Il serait certainement exagéré de croire qu’un état de technologie puisse remplacer la


réflexion; par contre, l’informatique décisionnelle par le biais du DataMining peut tout à fait
suggérer des associations et des corrélations entre les données afin d’identifier des hypothèses
et faire des propositions mais il reste toujours à l’homme-utilisateur de les vérifier et de les
valider définitivement.
LE SCHEMA DU
DATAMINING

La connaissance peut se définir comme une information enrichie d’un contexte et d’un savoir
faire.

• Les données :les données sont des données brutes provenant des bases de données différentes comme celles de la
comptabilité, des ventes, d’achats ou autres.

• Les informations :

<!--[if !supportLists]-->• <!--[endif]-->X a un revenu supérieur à 200KF

• <!--[endif]-->X & Y vivent dans les banlieues A & B

• La connaissance :

<!--[if !supportLists]--> • <!--[endif]-->si S a un ordinateur, S est


abonné à la revue J

• <!--[endif]-->le produit B est acheté par des gens qui achètent


les produits E
• La décision :

• <!--[endif]--
>Envoi à S ayant un
profil X un CD-ROM
promotionnel assez
cher.

• <!--[endif]--
>Rapprocher les rayons
des produits B et E pour
optimiser les ventes des
deux produits

4/ Le DataMining dans l'architecture du DataWareHouse

Le schéma du DataWarehouse est constitué en amont des données opérationnelles, c’est-à-dire, des données présentes dans
des systèmes de comptabilité ou de gestion marketing ayant des divers niveaux (de client, d’achat ou de factures)

On passe ensuite, à une phase d’alimentation afin de composer un "entrepôt de données" qui
sera une zone de stockage qui aura pour caractéristique d’avoir des données fiabilisées,
labélisées et stables et en même temps pour la première fois, on va créer un agrégat à partir de
ces données.

On a, à ce stade, une première fonction du DataMining qui consiste à trouver des


segmentations pertinentes ayant un comportement homogène par rapport à une
problématique donnée.
Bien évidemment, l’homogénéité de la problématique permet de mieux segmenter le
référentiel et d’obtenir un système plus performant.

Pour cela, le DataMining va se baser sur la typologie de la question évoquée et dans cette
perspective, fournir à l’architecte du système des éléments pour son analyse de la structure de
la base de données. Le rôle de l’architecte du système consiste alors à intégrer les hypothèses
afin de proposer le modèle de données le plus performant en terme de réduction de volumes et
de temps d’accès aux données.

Après ce premier niveau de manipulation (par exemple une segmentation géographique


réalisée à partir d’une notion d’adresse), On constitue un DataWarehouse et on est en mesure
de réaliser des agrégats plus sophistiqués et plus ciblés à l’intérieur d ‘environnements
relationnels ou multidimensionnels.

Ainsi, seront constitués les datamarts qui peuvent être de type OLAP si la base
multidimensionnelle permet de faciliter la manipulation des agrégats et des modèles
constitués.

De fait, dans l’utilisation du terme « DataMining » cohabitent deux concepts qui ne se situent
pas au même niveau de la chaîne du système d’informations. Dans le schéma du
DataWarehouse, l’un se trouve très en amont et l’autre se trouve très en aval.

Dans sa version orientée utilisateur final, le deuxième concept, le DataMining va permettre de


travailler des données présentes dans l’environnement relationnel aussi bien que
multidimensionnel de type OLAP.

A ce niveau, les informations sont passées par le filtre du DataWarehouse et ont pu être
enrichies ou orientées lors de leur passage dans les datamarts.

Le travail de l’outil DataMining est ainsi facilité ou orienté par ce premier niveau de
qualification.

En fait, il est aussi intéressant d’aller chercher des hypothèses ou d’expliquer des phénomènes
sur des données agrégées que de poser des questions sur des données plus « brutes » du
DataWarehouse.

Dans le schéma de l’informatique décisionnelle, les différentes technologies cohabitent en


remplissant une segmentation de fonction. Le DataMining, s’impose aujourd’hui comme un
des segments stratégiques dans le schéma décisionnel dans la catégorie des outils qui
apportent une valeur ajoutée à l’information.

5/ Les differents modules

Le DataMining utilise la technique de la modélisation pour faire des découvertes ou des


prévisions.

La modélisation comme son nom l’indique est le fait de créer un modèle à partir des situations
connues dans le but de l’appliquer à des situations inconnues. Par conséquent, le processus de
la création d’un modèle à partir du balayage et du filtrage des données est une étape
primordiale.
Selon le domaine d’application, l’outil DataMining est en mesure de proposer une technique
différente correspondant à des algorithmes et une méthode d’approche des données adéquates.

Ainsi, le DataMining va répondre à des problématiques de :

5.1 Segmentation

La segmentation permet de fragmenter la base de données en segments ayant des


caractéristiques similaires.

Il s’agit ici de définir des caractéristiques prototypées qui ont des comportements homogènes.

5.2 Classification

Ce module est caractéristique du DataMining amont. Il se propose de caractériser des groupes


de populations homogènes en rapprochant des paramètres possédés par chacun des membres.

Ainsi, la classification permet de développer des profils de groupe à partir des critères des
enregistrements.

5.3 Prévision

La prévision permet de mesurer l’influence d'un paramètre présent dans une population sur
l’ensemble des autres paramètres de cette population.
Ce module partant des informations agrégées se situerait plutôt sur la partie aval du schéma
décisionnel.

5.4 Association

L’association permet d’analyser la présence simultanée de valeur de paramètres sur un même


critère ou sur deux paramètres différents.

A l’intérieur d’un même critère qui peut avoir plusieurs occurrences pour un membre donné
ou entre deux paramètres, cela peut permettre de constater des liens entre des valeurs
possibles (rappel : critère = paramètre).

5.5 Modèle Séquentiel

Le modèle séquentiel induit des découvertes liées à l’axe temporel.

Il permet de trouver des modèles de comportement qui présupposent des enchaînements


systématiques qui suivront sur une période de temps.

5.6 Exemple

Pour concrétiser les notions décrites par ces modules, on peut effectuer un exemple simplifié
d’une population à qualifier par rapport à un acte d’achat d'une voiture haut de gamme dans
les six mois à venir.

Les membres de cette population ont des revenus qu’il conviendra de segmenter pour obtenir
une nomenclature significative et pertinente, c’est à dire ni trop diluée (trop de segments) ni
trop réduite (pas assez de détail).

On obtient ainsi des tranches de revenus et l’on va devoir connecter cet élément avec d’autres
éléments intéressants par rapport à la cible recherchée.

Après avoir segmenté les paramètres, afin de préciser la population type par rapport à
l’objectif recherché, on classifie les membres de la population pour déterminer une classe de
membre ayant par exemple un type de revenus donné, une voiture moyenne ou haut de
gamme, propriétaire de leur logement, ayant une carte de crédit "premier", etc...

L’ensemble des critères choisis permet de caractériser une population homogène sur laquelle
on a pu vérifier certains liens entre paramètres. Par exemple, une prévision de probabilité
d’achat de véhicule neuf décroît selon la récence de la date d’achat du logement.

On va donc affiner notre population en la limitant aux personnes ayant acquis leur logement
principal depuis plus de trois ans.
Par ailleurs, toujours avec la volonté d’affiner, on remarque grâce à l’outil que l’achat de
prestation d’hôtellerie haut de gamme était associé souvent à l’achat de voiture haut de
gamme.

Ainsi on peut rajouter ce critère à la définition de la population et réduire ainsi le périmètre


des personnes potentielles.

Enfin, en analysant les modèles séquentiels de comportements d’achat de voitures, on peut


remarqué grâce à l’outil, une tendance à racheter un véhicule neuf de gamme supérieure tous
les deux ans environ ou un achat de véhicule neuf ou d’occasion de gamme identique au bout
de trois à quatre ans environ.

On peut ainsi se concentrer sur les possesseurs de véhicules depuis deux à trois ans maximum.

6/ La methodologie

6.1 Méthodologie d’exploitation

La méthodologie de mise en œuvre du DataMining peut être définie en quatre phases


principales.

6.1.1 Pré-étude thématique

Avant de sélectionner les données il est primordial de définir les typologies d’objectifs et le
cadre méthodologique dans lequel la démarche DataMining peut amener une valeur ajoutée.

Au même titre, il conviendra de commencer une phase de sensibilisation et d’implication des


groupes d’utilisateurs potentiels et notamment parmi ceux de la direction générale.

Ayant défini les différents cadres de projet susceptible de correspondre, il convient par la suite
de déterminer les sources et les types de données disponibles. Ces données internes ou externe
à l’entreprise , doivent converger vers une zone de stockage de type datawarehouse, à même
de garantir l’homogénéité, la qualité, l’unicité, la labélisation, de l’information

Il est indispensable de rendre les données recueillies le plus homogène possible afin d’éviter
la prolifération des définitions pour un seul terme ainsi que la surcharge d’informations
inutiles.

Par exemple, la notion de « client » est typiquement difficile à définir quand elle implique
différents services de l’entreprise.

A la fin de cette étape l’entreprise obtient un ensemble de projets s’appuyant chacun sur une
base de données structurée, volumineuses mais identifiée.

6.1.2 Analyse de la structure des données

L’objectif de cette phase est d’optimiser la structure de la base de donnée.


Il est possible de réduire le volume
d’informations en diminuant d’une
façon pertinente les attributs
concernant ces informations et en
nettoyant la base de données.

Ce travail en profondeur sur les


informations représente un passage
obligé. Il implique des compétences
"métier" et des compétences
"DataMining" qui seront
déterminantes pour la qualité des
données. La qualité de l’analyse
dépend de la qualité des données.

6.1.3 Choix d’un outil

Il est nécessaire de bien connaître les objectifs et la nature des analyses attendues afin de
déterminer l’architecture technique et les plates-formes outils impliquées dans le processus de
DataMining.

Il est également primordial de déterminer les profils des utilisateurs concernés afin de
comprendre leur capacité à appréhender un outil ou une technologie plutôt qu’une autre.

Il existe actuellement sur le marché français un certain nombre d’outils de DataMining. Les
principaux sont cités dans les fiches d’éditeurs se trouvant à la fin de cet ouvrage.

Certains outils de DataMining sont englobés dans d’autres outils décisionnels tels que des
requêteurs ou des EIS.

Ainsi dans le choix de l’outil interviendront plusieurs critères tels que :

• <!--[if !supportLists]--><!--[endif]-->la technologie


• <!--[endif]-->les types d’utilisateurs
• les sources de données
• les typologies d’analyse
• le métier
• <!--[endif]-->....

6.1.4 Mise en œuvre de l’outil choisi

La méthodologie d’exploitation de l’outil DataMining peut se définir en huit étapes comme


décrit ci dessous :
L’une des caractéristiques principales de la méthodologie du DataMining s’appuie sur
le fait qu’elle est itérative et qu’elle permet de récupérer les informations obtenues afin de les intégrer dans le système
décisionnel de l’entreprise.

7/ Les techniques

Derrière la terminologie du DataMining se positionnent des outils basés sur des techniques
différentes.

• <!--[if !supportLists]--><!--[endif]-->Découverte de règles

• <!--[if !supportLists]-->Arbres de décision

• <!--[if !supportLists]--> <!--[endif]-->Signal Processing

• Fractales

• <!--[if !supportLists]-->Réseaux neuronaux

• Hybride

7.1 Découverte de règles


Valider ou proposer un schéma de fonctionnement des données à partir de règles connues ou inconnues.

Cette technique consiste à demander au système d’aller chercher dans les données une
validation d’une règle connue ou de découvrir lui-même une règle. On essais ici de construire
une logique procédurale dans les données.

7.2 Arbres de décision

Déterminer les critères significatifs dans un arbre de paramètres selon les poids statistiques
des valeurs constatées.
Cette technique consiste à formaliser un arbre qui va procéder à une analyse critère par
critère.

L’outil DataMining va scanner différents critères possibles afin d’essayer d’y retrouver des
propositions en arbre d’après les poids statistiques qui auront un sens et qui permettront
ensuite de trouver des liens entre les chemins qui ont une signification par rapport à la
problématique donnée.

7.3 Signal Processing

Filtrer les données afin de mettre en évidence des comportements de données.

Cette technique consiste à positionner les données et les filtrer à travers une hypothèse pour
essayer de faire apparaître un lien entre ces données.

7.4 Fractales

Composer des segmentations à partir de modèles mathématiques basés sur des regroupements
irréguliers de données.

7.5 Réseaux neuronaux

Utiliser des technologies d’intelligence artificielle afin de découvrir par l’apprentissage du


moteur des liens non procéduraux.

Ces deux dernières techniques s’appuient sur des algorithmes mathématiques (Fractales) et
d’intelligence artificielle (Réseaux neuronaux) et tentent à travers des méthodes
d’apprentissage de constituer des logiques non procédurales.

8/ Les outils du DataMining

Editeur Outil Technique utilisée

Angoss Knowledgeseeker Arbres de décision

Business Forecast Forecast Pro Prévision


Systems

Cross/Z International F-DBMS Fractales


Inc.

Datamind Datamind Détection de modèles,


prédictions, hybride

IBM Intelligent Miner Prévision

Information Discovery IDIS Découverte de règles

Integrated Solutions Clémentine Arbres de décision,


Ltd. Réseaux neuronaux

Isoft Alice Arbres de décision

MIT GMbH Data Engine Signal Processing

Netral Neuro One Réseaux neuronaux

NeuralWare Predict Réseaux neuronaux

PMSI Saxon Réseaux neuronaux

RIS 4Thought Réseaux neuronaux

SAS Institute SAS System Statistiques, arbres de


décision, réseaux
neuronaux
Silicon Graphics Mine Set Arbres de décision,
découverte de règles

SLP Infoware STATlab Statistiques

SPSS Neural Connection Réseaux neuronaux

SPSS Chaid Arbres de décision

9/ Les diverses applications

Depuis l’apparition du concept de DataMining, il existe une tendance à l’associer


exclusivement aux domaines du marketing et de la grande distribution.

Il est certain que le DataMining représente un outil "exceptionnel" pour les directions
marketing, mais de nombreuses autres fonctions de l’entreprise peuvent être concernées.
Afin de mieux comprendre les liens et les corrélations cachées qu’un outil de DataMining
peut dénicher, voici quelques exemples concrets d’informations provenant de l’utilisation de
cette famille d’outils.

9.1 Par fonction


Marketing:

• Comportement des consommateurs : découverte de comportements d’achats couplés dans le cadre d’une
politique promotionnelle. Cela a permis un accroissement de la rentabilité des politiques promotionnelles d’une chaîne
de magasins.

• Marketing direct : augmentation du taux de retour des mailings (75 à 80%) grâce à un meilleur ciblage des envois.

• Fidélisation de la clientèle : une banque a trouvé des relations et des comportements inconnus jusqu’alors en
vérifiant l’activité des comptes clients. Cela lui a permis de définir une nouvelle cible marketing et de la fidéliser par
des moyens plus appropriés à son comportement.

• Segmentation de clientèle : découverte d’une niche de petite taille dont le revenu est très élevé, inconnue par le
service marketing.

• Optimisation d’un réseau d’agence grâce à la découverte des couples cible/produit et produit/marché.

Ressources humaines:

• Politique d’acceptation et de rejet des candidatures

• <!--[if !supportLists]--><!--[endif]-->Politique d’évolution des carrières

Ventes:

• Prévision des ventes

• Découverte de cycles de ventes

Qualité:

• Analyse de satisfaction des clients

• Typologie des clients

• Détection des fraudes

<!--[if !supportLists]-->Pricing:

• Détermination des prix par rapport à des catégories et des comportements d’achat.
<!--[if !supportLists]--><!--[endif]-->etc... :

• Analyse financière, Gestion des stocks, Logistique, etc..

9.2 Par Secteur

Les secteurs d’activité dans lesquels le DataMining est déjà présent sont de plus en plus
nombreux.

Après la grande distribution aux Etats-Unis, cible historique, le DataMining est apparu dans
d’autres secteurs tels que :

• <!--[if !supportLists]-->Transport : pour réduire l’over-booking qui coûtait très cher aux entreprises.

• <!--[if !supportLists]--><!--[endif]-->Santé

• <!--[if !supportLists]--><!--[endif]-->Assurance

• <!--[if !supportLists]-->Télécommunications

• <!--[if !supportLists]-->Gouvernement : Trésor américain.

• <!--[if !supportLists]--><!--[endif]-->Banque : American Express - pour réduire le nombre de résiliations des cartes
de crédit.

• <!--[if !supportLists]-->Electronique : pour cibler les garanties des appareils.

• <!--[if !supportLists]-->Automobile : pour déterminer le niveau de fabrication qui provoque le plus de pannes.

• <!--[if !supportLists]--><!--[endif]-->Electricité

9.3 Par Utilisateur

Aujourd’hui le DataMining est utilisé par des personnes ayant un profil et des exigences bien
particulières. Nous les avons classés en quatre groupes distincts :

• <!--[if !supportLists]--><!--[endif]-->L’utilisateur final = est l’utilisateur qui ne connaît pas la technologie du


DataMining et ne veut surtout pas y être confronté. Il est en général protégé par des écrans "presse-boutons". Il
demande à l’outil de DataMining de lui apporter des solutions à ses problèmes particuliers.

• <!--[if !supportLists]-->Le statisticien = est l’utilisateur qui est passionné par la technique et souhaite y être
confronté. Il demande à l’outil de DataMining d’être "puissant" et riche en fonctionnalités.

• <!--[if !supportLists]--><!--[endif]-->Le business analyste = est l’utilisateur le plus « hybride » car il connaît un peu
la technique et très bien son métier. Il demande à l’outil de DataMining d’être facile à utiliser tout en lui laissant
quelques choix technologiques.

• <!--[if !supportLists]-->Le scientifique = est l’utilisateur le plus difficile à satisfaire car il a toujours une longueur
d’avance par rapport à la technique. C’est le scientifique qui permet aux outils de DataMining d’évoluer.

10/ Fiches éditeurs


Les éditeurs cités sont les principaux acteurs du DataMining présents sur le marché français.
Ce mémoire est un aspect évolutif par rapport aux éditeurs.
En effet, le marché du DataMining est en pleine croissance et de nombreux acteurs du marché
américain vont sans doute arriver en France.

Par conséquent, il ne sera pas possible de pouvoir tous les cités.

10.1 ANGOSS

• IDENTITE SOCIETE :

ANGOSS SOFTWARE
66, rueEscudier
92100 Boulogne

• PRINCIPAUX OUTILS DE L’EDITEUR :


- Knowledge seecker

10.2 DATA MIND


• IDENTITE SOCIETE :

DATAMIND France S.A.


31, rue du Pontjkh
92200 Neuilly-Sur-Seine

• PRINCIPAUX OUTILS DE L’EDITEUR :

<!--[if !supportLists]--> - DataMind Professional Edition (version monoposte Windows)

<!--[if !supportLists]--> - DataMind Data Cruncher TM (version serveur Unix, NT)

• DOMAINES D’APPLICATION :

- Marketing

- Commercial

- Production/Qualité

- Ressources Humaines
- Contrôle de gestion

- SAV

• TECHNOLOGIES ASSOCIEES :

Extraction faite à partir des bases relationnelles, des bases multidimensionnelles et des
fichiers plats.

10.3 HOLISTIC
• IDENTITE SOCIETE :

HOLISTIC FRANCE
31, bld de la Paix
78200 Saint-Germain-en-Laye

• PRINCIPAUX OUTILS DE L’EDITEUR :

- Holos

10.4 IBM
• IDENTITE SOCIETE :

IBM FRANCE
Tour Descartes - La Défense 5
2, avenue Gambetta
Courbevoie
Hauts de Seine.

• PRINCIPAUX OUTILS DE L’EDITEUR :

- Intelligent Miner (S/390, RS/600, AS/400)

• DOMAINES D’APPLICATION :

- Marketing
- Vente

• TECHNOLOGIES ASSOCIEES :

Extraction faite à partir des bases relationnelles et des fichiers à plat.


10.5 ISOFT
• IDENTITE SOCIETE :

ISOFT SA / ALICE SA
Chemin de Moulon
91190 Gif-sur-Yvette

• PRINCIPAUX OUTILS DE L’EDITEUR :

- ALICE (Version standard & Windows 3.11, Windows 95/NT)


- AC2 (Windows 16 et 32 bits, Unix)

• DOMAINES D’APPLICATION :

- Marketing commercial

- Marketing direct

- Finance (Analyse et risque)

- Etude et sondage

- Ressources humaines

- Etude clinique (santé)

• TECHNOLOGIES ASSOCIEES :

Extraction faite à partir des bases relationnelles, des bases multidimensionnelles et des tableurs.

10.6 PILOT
• IDENTITE SOCIETE :

PILOT SOFTWARE
101-109, rue Jean Jaurès
92300 Levallois-Perret

• PRINCIPAUX OUTILS DE L’EDITEUR :

- Pilot discovery server

• DOMAINES D’APPLICATION :

- Marketing
• TECHNOLOGIES ASSOCIEES :

Extraction faite à partir des bases relationnelles

10.7 SAS Institute


• IDENTITE SOCIETE :

SAS INSTITUTE
BP 5
77166 Evry Gregy

• DOMAINES D’APPLICATION :

- Marketing

- Marketing direct

- Scoring

- Analyse comportementale

- Ressources humaines

- Etude clinique (santé)

• TECHNOLOGIES ASSOCIEES :

Extraction faite à partir des bases relationnelles, des bases multidimensionnelle SAS, des fichiers à plat, des feuilles de
calcul et des progiciels.

10.8 Silicon Graphics

• IDENTITE SOCIETE :

SILICON GRAPHICS
21, rue Albert Calmette
78350 Jouy-en-Josas

• PRINCIPAUX OUTILS DE L’EDITEUR :

- Logiciel MINESET

• TECHNOLOGIES ASSOCIEES :
Extraction faite à partir des bases relationnelles

10.9 SLP INFOWARE

• IDENTITE SOCIETE :

SLP Infoware
51, rue Ledru Rollin
94853 Ivry-sur-Seine Cedex

• PRINCIPAUX OUTILS DE L’EDITEUR :

- STATlab : Analyse exploratoire


- DATAboard : Générateur de tableaux de bord et de rapports
- DATAMAN : Datamart multidimensionnelle

• DOMAINES D’APPLICATION :

- Marketing

- Commercial

- Qualité de service

- Ressources humaines

- Contrôle de gestion

- Etudes

• TECHNOLOGIES ASSOCIEES :

Extraction des données faites à partir des bases relationnelles, des tableurs, des fichiers statistiques et des progiciels.

11/ Glossaire

11.1 Agents intelligents.


Les agents intelligents sont des programmes d'exploration de réseaux dans le but d'analyser et d'en extraire de l'information.
On peut les diviser en deux groupes principaux :

• Les agents de recherche d’information peuvent apporter des éléments de réponse à la question posée par un
utilisateur, dans un langage plus ou moins proche du langage naturel, en explorant rapidement des volumes
importants d’informations et en triant celles qui ont un rapport avec la question de l’utilisateur. Citons l’exemple de la
question suivante à laquelle ils peuvent apporter une aide précieuse : "Quelles sont les agences de la région Ouest où
la vente de placements financiers est supérieure à la moyenne française ?"

• Les agents de traitement peuvent être programmés par l’utilisateur ou l’administrateur pour effectuer à intervalles
réguliers des tâches de recherche, de mise à jour de bases, d’extraction ou de traitement. Par exemple : le
lancement durant la nuit de requêtes personnalisées pour chaque responsable d’agence bancaire, l’alimentation d’un
cube multidimensionnel de ces données et l’édition d’un tableau de bord quotidien sur l’imprimante de l’utilisateur.
11.2 Base de données

La base de données où sont stockées les informations extraites des bases de production est le
composant principal du DataWarehouse.

On peut y retrouver des différents fichiers concernant les clients ainsi que des " étiquettes" qui
indiquent les liens entre les diverses données -client/article ou client/facture, par exemple.
La création de ces nombreux index nécessite un volume de stockage important, par
conséquent, une base de données DataWarehouse ou "entrepôt de données" peut atteindre des
tailles considérables, à savoir, plusieurs Gigaoctets ou même des Teraoctets de données .

Les bases de données peuvent être de différentes types :

<!--[if !supportLists]--> - hiérarchiques.


- relationnelles (stockage des données sous forme de tables).
- multimédia (stockage non seulement des données mais aussi des images et des sons).
- orientées objets.
-multidimensionnelles (stockage/rangement des données en plusieurs "dimensions" que
l'utilisateur peut croiser à sa convenance pour répondre à la question posée).

11.3 Base de données mutlidimensionnelles

Une base de données multidimensionnelle est une base dont les données sont stockées de
manière à optimiser le croisement entre les données.

La base multidimensionnelle est représentée par un cube en 3D bien qu’elle ne soit pas limitée
aux trois dimensions. En effet, elle peut gérer jusqu’à quinze ou vingt dimensions à la fois.
Seul inconvénient, l’augmentation des dimensions fait accroître également le nombre des
croisements entre les données et ceci ralentit considérablement les temps de réponse.

11.4 Base de données relationnelles

La base de données relationnelle, modèle de stockage le plus utilisé en informatique, présente


une organisation de l’information sous forme de tables.

11.5 Base de production

Dans un environnement DataWarehouse, on appelle fréquemment bases de production, ou


encore systèmes opérants, les bases de données utilisées par les applications non
décisionnelles de l’entreprise.

Dans cette catégorie, entrent les systèmes comptables, les bases de gestion commerciale, les
systèmes de paie, les bases de gestion de production industrielle....
11.6 Business intelligence

Ce terme, crée par le Gartner Group, regroupe les requêteurs, les outils d’analyse
multidimensionnels dont la base est stockée en local, ainsi que certains outils de DataMining -
des outils de bureautique destinés à un opérationnel par opposition à un informaticien.

11.7 Data Marts

Le Datamart est un sous ensemble du DataWarehouse. Il contient les données de l’entreprise,


liés à un métier tels que le marketing ou la comptabilité, par exemple.

Il peut contenir des données provenant des divers domaines de l’entreprise à l’inverse de la
base de production. Il maintient le lien avec l’entrepôt de données et le dictionnaire,
permettant ainsi de retrouver l’origine d’une information.

11.8 DataMining
Les outils dits de DataMining, traduisible par "forage des données", ou "prospection des données", permettent de sélectionner,
à la place de l’utilisateur un certain nombre de données.

Les différentes techniques utilisées dans les outils de DataMining sont les suivantes :
- Découverte des règles
- Arbres de décision
- Signal Processing
- Fractales
- Réseaux neuronaux
- Hybride

11.9 DataWareHouse

Le DataWarehouse ou l’« entrepôt de données » a deux désignations :


- la base dans laquelle sont stockées l’ensemble des informations
<!--[endif]--> - l’ensemble du système d’information décisionnel.

11.10 EIS

Un EIS (Executive Information System) est un outil qui permet de visualiser des données de
l’entreprise sous forme de tableaux de bord préablement conçus. A la différence d’un SIAD, il
ne permet pas de poser une question qui n’aurait pas été prévue initialement.

11.11 Méta-données.
Les méta-données sont les données sur les données, c’est-à-dire, l’ensemble des informations qui vont qualifier une donnée.
11.12 OLAP

Le système OLAP (On-Line Analytical Processing) Processing) est une architecture qui
privéligie l’analyse multidimensionnelle lié à l’informatique décisionnelle sur le traitement
transactionnel lié aux bases de production.

La norme OLAP a été définie par un chercheur américain, E.F. Codd.

Dans l’informatique décisionnelle, l’OLAP se situe généralement au niveau des data marts.

11.13 OLTP

Le système OLTP (On-Line Transaction Processing), également définis par E.F. Codd dans
les années 1970 est appliqué dans les bases de production (comptabilité, gestion commerciale,
gestion de production, gestion bancaire,...).

Il gère des transactions détaillées (ligne de commande, mouvement bancaire,...).

11.14 Outils d'alimentation

Les outils d’alimentation figurent en amont dans le schéma de l’informatique décisionnelle.


Ces outils sont utilisés pour récupérer les données des bases de production, systèmes opérants,
les convertir, les transformer et enfin les stocker dans l’entrepôt de données. Ils servent
également à gérer et à mettre à jour les métadonnées.

Conclusion

LE FUTUR ... DES OUTILS DECISIONNELS :

Le DataMining pourrait représenter une avancée importante dans l’informatique décisionnelle.

Dans la phase pré-DataMining, les outils décisionnels servaient principalement à accéder aux
données ou à mettre en place des simulations simples connues et éprouvées.

Aujourd’hui, avec le DataMining et le DataWarehouse, les outils décisionnels accèdent à


l’étape d’analyse des données.

Et demain, de quoi sera fait la phase post-DataMining ?

Les outils décisionnels de demain arriveront-ils à un tel niveau de sophistication qu’ils


permettront de prendre des décisions en donnant aux utilisateurs des "recommandations" en
temps réel ?

Dans tout les cas, il restera aux utilisateurs à en faire bon usage... et cela n'est certainement
pas la partie la moins intéressante du processus de management.