Académique Documents
Professionnel Documents
Culture Documents
Auguste Comte
Il est dusage de distinguer trois types diffrents de SI, les systmes supportant la conception
des produits (calcul numrique, CAO, ...), les systmes industriels (conduite de machines,
contrle de process industriel, ...) et les systmes de gestion. Ces derniers couvrent toutes les
activits de gestion du fonctionnement de lentreprise (marketing, vente, achat, production,
logistique, finance, ressources humaines, R&D). Pour des raisons techniques, qui existent
toujours en partie aujourdhui, les systmes dinformation de gestion ont t historiquement
structurs en deux sous systmes : lun dit oprationnel qui prend en charge la ralisation des
oprations au jour le jour, et lautre dit dcisionnel qui fournit des informations pour dfinir
la stratgie, piloter les oprations et analyser les rsultats.
Un systme dcisionnel est donc avant tout un moyen qui a pour but de faciliter la dfinition
et la mise en uvre de stratgies gagnantes. Mais il ne sagit pas de dfinir une stratgie une
fois pout toute, mais dtre mme de continuellement sadapter son environnement, et de
le faire plus vite que ses concurrents. Pour cela il convient de bien comprendre son
environnement, dajuster ses interactions avec lui en faisant les meilleurs choix de cibles et
dactions. Concrtement le chemin suivre peut tre caractris par les quatre objectifs
Mais comment parler dnergie collective quand on voit telle entreprise vanter les mrites de
son nouveau systme dinformation, reposant sur 17 objectifs stratgiques et une quarantaine
dindicateurs, qui sont analyss par les cinquante cadres dirigeants gravitant autour de la
direction gnrale. Pourquoi cinquante personnes seulement, alors que cette vision et ces
objectifs stratgiques devraient tre partags par lensemble de lentreprise ?
Lexprience montre que si les entreprises sont aujourdhui en mesure de dfinir leur vision
et leurs objectifs stratgiques, elles ont en revanche toujours autant de mal les mettre en
uvre et les diffuser dans lensemble de leurs quipes. Au mieux parvient-on mobiliser la
direction gnrale, le marketing et les forces commerciales, par nature plus sensibles leur
environnement. Mais par exemple les quipes de production sont encore trop souvent mises
lcart. Pourquoi ? Parce que les entreprises sont toujours trs cloisonnes. Parce que
chaque service interprte les objectifs stratgiques en fonction de sa culture et de ses propres
intrts. Parce que lempilement des structures et des systmes dinformations complique la
mobilisation de lensemble de leffectif, autour dobjectifs globaux.
Or, les nouveaux outils de BI facilitent la mise au point dindicateurs fdrant toutes les
couches de lentreprise. La vision stratgique de la direction gnrale doit en effet tre
diffuse et dcline dans tous les services de lentreprise : il sagit de fixer chacun des
objectifs qui lui parlent . Parce quun chef dquipe sur une chane de montage se sentira
infiniment plus concern par un objectif de rduction des dlais de mise en route de la chane
ou par un ratio de dfauts, que par un objectif daccroissement de part de march au plan
mondial.
Le vritable enjeu du pilotage stratgique consiste donc dcliner une vision globale en une
batterie de tableaux de bord pertinents : chaque tableau de bord tant un affinage de
lobjectif gnral adapt aux ralits de chaque quipe. La mise au point de ces tableaux de
bord repose sur un systme dcisionnel performant, permettant dexploiter conjointement
lensemble des informations internes lentreprise, des informations issues des veilles
technologique, commerciale et socitale, ainsi que du benchmarking, de faon mettre au
point des tableaux de bord prospectifs et vritablement orients vers lamlioration de la
performance sur un march donn.
Pour tre efficaces, ces outils de gestion de la performance doivent concerner le plus de gens
possible. Par exemple le systme de pilotage stratgique du Rseau de Distribution dun
Grand Constructeur Automobile mobilise ainsi plus de 2 500 salaris autour dune batterie
de 2 000 indicateurs. Dans une grande entreprise, un bon pilotage stratgique doit fdrer
plusieurs milliers de collaborateurs autour dautant dindicateurs ( raison dune dizaine
dindicateurs au maximum par quipe, et dune cinquantaine pour la direction gnrale).
Dans les grandes entreprises les directions gnrales poursuivent principalement trois
objectifs. Premirement globaliser les activits, c'est--dire concrtement dfinir une
stratgie globale, assurer lunit de sa mise en uvre par toute lentreprise qui doit
manuvrer comme un seul homme, et piloter lensemble au plus prs sans dlai.
Deuximement optimiser les processus, cest--dire se focaliser sur les lments cls du
mtier de lentreprise (cration de loffre, production, commercialisation et gestion des
ressources), avec concrtement la fin des approches par fonction au profit dune intgration
des visions (commerciales, financires, ), pour optimiser la valeur ajoute prvue dans le
cadre de la stratgie. Troisimement rationaliser les moyens, c'est--dire les dimensionner,
les localiser en fonction des objectifs stratgiques, avec concrtement un dveloppement du
travail en rseaux mondiaux et la fin des baronnies, des potentats locaux et des degrs de
libert des filiales.
Plus prcisment si lon prend le domaine financier dune entreprise il sagit de matriser et
dharmoniser les pratiques travers toutes les filiales (par exemple la socit NCR est
prsente dans 130 pays), dacclrer la publication des rsultats (souvent actuellement il faut
de 5 8 jours ; la nouvelle cible est de 2 jours), de rduire les cots de la fonction financire
(actuellement souvent > 1% du chiffre daffaires alors que la nouvelle cible est denviron
0,5%), de rduire les encours clients, de rduire les stocks, etc. Dans les entreprises qui
globalisent leurs activits, tous les domaines Marketing/Ventes, Production, Gestion des
Ressources, R&D font lobjet des mmes approches de redfinition des objectifs, des
organisations et des moyens.
En terme de systme dcisionnel pour rpondre aux besoins actuels des grandes entreprises
dcrits ci-dessus, il convient comme il a t vu au chapitre prcdent dtre mme de : 1)
quiper de plus en plus dutilisateurs diffrents (Directions, Experts en analyse de donnes,
Analystes dune fonction, Responsables oprationnels, Oprationnels, ). 2) intgrer les
donnes dans un entrept de donnes dentreprise (EDW) : intgrer les ODS, consolider les
Data Marts, assurer via lEDW la qualit des donnes. 3) traiter de plus en plus de donnes :
taille des disques, puissance des systmes, ETL & ELT, EDW et mise en place de Data
Marts logiques. 4) intgrer du support dcisionnel dans la gestion des oprations (rendre
lentrept de donnes actif ADW) : multiplication des scorings, dveloppement de services
internet (SOA). 5) intgrer dans une architecture dentreprise les diffrents outils de la BI
(Oracle, IBM, Microsoft, SAP, SAS, ). 6) dvelopper de nouvelles applications de
gestion du client (Calcul de la valeur client, compte dexploitation Client en BtoC, ), de
gestion des produits (par exemple problmatique des garanties : matrise aval et amont de la
vie des produits), etc.
La valeur dun systme dcisionnel pour une entreprise est dtermine par sa capacit aider
tre plus agile et pour cela dans de nombreux domaines de laide la dcision la vitesse est
primordiale : vitesse dacquisition, danalyse et daction. A ce jeu il sagit de rduire le plus
possible les latences entre loccurrence dun vnement mtier, la capture des donnes
correspondantes, la mise en cohrence et en perspective, la production dune information et
laction. Lexprience montre que seule une architecture de systme dcisionnel fonde sur
un gisement centralis de donnes dtailles dentreprise peut permettre de rpondre ce
dfi.
Etre dans le vent, cest une ambition de feuille morte : parlez mtier
En tant que responsable Marketing je suis bien plac pour savoir que le vocabulaire suit des
modes et vieilli vite. Infocentre, EIS, SIAD, CPM, Scorecarding, sont autant de mots qui se
priment et ne permettent plus de correctement dcrire les pratiques et les projets des
entreprises daujourdhui. Lutilisation de donnes historiques se dveloppe dans lentreprise
en surfant sur la loi de Moore. Il y a quelques annes la presse publiait rgulirement des
listes dentreprises qui avaient un entrept de donnes de plus dun Tra, aujourdhui
certaines entreprises ont dj des entrepts de donnes de plus dun Pta.
Ce dveloppement effrn vient du fait que les entreprises ont dcouvert que la premire
condition de la conduite intelligence des affaires, cest davoir de la mmoire, que les
dcisions essentielles pour la vie des organisations se prennent tous les niveaux des
structures, et que linformation dautant plus de pertinence quelle colle lvnement
mtier et quil convient donc de la capturer, de la mettre en cohrence, en perspective et de
la dlivrer la vitesse grand V. Exit donc tous les systmes au rythme batch et aux donnes
agrges, tous ses data marts optimiss qui sont obsoltes le jour de leur recette.
Les bons objectifs se fixer sont en premier de crer une vue consistante des donnes
travers lentreprise, puis de mettre en place des moyens qui permettent dobtenir plus
rapidement des rponses aux questions mtiers. Pour cela il convient de construire un
entrept de donnes dynamique qui enregistre les vnements mtier au fur et mesure
quils sont mis par les applications oprationnelles, et qui les met disposition pour
supporter les dcisions oprationnelles, de pilotage, de management ou de stratgie.
Si nous prenons le processus de la relation avec les clients, le volume des vnements
grer pour une grande banque se chiffre en centaines de millions dinteractions par an, avec
par exemple pour une grande banque franaise : 100 millions de contacts en agence, 100
millions de sessions aux distributeurs ou guichets automatiques, 40 millions de visites
internet, 20 millions daccs au serveur vocal, 5 millions de contacts au centre dappels. Une
bonne gestion de ces vnements et de leur historique doit permettre une plus grande
efficacit de la force de vente, du marketing en particulier par une meilleure connaissance
des clients et une interaction multi-canal plus cohrente.
Pour en revenir au vocabulaire qui vieilli et pour viter dans lavenir de nous tromper de
vocabulaire, je conseille de ne pas suivre la mode de la BI ou mme dutiliser les mots de la
BI. Il convient de parler de donnes, dapplications mtier et concrtement par exemple dans
le secteur de la distribution : dassortiment, de stock, de fournisseur ou encore de faon plus
fine de la suppression dun article, des affinits produits, des ventes perdues toutes choses
qui se traquent travers les vnements que les systmes oprationnels grent.
Illustration 7
Matriser linformation est plus que jamais un moteur de comptitivit pour lentreprise,
mais aussi pour les Etats. Dans le cadre de la mondialisation et du passage dune logique
doptimisation de la production une logique dinnovation, la puissance dune entreprise ou
dun Etat est lie la matrise de toute la chane d'information, pour les trois raisons
principales dcrites ci-dessous.
Les modes de consommation ont volu. Nous sommes passs dun march de masse une
production diversifie qui cherche rpondre avec finesse la demande et ce dans toutes les
branches dactivit (industrie, assurance, etc.). Aujourdhui le client nest plus face
lentreprise, il pntre dans lentreprise. Autrefois, la clientle tait disponible, en position
dattente, la concurrence tant limite, voire nulle. Aujourdhui on est lcoute du client
dans une posture proactive.
Le march est devenu concurrentiel aprs des annes de cloisonnement par lEtat nation,
particulirement en France, pays dont 70 % des changes extrieurs concernaient en 1970
uniquement son vieil empire colonial. Aujourdhui, prs de 70 % des changes extrieurs
franais ont lieu au sein de lEurope. Globalement nous sommes passs en 40 ans dun
march protg un march ouvert.
La matrise des connaissances : connatre et protger. Lidentit dune entreprise tient plus
son savoir et son savoir-faire qu son produit. Souvent, elle est potentiellement capable de
faire autre chose, en basant sa comptitivit davantage sur ce quelle sait faire que sur ce
quelle fait dj. Enrichir le systme en place nest pas simple et il convient de faire une
distinction entre protection de linformation stratgique et culture du secret. Dans
lentreprise, beaucoup trop dinformations sont classes "top secret". Il est important de
hirarchiser le niveau de confidentialit afin de ne pas touffer la communication
indispensable au dveloppement de lentreprise, voire sa survie.
La coordination des acteurs et des activits. Cette coordination est ralise en interne, en
sensibilisant le personnel aux orientations de lentreprise, mais aussi en externe, par la
constitution dun rseau de fournisseurs, de clients, de centres de recherche, etc. Lentreprise
Tous ces outils sont excellents lorsque linformation se met au service de la stratgie et il
sagit donc en particulier de savoir intgrer des donnes en provenance de sources trs
varies :
Les fournisseurs dinformation : Presse, librairies, bibliothques, banques de donnes,
centres dinformation,
Les nouveaux rseaux : Internet,
Les institutions : Administration, organisations internationales, associations, centres de
recherche, instituts, fondations, universits,
Les groupes partenaires : Sous-traitants, fournisseurs, clients, concurrents, groupements
professionnels, financiers,
Les consultants et experts : Ecoles dingnieurs, universitaires, experts, centres
techniques, consultants, bureaux dtudes,
Les manifestations : Colloques, salons, voyages dtudes,
Les rseaux personnels : Clubs, collgues, confrres,
Les sources fortuites : Train, avion, la rue, les stagiaires,
Les sources internes : encore faut-il ne pas les oublier.
Alors que les entreprises grent dimmenses quantits de donnes, les experts informatiques
ne cessent de chanter les louanges du concept de la Business Intelligence (BI). Avoir un
accs rapide une comprhension toujours plus pointue des clients, des oprations et des
dangers qui menacent, est effectivement une perspective extrmement sduisante. Sous la
pression des demandes constantes de rduction des cots, de diminution des risques, de prise
en compte des exigences lgales et damlioration des bnfices, les responsables mtier
sont particulirement attirs par les possibilits offertes par la BI.
Le dfi est de se rendre dun point un autre et les nombreuses pierres dachoppement
potentielles peuvent rendre le voyage particulirement difficile. Certains ont chou en
essayant den faire trop dun coup, en voulant que toutes les donnes de leur entreprise
soient disponibles immdiatement pour un large ventail dinterrogations potentielles. Cela
reprsente un investissement norme en temps, en ressources et ces entreprises doivent se
battre pour simultanment absorber les cots, mettre en place et produire une valeur.
Dautres se sont montrs trop prudents avec des investissements insuffisants et des progrs
trop lents. Au final une valeur ajoute trop faible, de sorte que souvent certains utilisateurs
finissent par penser quils peuvent obtenir de meilleurs rsultats en entretenant leur propre
stock priv de donnes pour rsoudre leurs problmes spcifiques, et alors il ny a
pratiquement pas davantages pour lensemble de lorganisation tirer dun tel
environnement de BI. Une autre erreur frquente des organisations informatiques est de se
concentrer sur une rduction forcene du volume des donnes, plutt que sur le
dveloppement dune comprhension dtaille de la faon dont les utilisateurs vont pouvoir
exploiter les donnes et produire une vritable plus-value commerciale. Ici aussi les
utilisateurs mtier dus finissent par dpendre plus que jamais de solutions de BI artisanales
et disparates pour faire face lvolution de leurs propres besoins. Enfin dans tout les cas,
quand les utilisateurs napprcient pas leur travail, les informaticiens se sentent dprcis et
sous-employs.
Evidemment ces exemples ne sont pas les scnarios que de nombreux promoteurs de la BI
dentreprise ont en tte lorsquils voquent leur vision. Cependant quelques entreprises ont
russi minutieusement planifier pour leur domaine BI un parcours de bon sens et
dployer un environnement puissant et pertinent. Les meilleures pratiques de construction
dun environnement de BI ont vu le jour tant partir de russites que dimplmentations
imparfaites.
Trois tapes pour garantir un niveau dadoption optimal et un maximum de valeur ajoute
Seconde tape : Clarifier et dvelopper les hypothses en organisant des sances de travail
avec les utilisateurs du domaine. Dans cette tape, la direction et linformatique organisent
une srie de runions avec les utilisateurs concerns afin de tester et daffiner les hypothses
originelles. Les runions se concentrent dabord sur la comprhension des buts et objectifs
des utilisateurs. Par exemple les utilisateurs peuvent dire que dans le but damliorer les
activits de prts immobiliers, ils ont besoin davoir un profil de tous les dtenteurs de prts
actuels qui ne sont pas en dfaut de paiement, mais qui ont galement dautres produits de
dpt et de prt. Il peut sagir dun problme de non rglement de carte de crdit ou de
dcouvert sur un compte chque sur lequel ils viennent dinterrompre leur ordre de virement
automatique par exemple, et qui indiquerait un dfaut potentiel de rglement des mensualits
de leur crdit immobilier. A partir de l les utilisateurs et les informaticiens peuvent formuler
des questions commerciales cls. Puis explorer de quelles donnes lorganisation dispose-t-
elle dj, et de quelles donnes a-t-elle besoin pour rpondre ces questions commerciales ?
Dans quel dlai linformation doit-elle tre disponible pour tre efficace ? Des applications
sont-elles en place pour que ce soit ralisable ? Ce processus permet aux deux groupes de
comprendre linformation existante, les carences des applications et de dcider sils
disposent de moyens suffisants pour rduire ces carences. Cela permet galement aux deux
groupes de comprendre leurs difficults et leurs capacits rciproques, de polariser le
dialogue sur lusage final et la valeur de linformation. Enfin les deux groupes doivent
considrer ces runions comme une plateforme partir de laquelle ils peuvent tendre leur
premire ide dautres opportunits damlioration. Les informaticiens peuvent dire par
exemple quils peuvent galement fournir un historique client plus dtaill et des
informations sur le profil des clients dans un dlai approchant le temps rel. La question
alors est, cela reprsente-t-il une valeur ajoute sur la faon dont le groupe Prts immobiliers
utilise linformation sur un dpt automatique interrompu, par exemple ? Est-ce que le fait
quun client na jamais enregistr de dfaut de paiement sur sa carte de crdit peut tre
utile ? Grce ce dialogue les relations prennent de la valeur, linformatique et le
commercial sengagent dans un processus conjoint avec un objectif partag. Ce processus et
Troisime tape : construire et tester le modle. Une fois que les besoins et les capacits
effectives sont clairs, que le projet est dfini, les informaticiens doivent sappuyer sur les
lignes directrices mtier pour construire lenvironnement BI pour ce projet particulier. La
premire tche consiste relier les questions mtier aux donnes requises et aux applications
sources des donnes. Les socits ont intrt organiser leurs donnes au sein dun modle
logique appropri calqu sur le mode de fonctionnement du secteur concern, pas
uniquement sur la structure organisationnelle actuelle. Ceci permet de faciliter la
transformation des donnes en information commerciale utile. A partir de l le systme peut
faire le lien entre des questions mtier (par exemple : quel dtenteur de prt immobilier a
interrompu un dpt automatique ?), et tout un ventail dopportunits damliorations
mtier spcifiques (rduction des dfauts de paiement, amlioration de la fidlisation des
dtenteurs de dpts de fonds et/ou de prt de grande valeur, augmentation des ventes
croises sur valeur hypothcaire), qui sont lies aux buts et objectifs originaux que la
direction avait dfinis (dvelopper de 10% lunit dapport de fonds propres sur les prts
immobiliers et rduire les hypothques et les taux de dfaut de remboursement des prts au
logement du mme montant). Quand cela est appropri les socits peuvent modliser
limpact commercial anticip de cette dmarche, en analysant la combinaison de croissance
des revenus, la rduction des cots et/ou la diminution des risques susceptibles de se
produire. Ceci contribue dterminer les priorits des opportunits commerciales
garantissant ainsi un dploiement plus efficace des ressources.
Cependant la Banque doit dcider si la construction dun tel modle ne risque pas de ralentir
le projet dans son ensemble. Au lieu dun processus de modlisation certaines banques
peuvent prfrer lancer des projets pilotes prliminaires sur des marchs slectionns et
tester les rsultats obtenus avant de dvelopper cette ide lchelle globale. La focalisation
combine de linformatique et des mtiers sur un modle dfinitif de donnes dentreprise
intgres permet de rduire le nombre des systmes temporaires, qui augmentent les cots
cumuls et gnrent des donnes redondantes dans des silos isols.
Un certain nombre dorganisations de pointe ont russi grce cette approche pour trois
raisons simples : lensemble du processus est ancr dans des objectifs stratgiques ; il sagit
dune approche qui facilite le dialogue continu entre linformatique et les utilisateurs ; il
sagit dune approche qui amliore grandement les acquis organisationnels. Les avantages
sont considrables, dabord le dialogue permet gnralement aux projets de se dvelopper
au-del de lide originale dexploiter le potentiel de la BI ; ensuite en progressant de
russite en russite les entreprises crent un modle qui saffine en permanence et permet
une amlioration constante ; enfin tout ceci stimule lenthousiasme pour un dveloppement
continu de lenvironnement BI en dmontrant clairement que les besoins des utilisateurs sont
effectivement satisfaits. Au final les entreprises peuvent concrtiser la vision dun
environnement BI pertinent fonctionnant de manire optimale.
Le postulat fondamental de ces approches est que dans toute base de donnes enregistrant les
vnements dun processus conomique, les donnes ne sont pas distribues au hasard. Bien
que ces donnes soient simplement constates, le plus souvent collectes des fins purement
oprationnelles, on suppose quelles ont t gnres par une ralit en grande partie
dterministe, mais selon des processus que gnralement on ne connat pas. Les approches
analytiques cherchent mettre en vidence, dcrire et permettre de reconstruire les effets de
ces processus. Cette action didentification des effets dun processus partir de donnes se
caractrise par la construction dun modle, ensemble de rgles, dquations, de formules qui
rendent compte de la distribution des donnes dans la base.
Illustration 8
Construire mthodiquement un modle des donnes dont on dispose sur un objet de gestion,
est un saut important sur le chemin de la connaissance et de la dcision. Au lieu de
gigaoctets de donnes brutes, le dcideur dispose alors dune vue interprtable de son sujet
dtude. Mais attention ne pas se laisser piger par la mtaphore lie lexpression data
mining qui suggre que les donnes (data) ne seraient quun amoncellement de dbris, que
lon creuse (mining) la recherche de la ppite. Elle fait croire que le data mining rejette une
grande proportion des donnes disponibles, pour ne conserver quune petite partie
Dautre part pour certains, toutes ces approches analytiques de pointe, data mining ou fouille
de donnes ne seraient que de nouveaux noms branchs de la vnrable statistique. La
rponse est : oui, mais . Oui, car si vous faisons abstraction des techniques mises en
uvre, lobjectif est le mme : laboration et interprtation de modles de la ralit
construits partir dune description partielle de cette ralit par des donnes. Mais , car la
statistique traditionnelle ne rpond pas compltement aux attentes des utilisateurs potentiels.
Le progrs le plus attendu des nouvelles approches cest lindustrialisation des analyses,
alors que la statistique reste une activit artisanale, rserve un petit nombre de spcialistes
traitant avec beaucoup de soin un petit volume de donnes trs structures, et mettant en
uvre un savoir faire peu automatis. Or lambition des nouvelles approches cest damener
les biens faits de la statistique tous les responsables sans quils aient constamment recours
des statisticiens.
Cependant il ne faut pas se cacher, que la ralit est souvent compliqu, voire complexe, et
que les approches analytiques peuvent tre dlicate mettre en uvre et leurs rsultats
parfois ambigus ou incertains, mme si de nombreuses entreprises utilisent ces techniques
avec beaucoup de succs dans toutes les fonctions de lentreprise et en particulier dans les
domaines de la relation client, de la logistique, de la qualit.
De nombreuses entreprises florissantes ont dcouvert que les bruits qui circulent propos du
data mining ne se rsumaient finalement qu de simples mythes. Plutt que de cder ces
sirnes, ceux qui ont su voir plus loin y ont gagn un formidable avantage concurrentiel en
utilisant le data mining pour rsoudre des problmes d'entreprise complexes et voir
augmenter leur rentabilit.
Bien qutranger au monde des tlcommunications, cet exemple n'en reste pas moins
significatif de la faon dont des entreprises leaders sur leur march peuvent transformer des
donnes en informations, puis en actions et, au bout du compte, en bnfices.
Le data mining est un puissant outil d'analyse qui permet des responsables d'entreprises
daller plus loin que la simple description des comportements passs d'une clientle et de
prdire l'avenir. Il permet de dceler dans les comportements mystrieux des clients des
rgles qui les sous-tendent. Grce ces dcouvertes, il est possible d'augmenter les revenus,
de rduire les dpenses, d'identifier des opportunits commerciales et donc de bnficier
d'avantages concurrentiels certains.
Le dveloppement de mythes autour du data mining s'explique en partie par le fait que le
concept reste encore flou pour bien des gens. la base, le data mining se dfinit comme un
jeu de techniques mathmatiques complexes servant dcouvrir et interprter des schmas
jusqu'ici inconnus dans un ensemble de donnes dtailles. Depuis le milieu des annes
1980, priode partir de laquelle le data mining a commenc sortir du champ de la
recherche universitaire, mdicale et scientifique, ces techniques ont t appliques avec une
grande efficacit dans le domaine des tlcommunications, de la distribution, des banques,
des assurances, des transports et de l'htellerie.
La rputation d'outil analytique du data mining l'a souvent fait confondre avec la technique
de traitement analytique en ligne nomme OLAP. LOLAP est une technique analytique
prcieuse lorsqu'on l'applique l'analyse doprations commerciales afin d'en tirer une
perspective historique des vnements. Imaginons par exemple quun directeur du marketing
veuille comprendre pourquoi les ventes ont chut dans une rgion donne. Les outils
dOLAP lui permettent d'interroger la base selon de multiples critres, qu'il s'agisse des
ventes par segment, par produit, par service ou de leur volution. En examinant l'historique
des donnes sous plusieurs angles, ce responsable sera en mesure d'identifier les causes
(point de vente, produits ou priode) qui ont pes sur les ventes.
Le data mining s'intresse un ordre de problmes diffrent. Il peut servir prdire des
vnements futurs, comme les ventes du mois suivant en fonction des promotions ou le type
de consommateur qui sera le plus sensible une vente promotionnelle. La faon dont un
certain nombre dentreprises lutilisent dj permet de dissiper les cinq grands mythes qui
planent sur le data mining.
Le data mining n'est ni une boule de cristal ni une technologie capable de faire apparatre des
rponses comme par magie en appuyant sur un bouton. C'est un processus qui comporte
Les revenus et les cots sont calculs pour chaque client, les programmes de marketing et de
GRC (gestion de la relation client) sont ensuite labors en fonction de la rentabilit de ces
clients. Telle compagnie de tlcommunication sud-amricaine anticipe et intervient pour
empcher le dpart de clients valeur leve en reprant les schmas qui conduisent la
perte de clientle, sappuyant pour cela sur lanalyse des mesures d'utilisation, d'achat et de
qualit de services. Tel autre oprateur europen de tlphonie mobile a utilis le data
mining pour analyser le risque de churn (tendance du consommateur changer de
prestataire), afin de prendre des mesures proactives cibles visant identifier les clients et
les segments ayant la plus forte propension au churn. Arm de cette information, l'oprateur
a lanc des campagnes de marketing cibles qui lui ont permis de rduire de 50 % le taux de
churn sur les segments concerns. En parallle, la compagnie a bnfici dun taux
d'augmentation de 30 % au cours de la campagne marketing, amliorant du mme coup la
satisfaction des clients et par consquent leur dure de fidlit. Mais le data mining peut aller
bien plus loin qu'une simple analyse du comportement de la clientle. Un des principaux
oprateurs aux USA utilise le data mining pour amliorer les performances de son rseau,
sans avoir dpenser des millions de dollars pour actualiser son infrastructure rseau
existante. Grce une surveillance constante des rgles de performances et une analyse
permanente de l'historique de l'utilisation des composants et des lignes principales,
compltes par des mesures rgulires de l'activit de son rseau, cet oprateur peut veiller
ce que les appels soient achemins en utilisant la capacit disponible. Ces efforts lui
permettent d'enregistrer une baisse des dfauts de service et des interruptions techniques et,
paralllement, une hausse du nombre d'appels russis passs sur son rseau. Non seulement
le degr de satisfaction des utilisateurs augmente, mais l'oprateur est aussi en mesure de
fournir la qualit et la disponibilit de service exiges (et mesures) par les instances de
rgulation.
Mythe n 2 : le data mining ne serait pas encore viable pour des applications professionnelles
Le data mining est une technologie viable et ses rsultats professionnels sont hautement
priss. Ceux qui propagent le mythe en question sont en gnral les mmes qui se trouvent
contraints dexpliquer pourquoi ils n'utilisent toujours pas cet outil. Leur discours s'articule
autour de deux arguments lis. D'aprs le premier : Il est impossible d'utiliser efficacement
de grandes bases de donnes . Quant au second, il stipule que : Le data mining ne peut
Rpondons simultanment ces deux arguments. Les bases de donnes sont aujourd'hui
tellement vastes, que les entreprises craignent que l'architecture informatique supplmentaire
ncessaire aux projets de data mining n'entrane d'normes cots, et que le traitement des
donnes exig pour chaque projet ne soit trop long. C'est oublier que certaines des bases de
donnes modernes utilisent dsormais une technologie de traitement en parallle, qui
autorise lextraction de donnes au sein de la base. Lextraction de donnes dans la base
permet aux entreprises de supprimer les dplacements de donnes, dexploiter les
performances du traitement en parallle, de rduire la redondance des donnes et d'annuler
les cots de cration et de maintenance d'une base de donnes distincte et redondante ddie
au data mining. La combinaison de lextraction des donnes dans la base de donnes et du
traitement en parallle donne une technologie de data mining parfaitement viable.
La vraie question ne concerne donc pas la viabilit de la technologie du data mining mais
consisterait plutt se demander : " Comment le data mining peut-il m'aider amliorer
lactivit de mon entreprise ? " Dans le secteur des tlcoms, le data mining est une pratique
dsormais prouve qui a donn de vrais rsultats avec un retour sur investissement rapide
dans de nombreux secteurs, notamment la relation client, la gestion des campagnes de
marketing, la mesure de la valeur client, la gestion financire ou l'optimisation de l'assurance
de revenus et des performances rseau, pour n'en citer que quelques-uns.
Heureusement, les progrs raliss dans le domaine des bases de donnes n'exigent plus
d'effectuer le data mining dans un data mart distinct. En ralit, pour une opration de data
mining efficace, il faut pouvoir disposer d'un entrept de donnes l'chelle de l'entreprise,
ce qui, au regard du cot d'investissement total, se rvle considrablement moins cher que
d'utiliser des data mart distincts.
Voici pourquoi. Au fur et mesure que les socits mettent en place des projets de data
mining dans l'ensemble de l'entreprise, le nombre d'utilisateurs exploitant les modles de
data mining ne cesse de crotre, de mme que les besoins d'accs de larges infrastructures
de donnes. Un entrept de donnes d'entreprise d'avant-garde ne se contente pas de stocker
efficacement l'ensemble des donnes de l'entreprise et de rendre largement inutiles d'autres
data marts ou d'autres entrepts. Il constitue galement les fondations idales pour des
projets de data mining, en fournissant un rpertoire de donnes unique l'chelle de
l'entreprise, capable d'offrir une vision cohrente et actualise de la clientle. En outre,
l'intgration d'extensions de data mining au sein de l'entrept de donnes permet
l'entreprise de raliser deux types d'conomies supplmentaires. Tout d'abord, il n'est plus
Par exemple, l'un des plus grands oprateurs de tlphonie mobile aux USA utilise un EDW
(Enterprise Data Warehouse, entrept de donnes d'entreprise) centralis pour fournir des
informations une large gamme d'applications commerciales, depuis l'attention la clientle
jusqu'au marketing. Il n'en a pourtant pas toujours t ainsi. Cet oprateur, desservant de
nombreux marchs rgionaux, a t conduit tablir diffrents data marts rgionaux. Obtenir
une vue holistique des informations l'chelle de l'entreprise tait devenu pour le moins
difficile. Les prises de dcision souffraient de labsence de donnes ou dinformations
cohrentes, ce qui affectait le moral d'une quipe qui ne pouvait pas visualiser le fruit de son
travail.
En transfrant le tout vers un EDW centralis, cet oprateur a pu constater des rsultats
immdiats. Les donnes taient devenues cohrentes, les dcisions pouvaient tre prises en
toute scurit, avec l'assurance que les donnes reposaient sur des fondations saines. En
termes de performances, le nouvel EDW dlivrait des informations cohrentes presque 90 %
plus vite qu'avec l'ancienne approche par data marts fragments. Lorsquil est ncessaire
danalyser de grandes quantits de donnes, de tels gains de performances font la diffrence
entre tre prsent le premier sur un march en se fiant son seul instinct, et sy prsenter en
sachant que les dcisions prises l'ont t sur la base d'informations tires du comportement
rel des clients.
Certains estiment que le data mining est une technologie si complexe qu'il faut au moins
trois polytechniciens pour la matriser : un spcialiste en statistiques ou en mthodes
quantitatives, un commercial fin connaisseur de la clientle et un informaticien.
La vrit oblige dire que bien des projets russis ont t mens bien sans l'aide d'un seul
de ces polytechniciens. On peut citer l'exemple d'une socit sud-amricaine de
tlcommunications qui a russi reprer des changements dans le comportement de ses
clients, ce qui lui a permis de conserver 98 % de ses clients valeur leve en pleine priode
de drgulation. Ce succs est mettre au crdit d'une quipe multidisciplinaire travaillant en
collaboration.
Le data mining demande un effort de collaboration de la part d'un personnel qualifi dans
trois domaines. Les commerciaux doivent guider le projet en crant une srie de questions
commerciales spcifiques, puis interprter les rsultats obtenus. Les concepteurs de modles
analytiques, forms aux techniques, aux statistiques et aux outils du data mining, doivent
construire un modle fiable. Les informaticiens doivent apporter leurs comptences dans le
traitement et la comprhension des donnes, ainsi que leur indispensable soutien technique.
Mythe n 5 : le data mining serait rserv aux grandes entreprises disposant d'un large
volume de donnes client
Profitez-en
En conclusion : le data mining n'est plus aujourd'hui ni lent, ni coteux ni d'utilisation trop
complexe. La technologie et le savoir-faire commercial existent et permettent de mettre en
place un processus efficace et conome. Des compagnies de tlcommunications de tailles
diverses font partie des entreprises qui ont dcid de mettre les vieux mythes l'preuve et
de prouver que le data mining est un processus essentiel pour pouvoir prosprer dans un
univers professionnel domin par une concurrence froce et par l'obsession du client.
Tout cuisinier sait que la russite d'un chef-d'uvre culinaire, comme des macarons, rside
en grande partie dans les ingrdients. Il est difficile de prparer un excellent repas si les
ingrdients sont mauvais ou si leur combinaison n'est pas adquate. Il en va de mme pour
l'analyse de donnes. Si les donnes sont incompltes, inexactes ou sans rapport avec le
problme rsoudre, il sera difficile, voir impossible, de crer un modle. Par exemple, si le
modle de calcul de la valeur des clients attribue un faible score certains clients rentables
car les transactions en ligne ou les commandes spciales ne sont pas prises en compte, il y a
le risque de perdre certains des meilleurs clients. Lefficacit dun modle d'analyse de
donnes est donc directement proportionnelle la qualit des donnes. En d'autres termes,
ont ne peut pas faire de bons macarons avec de mauvais ingrdients.
La premire tape dans la prparation des donnes consiste recueillir les donnes relatives
au problme rsoudre. Si un utilisateur possde un entrept de donnes d'entreprise, le
processus est considrablement simplifi. Au contraire, si les donnes sont stockes en
divers endroits, il faut explorer plusieurs sources afin d'identifier les donnes disponibles
pour rsoudre le problme. Ds que les donnes qui doivent tre analyses sont dfinies, il
convient de les intgrer, les valuer et ventuellement les transformer pour sassurer qu'elles
sont valides d'un point de vue conceptuel, cohrentes et statistiquement analysables. Par
exemple, si les donnes proviennent de diffrentes sources, il faudra rsoudre de nombreux
problmes de formats et de dfinitions.
Une fois que les donnes sont slectionnes, il convient de les analyser l'aide de techniques
de statistiques descriptives et de visualisation pour identifier les problmes de qualit et
mieux comprendre les caractristiques des donnes. Des problmes de qualit des donnes
peuvent tre mis en lumire, tels que des valeurs manquantes qui peuvent nuire l'intgrit
de n'importe quel modle d'analyse. Il faut alors compenser et corriger les problmes
identifis. Ainsi, s'il manque des donnes, il faut dterminer la meilleure mthode pour
abandonner ou remplacer ces valeurs manquantes. Certaines techniques d'analyse de donnes
permettent destimer les valeurs manquantes sur la base d'autres valeurs mesures.
Il existe de nombreuses techniques qui peuvent tre employes pour obtenir de meilleurs
modles. Il s'agit par exemple de crer des variables "drives", de remplacer des valeurs
manquantes ou dutiliser des techniques d'agrgation ou de rduction des donnes. Il peut
tre ncessaire de rechercher les meilleurs agrgats ou de nouvelles variables analytiques
Enfin, les donnes doivent tre transformes dans un format adapt aux algorithmes
d'analyse. De nombreux algorithmes d'analyse de donnes requirent la transformation des
donnes de classification (non numriques) en donnes numriques ou la rduction de celles-
ci dans une plage particulire. Certains algorithmes et techniques statistiques ncessitent
galement que les donnes numriques possdent des proprits spcifiques qui n'existent
peut-tre pas dans les donnes avant la transformation. Pour ces variables, il faudra peut-tre
les encoder nouveau ou les transformer pour produire les variables adquates pour les
techniques d'analyse de donnes. Ainsi la valeur des donnes est directement proportionnelle
au temps et au soin consacr leur prparation en vue de rgler un problme analytique
particulier. A l'instar de ce que dirait un ptissier, la qualit du rsultat final dpend en
grande partie des ingrdients.
Comme il l'a t dit plus haut, la prparation des donnes est un processus qui peut prendre
du temps. En fait, les spcialistes de l'analyse de donnes qui comprennent l'importance de la
prparation peuvent passer jusqu 70 pour cent de l'ensemble du processus d'analyse,
l'tude et au prtraitement des donnes. Ils agissent ainsi du fait du caractre ncessairement
itratif de la prparation des donnes. Lors de l'tude et du traitement pralable, l'analyste
ralise des expriences avec les donnes. Il examine les relations entre les variables et ceci
peut ncessiter plusieurs itrations de requtes ad hoc ou d'autres analyses sur un volume
important de donnes. Jusqu'il y a peu cette prparation tait difficile car la majorit des
outils d'analyse de donnes ne fournissait pas les fonctions ncessaires pour effectuer avec
efficacit l'tude et le traitement de large volume de donnes, et ceci tait un inconvnient
majeur pour les spcialistes de l'analyse de donnes.
Les personnes qui savent que ces tches de prparation des donnes sont ncessaires et trs
utiles, mettent en uvre des moyens techniques compliqus, comme l'analyse de grands
volumes de donnes. La majorit d'entre elles prpare les donnes directement dans les bases
afin d'viter de devoir dplacer de grands volumes de donnes vers un serveur ou un poste de
travail ddi lanalyse de donnes. Cette mthode a fait ses preuves et les spcialistes de
l'analyse de donnes ont souvent utiliss des programmes SQL quils ont fait spcifiquement
dvelopps ou bien ils ont appris eux-mmes le langage SQL. Ceci tant dit, l'on observe une
volution nette en la matire vu les progrs raliss dans les technologies de gestion de
donnes.
Il existe dsormais des alternatives aux programmes SQL dvelopps manuellement pour
la prparation des donnes. De nouvelles solutions telles que les technologies de gnration
SQL au sein des bases de donnes permettent de raliser la prparation des donnes
directement au sein de la base d'une entreprise. Au lieu de dplacer les donnes vers l'outil,
des solutions du type Analytical Data Set Generator (Gnrateur de jeux de donnes
analytiques) permettent de placer les fonctions ncessaires et les traitements directement au
sein dune base de donnes. Ces solutions acclrent non seulement l'analyse grce
lutilisation du moteur de base de donnes qui prend en charge toutes les fonctions d'analyse,
mais ils offrent galement des fonctions qui facilitent et dans certains cas automatisent des
tches de prtraitement des donnes. Les fonctions dexploration de donnes sont
Les technologies de prparation des donnes telles que lADS Generator font que l'tude et
le prtraitement des donnes ne prennent plus autant de temps que par le pass. Au contraire,
grce ces nouvelles technologies, la prparation des donnes est devenue beaucoup plus
simple, plus facile et plus rentable. Pensez-y la prochaine fois que vous mangerez un
macaron.
Pour mettre en place une approche de fouille de donnes, il ne sagit pas uniquement de
choisir la bonne technique statistique. Il faut bien plus quune bonne technique statistique.
Les spcialistes dvelopp un cadre formel de fouille de donnes qui couvre en particulier
deux activits primordiales de ce type dapproche : la gestion de projet et le transfert des
connaissances. La fouille de donnes doit tre organise selon cinq tapes conscutives :
identification des problmes de lactivit, prparation de larchitecture, prparation des
donnes, analyse et livraison des connaissances.
Lors de la prparation des donnes, il faut en outre identifier, extraire et valider de grands
chantillons de donnes, les dplacer dans lenvironnement danalyse, tester leur pertinences
par rapport aux problmes rsoudre et enfin dvelopper, affiner les modles prliminaires
afin de garantir des rsultats encore plus solides.
La prparation des donnes nest pas une tche insignifiante. Elle reprsente en gnral 70%
du dlai. Les entreprises qui ont dj nettoy et transform leurs donnes dans un entrept
ont une longueur davance, mais il leur reste quand mme du travail. En effet, les seuils de
qualit des donnes pour la fouille de donnes sont bien plus levs que ceux pour les
utilisations habituelles dun entrept de donnes. Par exemple, il est ncessaire de passer les
donnes en revue la recherche des valeurs nulles qui sont inacceptables dans le cadre de
certaines techniques danalyse. Une fois que les valeurs nulles sont connues, il faut dcider
soit de remplacer ces valeurs nulles par des valeurs raisonnables et utiles ou soit tout
simplement de supprimer les enregistrements correspondants. Il faut valuer galement le
caractre variable de chaque lment pour sassurer que les donnes ont suffisamment
chang pour garantir des infrences fiables et valides. Enfin, alors que les premires
informations slectionnes sont mieux connues il faut explorer dautres donnes qui
pourraient venir les complter. Il nest pas rare de tester de grands chantillons de donnes
avant de trouver la slection de donnes pertinentes pour rpondre aux objectifs et aux
critres de qualit.
La dure moyenne dun premier projet de fouille de donnes est de trois mois (4 semaines
pour certains et 6 mois pour dautres). La complexit des problmes, les exigences au niveau
de larchitecture et des technologies, limportance de la prparation des donnes, la
complexit des analyses et lampleur du transfert de connaissances influencent la dure dun
projet de fouille de donnes.
Tant tout les cas il est impratif de trs bien dfinir le problme rsoudre et de sassurer
que la fouille de donnes est la solution la plus adapte. Les questions les mieux traites
grce la fouille de donnes sont celles qui cherchent expliquer un phnomne
relativement complexe ou qui ont une infrence sur des vnements ou un comportement
futur. Les questions qui ncessitent une synthse ou une simple description laide de
quelques variables sont traites plus efficacement avec les techniques traditionnelles de
prises de dcision et les statistiques descriptives.
Pour les projets de fouille de donnes, il convient de slectionner des individus qui sont
curieux, qui font preuve dune capacit de rflexion analytique et qui ont dexcellentes
aptitudes en technologies de linformation. Un diplme en statistiques ou en mathmatiques
Enfin dun point de vue technique, il est prfrable de raliser les qualifications, les examens
et les analyses des donnes au sein de lentrept de donnes autant que possible. Comme
cela a t dit plus haut, lidentification de donnes pertinentes et dexcellente qualit occupe
la plus grande partie du temps. Cela sexplique pour deux raisons : tout dabord, lorsque des
donnes ne satisfont pas aux critres de qualit, il faut revenir dans la base de donnes afin
dy rechercher dautres lments valuer. Plus vous en apprenez sur les donnes, plus vous
dcouvrez de nouvelles options et de nouveaux points de vue qui peuvent requrir un
raffinement de lapproche analytique et la slection dautres donnes. Globalement ce
processus implique de nombreuses itrations et tout cela est facilit si les oprations se font
au sein de lentrept de donnes..
Tous ceux qui envisagent la fouille de donnes un certain moment partagent une mme
caractristique, ils sinterrogent sur de nombreux points et notamment sur lintrt dune
telle approche. Vu que gnralement nous apprenons grce aux exemples, la plupart de ces
interrogations portent sur ce que font les autres spcialistes de la fouille de donnes : quels
problmes rsolvent-ils laide des technologies de fouille de donnes ? Comment sy
prennent-ils ? Combien de temps leur faut-il ? En retirent-ils quelque chose ? Dans le but
daider les entreprises qui tudient la valeur de la fouille de donnes, des socits de conseil
ont mis sur pied des laboratoires de fouille de donnes. Ils offrent aux entreprises le cadre,
les conseils et les outils pour tester la fouille de donnes et raliser des projets pilote avant de
mettre en uvre leurs propres solutions.
Par exemple, il sagit de se focaliser sur une ou deux questions spcifiques relatives au
comportement des clients et en particulier pouvoir les catgoriser. Ainsi, une grande banque
internationale voulait contrler les cots gnrs par ses clients lorsquils utilisaient les
distributeurs automatiques dautres banques. La socit voulait obtenir une rponse pour
chacune des quatre questions suivantes : Quest-ce qui constitue une utilisation excessive par
le client des distributeurs automatiques de la concurrence ? Quels sont les clients qui
gnrent des cots excessifs par lutilisation des distributeurs automatiques de la
concurrence ? Quelle est la valeur quils reprsentent pour notre banque ? A quoi devons-
nous prter attention lorsque nous utilisons ces rsultats ?
Lintrt suscit par la fouille de donnes varie en fonction des secteurs. Il semblerait que le
marketing et les finances marquent le plus dintrt pour la fouille de donnes. Les
spcialistes du marketing doivent matriser le retour sur investissement de leurs oprations et
pour cela, ils cherchent cibler les campagnes sur les clients les plus susceptibles dacheter
un produit ou un service particulier. Les dpartements financiers sont intresss par la
possibilit daligner le cot des services sur les revenus (ou les revenus potentiels) tirs dun
client ou dun segment de clients. Parmi les principales priorits de ces groupes, citons la
comprhension et la rduction de lattrition.
Exemple dun cas classique de modlisation des rponses marketing. Une entreprise de
tlcommunication obtenait un taux de retour de 0,5% sur ses campagnes marketing. Elle
souhaitait dcouvrir les clients les plus susceptibles dacheter des services groups. Cette
entreprise envisageait le dveloppement de capacits en matire de fouille de donnes mais
elle voulait dabord voir comment la fouille de donnes fonctionnait. Avec laide dune
socit spcialise, un modle de propension lachat a t cr afin daider lentreprise
prvoir les services qui, une fois groups, seraient susceptibles dtre achets par des clients
particuliers. Le dploiement du modle dans un territoire de vente test sest traduit par une
augmentation dun facteur 10 des ventes de services groups. Ces rsultats dmontrrent
lexactitude des prvisions du modle et convainquirent lentreprise de lefficacit de la
fouille de donnes. Les rsultats de ce test restreint furent tels que lentreprise a depuis lors
appliqu le modle au niveau national. Lentreprise a galement suffisamment appris sur les
procdures de fouille de donnes que la socit spcialise utilise, et a suffisamment
dvelopp ses aptitudes au niveau des outils danalyse quelle dveloppe aujourdhui ses
modles de manire indpendante.
Le Data Mining est une puissante technique d'analyse qui par exemple permet des
responsables d'entreprises daller plus loin que la simple description des comportements
passs d'une clientle et de prdire l'avenir. Il permet de dceler dans les comportements
mystrieux des clients des rgles qui les sous-tendent. Grce ces dcouvertes, il est
possible d'augmenter les revenus, de rduire les dpenses, d'identifier des opportunits
commerciales et donc de bnficier d'avantages concurrentiels certains.
Illustration 9
Au fur et mesure que les socits mettent en place des EDW (Enterprise Data Warehouse,
entrept de donnes d'entreprise) et couvrent l'ensemble des besoins dcisionnels des
diffrentes divisions et fonctions de lentreprise, le nombre d'utilisateurs exploitant des
modles de data mining ne cesse de crotre. En effet un EDW bien architectur ne se
contente pas de stocker efficacement l'ensemble des donnes historiques, il rend inutiles
d'autres data marts ou d'autres moyens spcialiss de stockage. Un EDW constitue la
fondation idale pour des projets de data mining, en fournissant un rpertoire de donnes
unique l'chelle de l'entreprise, capable d'offrir une vision cohrente et actualise des
activits. En outre, l'intgration de fonctionnalits de data mining au sein de lEDW permet
A titre dexemple, l'un des plus grands oprateurs de tlphonie mobile aux USA utilise
aujourdhui un EDW pour fournir des informations une large gamme d'applications
commerciales et marketing. Cet oprateur, desservant de nombreux marchs rgionaux, avait
t conduit tablir diffrents data marts rgionaux, et obtenir une vue densemble des
informations l'chelle de l'entreprise tait devenu particulirement difficile. Les prises de
dcision souffraient de labsence de donnes ou dinformations cohrentes, ce qui affectait
les performances et le moral des quipes qui ne pouvaient pas anticiper et mesurer le fruit de
leur travail. En transfrant toutes ses donnes vers un EDW, cet oprateur a pu constater des
rsultats immdiats. Les donnes taient mises en cohrence, les dcisions pouvaient tre
prises en toute scurit, avec l'assurance que les donnes reposaient sur des fondations
saines. En termes defficacit, le nouvel EDW dlivre des informations dune meilleure
qualit 90% plus vite qu'avec l'ancienne approche par data marts. Lorsquil est ncessaire
danalyser de grandes quantits de donnes, de tels gains permettent de faire la diffrence sur
le march.
Fouille de Donnes et PMML : vers une extraction de donnes plus rapide, plus
facile et moins coteuse
Si une socit perd 25 millions de dollars par mois, lextraction des donnes peut prendre un
caractre trs urgent. Cest ce quendurent de nombreuses grosses socits de
tlcommunications sans fil elles subissent un taux de rotation moyen du secteur de 2,4%,
ce qui se traduit par une perte mensuelle de plusieurs centaines de clients. Avec un revenu
mensuel moyen de 45 par client, ces dfections cotent plus de 250 millions d par an aux
grosses socits. Lextraction des donnes permet aux fournisseurs de tlcommunications
sans fil dattnuer ces pertes. En appliquant des mthodes danalyse avances ce problme,
un fournisseur peut collecter des informations, des prvisions, des descriptions, des notations
et des profils. Grce tout cela, le prestataire de services peut prvoir quels clients sont les
plus susceptibles de lui tre infidle et prendre les mesures appropries pour lutter contre
lattrition. En outre, comme les clients ne partent pas tous pour les mmes raisons,
lextraction de donnes permet aux fournisseurs de tlcommunications sans fil de faire des
offres et de proposer des promotions personnalises aux clients concerns.
La charte PMML consiste permettre une application de produire un modle et une autre
application dutiliser ce modle simplement en lisant le fichier de donnes PMML. Un
modle dvelopp laide dun outil dextraction peut ensuite tre dploy ou exploit sur la
totalit dun entrept de donnes. Mais le PMML a ses faiblesses, surtout quand il sagit de
prparer des donnes brutes en vue danalyse. Avec le PMML, les modles ne sont pas
appliqus directement sur les donnes dtailles de lentrept de donnes, mais sur un jeu
spcialis de donnes slectionnes pour leur valeur prdictive. Elles sont nettoyes ou
transformes, prtes tre traites par les modles analytiques. Le PMML permet certaines
transformations de donnes pour des algorithmes spcifiques. Il est toutefois insuffisant
quand il sagit de grer des processus complexes de nettoyage, de transformation et
dagrgation de toutes les donnes slectionnes pour analyse. Le PMML part du principe
que la prparation pralable des donnes a dj t effectue.
Dans sa version actuelle le PMML ncessite un coup de pouce. Celui-ci se concrtise sous la
forme doutils qui peuvent tre utiliss pour construire les jeux de donnes analytiques. Ces
outils ont la capacit dexplorer, de nettoyer, de transformer et dagrger des donnes
hautement normalises au sein dun entrept de donnes sous une forme acceptable par un
ventail doutils analytiques.
Des jeux de donnes analytiques permettent dexplorer et dassembler les donnes requises
et de les exploiter laide des outils de modlisation aux normes de votre entreprise. Il sagit
de construire des modles compatibles avec le PMML et de lancer le modle dans la base de
donnes en renvoyant le PMML un consommateur de PMML. Ce qui signifie que les
Cette approche permet dexcuter un modle sur toutes les donnes et pas uniquement sur un
sous-groupe. Par exemple, si le fournisseur de tlcommunications sans fil mentionn plus
tt ne pouvait excuter son modle que sur un chantillon de sa clientle, disons sur celle
dont les contrats ont expir, il ne pourrait pas voir les autres sous-groupes de sa clientle
potentiellement insatisfaits. Sil peut consulter la totalit de sa base de donnes, le prestataire
de services peut reprer tous les secteurs de son activit menacs dun taux dattrition
important quelle quen soit la raison.
Ajoutons galement que le fait dexcuter des modles une seule fois par trimestre cause
du cot lev de lextraction de donnes est le meilleur moyen dobtenir des informations
errones. En combinant les capacits du PMML avec un jeu de donnes analytiques, il est
possible dexcuter des modles plus frquemment et de continuer exploiter la totalit du
contenu dun entrept de donnes. Au lieu de transfrer les donnes vers les outils qui
rsident sur un serveur analytique, la mthode du jeu de donnes analytiques permet de grer
les fonctions et les traitements ncessaires directement dans la base de donnes. Les tapes
dexploration et de prtraitement des donnes, qui prenaient plusieurs semaines aux quipes
dextraction, peuvent maintenant se faire en quelques jours voire quelques heures.
Il existe de nombreux candidats potentiels sur le march, mais seule une douzaine dentre
eux font rellement ce quils prtendent tre capables de raliser. Lvaluation de la qualit
des algorithmes dissimuls sous les propos marketing requiert une grande exprience en
statistique. Si vous ne disposez pas de cette exprience en interne, il est conseill dengager
un consultant indpendant spcialis dans lanalyse et lexploration de donnes pour vous
aider valuer et rduire le choix des outils. Pour en revenir vos besoins, un outil peut
parfaitement convenir sil traite une ou deux tches danalyse en profondeur, en complexit
et deux ou trois autres superficiellement, pour autant que la profondeur de chaque technique
corresponde la profondeur de lanalyse ncessaire la rsolution de vos problmes. Les
outils danalyse cotent cher et il faut un certain temps avant dapprendre les utiliser
efficacement. Il se peut quune entreprise sache quelle a besoin de tout un ensemble doutils
mais il est prfrable de choisir au dbut un outil qui offre les principales fonctions requises,
dapprendre sen servir correctement et dy ajouter par la suite des fonctions spciales au
fil de lvolution des besoins en exploration de donnes.
En manire de facilit dutilisation, comme pour bien dautres choses, plus un outil est
complexe, plus lapprentissage prendra du temps. Il se peut que loutil avec linterface
utilisateur la plus simple et la plus intuitive permettent vos spcialistes de lexploration de
donnes dtre oprationnels trs rapidement, mais il peut galement trs vite atteindre ses
limites face la complexit croissante de lexploration de donnes. Comme je lai dj dit, la
slection de loutil sophistiqu que vos spcialistes de lexploration de donnes connaissent
dj a ses avantages. La phase dapprentissage est raccourcie et il est fort probable quun tel
outil offre une profondeur et une largeur bien plus grande quun outil linterface plus
simple. Une autre stratgie consiste tablir un partenariat avec une personne qui connat
loutil le plus complexe et qui sait comment raliser des explorations de donnes jusqu ce
que votre quipe interne ait acquis les comptences de base pour utiliser cet outil en toute
confiance. Cest ce genre de transfert de comptence qui attire de nombreuses entreprises
aux laboratoires danalyse de donnes de socits de services spcialises.
Alors que les diteurs des outils qui font la course en tte continuent dajouter rgulirement
des fonctions dexploration de donnes et des techniques sophistiques, lexploration de
donnes est de plus en plus efficacement utilise dans le cadre de nombreux processus en
particulier dans les domaines de la commercialisation et de la production. Lamlioration
continue des outils permet une meilleure exploitation des entrepts de donnes, si bien que
lexploration de donnes attire un nombre croissant dadeptes. Et ce nombre croissant
dutilisateurs aux ides diverses va faire que lexploration de donnes deviendra de plus en
plus une discipline qui renforcera la qualit de la prise de dcision en entreprise.
Suivant leur (d)formation dorigine, les analystes ont tendance accorder trop de poids
certains facteurs. Les conomistes privilgient les variables denvironnement au dtriment de
celles dorganisation ou de gestion. Les responsables des ressources humaines voient trs
systmatiquement les causes fondamentales des difficults, dans les jeux des acteurs, les
blocages internes ou les qualifications des individus. Enfin les financiers cdent
rgulirement aux dlices de lanalyse des flux de fonds, du bilan et du compte de rsultat,
pour y rechercher des dsquilibres qui ne font que traduire des dysfonctionnements
stratgiques, organisationnels ou de gestion. Cependant, lun des dfis majeurs pour les
analystes consiste viter les cueils dans les raisonnements : multiplication des perceptions,
parcellisation des perceptions, parpillement analytique, diversion-distraction et
approfondissement du faux problme.
Sil doit se mfier de lui-mme, lanalyste doit faire preuve de prudence lgard des
personnes et des groupes avec lesquels il est en relation. Lanalyste peut se laisser prendre en
otage par une direction qui cherche plus faire entriner son point de vue qu obtenir des
conclusions neutres. Lanalyse peut tre un alibi, une caution morale pour lgitimer certaines
dcisions douloureuses. La lucidit de lanalyste, son aptitude dcouvrir les buts cachs
ventuels assigns son intervention, sont essentiels la russite de sa mission. Dun point
de vue dontologique, les conclusions dun analyste nont pas tre infodes aux intrts
de celui qui les a demandes, mais se doivent de servir en priorit lentreprise dans son
ensemble. Lanalyste peut tre confront des processus de dsinformation, soit en
provenance des sources extrieures, soit mme au sein de lentreprise. Sans tomber dans la
paranoa, il convient donc que lanalyste garde sa lucidit et fasse des recoupements.
Enfin, probablement on pourrait appliquer aux analystes en gnral, la boutade qui dit : Si
vous voulez cinq avis sur un problme conomique, faites discuter quatre conomistes .
Pour rsoudre un problme il est prfrable de procder avec mthode. Il existe diverses
dmarches plus ou moins labores de gestion des dcisions comme par exemple les
mthodes ESPRIT (Enonc, Situation, Problmatique, Rsolution, Information,
Terminaison) ou PORAS (Problme, Objectifs, Rsolution, Articulation, Suite). Quoi quil
en soit, au cur de toutes ces approches se trouve linformation et dans le cas de problme
de gestion dans lentreprise daujourdhui, le plus souvent le recours des moyens
informatiques dont certains spcifiquement conus pour cela les entrepts de donnes.
Illustration - 10
Si les tapes voques ci-dessus peuvent tre parfois compliques, celle de la dcision est
trs souvent complexe. Il sagit de prendre en compte des critres de choix, des vnements
incertains, des interventions possibles dautres acteurs, des consquences attendues, des
mesures prventives, de les scnariser et darrter un choix. Ici encore il y a des mthodes,
des thories qui peuvent aider notamment en fonction du type dunivers (dtermin,
probabiliste, incertain, concurrentiel) dans lequel le choix doit tre opr. Par exemple la
thorie des jeux modlise le comportement dun agent face des situations de choix dans
lesquelles dautres agents rationnels interagissent.
Au final une bonne rsolution de problme se caractrisera par les qualits suivantes :
conomie de moyens, globalit (apprhension de lensemble du problme), dpassement de
frontire, persvrance, prfrence pour les approches connues. En termes de structure il
convient pour les sujets lourds, comme par exemple la dfinition de lvolution dun systme
dinformation, de mettre en place diffrents types de groupes spcialiss pour agir, pour
informer, pour guider. Par exemple pour guider il faut sappuyer sur des personnes
diffrentes pour fixer des objectifs, dfinir des mthodes, contrler les rsultats.
Les socits de services ont lhabitude daccompagner leurs clients dans la rsolution de
leurs problmes de systmes dcisionnels, que ce soit pour rationnaliser leurs moyens, pour
y intgrer de nouvelles donnes ou pour exploiter sous de nouveaux angles les donnes
historiques quils ont dj. Elles savent que dans les grandes entreprises il faut vouloir
fortement les changements pour quils arrivent et que vouloir est insuffisant. Cest pourquoi,
outre les mthodes, le savoir faire de leurs consultants, lorganisation de contacts entre leurs
clients, ils proposent des modles de rfrences qui permettent de se guider, de
communiquer, de stimuler la crativit et globalement de gagner beaucoup de temps.
Faire de linformation une source de la comptitivit, cest lobjectif que les fournisseurs de
solutions dcisionnelles proposent aux plus grandes entreprises mondiales travers la mise
en uvre de ses solutions dinfrastructure de gestion et danalyses de donnes. Les entrepts
de donnes facilitent la comprhension du pass et du prsent, lanticipation du futur, la
ralisation des actions et la capitalisation des connaissances. Dans le contexte de
mondialisation qui est le notre aujourdhui, les entrepts de donnes bouleversent nos
habitudes de management, nos stratgies, nos besoins en comptences et nos capacits
nous adapter un monde complexe en perptuelle volution. Il faut se rappeler la phrase de
Darwin Ce ne sont pas les espces les plus fortes qui survivent, ni les plus intelligentes
mais celles qui sont les plus mme de sadapter aux changements .
L'information que nous prenons en compte dans le processus d'laboration d'une stratgie est
trop souvent l'information que nous avons nous-mmes slectionne, cest--dire celle qui
peut servir notre stratgie. Pour ce motif, il est essentiel de sparer le donneur d'information
du dcideur. Il faut dans lentreprise prendre comme modle la sphre militaire, o l'on s'est
toujours efforc de sparer la responsabilit de l'information de celle de l'action. Sur un
navire de guerre, par exemple, il existe d'un ct un officier spcifiquement charg de
recueillir et de traiter toutes les informations, et de l'autre des "metteurs en uvre". Leurs
fonctions respectives sont tout fait exclusives, et cette dissociation est essentielle pour
garantir une objectivit au niveau stratgique.
En stratgie, il faut appliquer des mthodes pour assurer une objectivit dans la prise de
dcision, mais force est de constater que les dcideurs ont tendance privilgier une
perception intuitive des situations aux dpens des informations objectives. Dans les coles de
guerre on enseigne ainsi des mthodes qui prennent en compte la situation, les objectifs et les
modes d'actions des allis comme des adversaires et amnent croiser ces donnes.
L'exercice est souvent fastidieux mais trs profitable. L'information est indispensable dans
l'laboration d'une stratgie, mais certaines donnes sont difficilement quantifiables, par
exemple comment valuer la rsistance potentielle d'un concurrent ? Comment quantifier sa
dtermination ? De plus il faut se mfier de lintox et les veilleurs (technique, march,
concurrence) doivent se rappeler la phrase de Sun Tzu tout lart de la guerre est fond sur
la duperie . Linformation est souvent un mlange de donnes quantitatives & qualitatives,
et il est souvent difficile den obtenir une cohrence. Cest en fait le niveau de culture des
co-dcideurs et le dialogue quils ont instaurs qui permettent cette cohrence.
Le support quune entreprise attend dun systme dinformation pour saider dans une prise
de dcisions est fonction du niveau et du type de dcision concern. Les gourous du
management saccordent pour distinguer quatre niveaux de dcision pour les entreprises. Les
dcisions stratgiques dfinissent les relations de lentreprise avec son environnement (choix
des activits, des marchs, des filires technologiques), elles fixent des axes et des politiques
pour le long terme. Les dcisions dorganisation dfinissent les structures, les processus, les
systmes dinformation (mtier, mission, dlgation, responsabilit, moyens) elles fixent le
cadre de travail dans une perspective de moyen terme. Les dcisions de gestion dfinissent
pour le court terme la direction et la performance attendue (objectifs, ressources, contrle).
Enfin les dcisions oprationnelles sintressent au fonctionnement quotidien tant au niveau
de la supervision que de lexcution.
Les dcisions des diffrents niveaux peuvent tre de diffrents types. Il y a les dcisions non
structures, uniques, non routinires, ou lincertitude est grande qui requiert beaucoup de
jugement et prsente des risques. A loppos il y a les dcisions structures, rptitives,
routinires, aux procdures dfinies qui laissent peu de place lincertitude. Entre les deux il
y a les dcisions semi-structures ou quelques facteurs introduisent des risques.
Face une dcision un responsable peut adopter diffrents comportements comme ne pas
dcider, sen remettre au hasard, agir puis rflchir, se fier son intuition, rflchir en solo,
analyser des chiffres, se tourner vers un tiers, opter pour le collectif et enfin faire comme tout
le monde. Quil travaille seul ou pas, en utilisant des moyens ou non, sil ne sabstient pas, il
passe par quatre phases dcisionnelles. Une phase dinstruction avec collecte dinformation
pour identifier le problme, les opportunits et dfinir ce qui peut faire une diffrence. Une
phase de conception pour trouver, modliser des options, dfinir et valuer les solutions. Une
phase de slection de la ligne de conduite adopter par comparaison des choix et prvisions
des rsultats. Enfin une phase de mise en application et dvaluation des rsultats.
Dans ce contexte rapidement esquiss et sans rentrer dans les dimensions fonctionnelles ou
sectorielles, il est facile de comprendre que pour rpondre ces besoins il ne peut pas exister
de solution universelle. Mme le gisement de donnes dtailles que les fournisseurs de base
de donnes affectionnent tant nest pas lunique source des informations de certains
dcideurs. Les entrepts de donnes grent des informations blanches issues des activits
historiques des comptiteurs dun march, mais dans certains cas il est ncessaire de
sappuyer sur des donnes plus ou moins grises issues de la veille, de lintelligence
conomique ou du renseignement. Par exemple, dans le cadre dune ngociation le fait de
disposer de renseignements prcis sur les interlocuteurs cls peut tre un atout dcisif.
Il faut tre humble, le domaine du dcisionnel est particulirement complexe beaucoup plus
que celui de la gestion administrative des activits qui est couvert par les progiciels de
Pour quune entreprise obtienne un avantage sur la concurrence, il convient quelle mobilise
de nombreux acteurs dans le cycle qui mne de la donne laction. En effet un avantage
significatif sobtient par la mise en uvre dactions permettant la ralisation profitable dune
opportunit : opportunit + action = avantage. Lopportunit elle mme est le produit dune
information et dune dcision : information + dcision = opportunit. Dans ce cycle,
diffrents acteurs (statisticiens, analystes mtier, responsables dactivit, collaborateurs en
charge des clients, des fournisseurs), sont impliqus aux diffrentes tapes qui voient la
naissance des opportunits et leur ralisation.
Si la qualit dun systme dinformation dcisionnel permet desprer le succs, il est certain
que celui-ci ne sobtient pas de faon mcanique. Les paragraphes ci-dessous prsentent de
faon rsume, quelques ides mditer sur le cycle : Donnes Informations Dcisions -
Actions.
Transformer les donnes en information est un mtier qui ncessite des comptences, une
morale pour passer de la donne l'information, car cela implique d'y ajouter du subjectif, du
spculatif. Les informations utiles la dcision sont la plupart du temps extrieures
l'entreprise (clients, concurrence), et l'utilisateur doit cerner les informations dont il a besoin,
or on entend souvent les utilisateurs se plaindre de ne pas avoir la "bonne" information.
Souvent cela vient du fait que les dfinitions employes ne correspondent pas leurs visions
personnelles.
Une information n'a pour raison d'tre que d'aboutir une dcision qui souvent se traduit en
action
Les utilisateurs cherchent des systmes leur mesure et quils matrisent. Ceci induit le
risque de voir apparatre dans l'entreprise de multiples systmes, non ncessairement
cohrents entre eux, voire redondants. Les directions gnrales souhaitent des systmes qui
supportent en priorit leurs initiatives stratgiques et assurent la cohrence densemble de
lentreprise. Ceci conduit mettre en place des systmes qui visent partager les
informations entre les diffrents utilisateurs.
Les informaticiens veulent btir des systmes qui rpondent tous les besoins, qu'ils soient
exprims ou non. L'intention est louable, mais certainement un peu utopique, car les activits
et les besoins dune entreprise sont par essence volutifs. Cependant suivant linfrastructure
mise en place (systmes indpendants ou systme dentreprise), il est plus ou moins facile de
concilier personnalisation, performance, cohrence et volution.