Exploration de Données - Data Mining

Data mining
PDF gnrs en utilisant latelier en source ouvert mwlib . Voir http://code.pediapress.com/ pour plus dinformations. PDF generated at: Fri, 16 Sep 2011 09:36:17 UTC
Exploration de donnes
Lexploration de donnes[1] , connue aussi sous l'expression de fouille de donnes, data mining ( forage de donnes ), ou encore extraction de connaissances partir de donnes, ECD en franais, KDD en anglais, a pour objet lextraction d'un savoir ou d'une connaissance partir de grandes quantits de donnes, par des mthodes automatiques ou semi-automatiques. L'utilisation industrielle ou oprationnelle de ce savoir dans le monde professionnel permet de rsoudre des problmes trs divers, allant de la gestion de la relation client la maintenance prventive, en passant par la dtection de fraudes ou encore l'optimisation de sites web. L'exploration de donnes[2] fait suite, dans l'escalade de l'exploitation des donnes de l'entreprise, l'informatique dcisionnelle. Celle-ci permet de constater un fait, tel que le chiffre d'affaires, et de l'expliquer (comme par exemple le chiffre d'affaires dclin par produits) tandis que l'exploration de donnes permet de classer les faits et de les prvoir dans une certaine mesure (en suivant le mme exemple, il permet de rpondre la question : Quel pourrait tre le chiffre d'affaires dans un mois ? ).
Histoire
La gnration de modles partir d'un grand nombre de donnes n'est pas un phnomne rcent. Pour qu'il y ait cration de modle il faut qu'il y ait collecte de donnes. En Chine on prte l'Empereur Tang Yao, la volont de recenser les rcoltes en 2238 av. J.-C.[3] ; en gypte le pharaon Amasis organise le recensement de sa population au cinquime sicle av. J.-C.[3] . Ce n'est qu'au XVIIIesicle qu'on commence vouloir analyser les donnes pour en rechercher des caractristiques communes. En 1763, Thomas Bayes montre qu'on peut dterminer, non seulement des probabilits partir des observations Collecter les donnes, les analyser et les prsenter issues dune exprience, mais aussi les paramtres relatifs ces au client. probabilits. Prsent dans le cas particulier d'une loi binomiale, ce rsultat est tendu indpendamment par Laplace, conduisant une formulation gnrale du thorme de Bayes. Legendre publie en 1805 un essai sur la mthode des moindres carrs qui permet de comparer un ensemble de donnes un modle mathmatique. Dans les annes 1920, Ronald Fisher met au point l'analyse de la variance comme outil pour son projet d'infrence statistique mdicale. Dans les annes 1950, l'apparition du calculateur et des techniques de calcul sur ordinateur, telles que la segmentation, les rseaux de neurones et les algorithmes gntiques et, dans les annes 1960, les arbres de dcision, la mthode des centres mobiles, permettent aux chercheurs d'exploiter et de dcouvrir des modles de plus en plus prcis. En France, Jean-Paul Benzcri dveloppe l'analyse des correspondances en 1962. Le concept d'exploration de donnes fait son apparition, d'aprs Pal et Jain[4] , aux confrences de l'IJCAI en 1989. Puis arrivent, dans les annes 1990, les techniques d'apprentissage automatique telles que les SVM[5] en 1998, qui compltent les outils de l'analyste. Au dbut du XXIesicle, une entreprise comme Amazon.com se sert de tous ces outils pour proposer ses clients des produits susceptibles de les intresser[6] ,[7] .
Applications industrielles
Par objectifs
De nos jours, les techniques d'exploration de donnes peuvent tre utilises dans des domaines compltement diffrents avec des objectifs bien spcifiques. Les socits de vente par correspondance analysent, avec cette technique, le comportement des consommateurs pour dgager des similarits de comportement, accorder des cartes de fidlit, ou tablir des listes de produits proposer en vente additionnelle (vente croise). Un publipostage (mailing) servant la prospection de nouveaux clients possde un taux de rponses de 10 % en moyenne. Les entreprises de marketing utilisent la fouille de donnes pour rduire le cot d'acquisition d'un nouveau client en classant les prospects selon des critres leur permettant d'augmenter les taux de rponses[8] aux questionnaires envoys.
Un exemple de ce qu'on peut faire avec le logiciel R : ici un corrlogramme
Ces mmes entreprises, mais d'autres aussi comme les banques, les oprateurs de tlphonie mobile ou les assureurs, cherchent grce l'exploration de donnes minimiser lattrition (ou churn) de leurs clients puisque le cot de conservation d'un client est moins important que celui de l'acquisition d'un nouveau. Les services de polices de tous les pays[9] cherchent caractriser les crimes (rpondre la question : Qu'est-ce qu'un crime "normal" ? ) et les comportements des criminels (rpondre la question : qu'est-ce qu'un comportement criminel "normal" ? ) afin de prvenir le crime, limiter les risques et les dangers pour la population. Le scoring des clients dans les banques est maintenant trs connu, il permet de reprer les bons clients, sans facteur de risque (valuation des risques-clients) qui les organismes financiers, banques, assurances, etc., peuvent proposer une tarification adapte et des produits attractifs, tout en limitant le risque de non-remboursement ou de non-paiement. Les centres d'appel utilisent cette technique[8] pour amliorer la qualit du service[10] et permettre une rponse adapte de l'oprateur pour la satisfaction du client. Dans la recherche du gnome humain, les techniques d'exploration de donnes ont t utilises pour dcouvrir les gnes et leur fonction[11] . D'autres exemples dans d'autres domaines pourraient tre trouvs, mais ce qu'on peut remarquer ds prsent, c'est que toutes ces utilisations permettent de caractriser un phnomne complexe (comportement humain, expression d'un gne), pour mieux le comprendre, afin de rduire les cots de recherche ou d'exploitation lis ce phnomne, ou bien afin d'amliorer la qualit des processus lis ce phnomne.
Par secteurs d'activits

L'industrie a pris conscience de l'importance du patrimoine constitu par ses donnes et cherche l'exploiter en utilisant l'informatique dcisionnelle et l'exploration des donnes. Les compagnies les plus avances dans ce domaine se situent dans le secteur tertiaire. Selon le site kdnuggets.com[12] la rpartition aux tats-Unis, en pourcentage du total des rponses au sondage, de l'utilisation de l'exploration des donnes par secteurs d'activits s'effectue en 2010 comme ceci :
Branches et domaines dans lesquels est utilise l'exploration des donnes (%).
GRC/ analyse de la consommation 26.8 Banque Dtection de fraude Tlcommunication ducation Mdical 12.7 Finance 10.8 Assurance 9.9 8.0 Publicit 19.2 Sant, ressources humaines 13.1
11.3 Marketing direct, collecte de fonds 11.3 10.3 Sciences 9.9 Web Commerce de dtail 10.3 8.9 8.0
Produits manufacturs 8.0
Recherche et groupes de rflexion

Comme le montre l'histogramme ci-dessus, l'industrie est trs intresse par le sujet, notamment en matire de standard et d'interoprabilit[13] qui facilitent l'emploi d'outils informatiques provenant d'diteurs diffrents. En outre, les entreprises, l'enseignement et la recherche ont grandement contribu l'volution et l'amlioration (en termes de rigueur par exemple) des mthodes et des modles ; un article publi en 2008 par l'International Journal of Information Technology and Decision Making rsume une tude qui trace et analyse cette volution[14] . Certains acteurs sont passs de la recherche l'industrie. Des universits telles que celles de Constance en Allemagne, de Rsultats graphiques d'une analyse en Dortmund en Caroline du Nord, aux tats-Unis, de Waikato en composantes principales Nouvelle-Zlande, et l'Universit Lumire Lyon 2 en France, ont effectu des recherches pour trouver de nouveaux algorithmes et amliorer les anciens. Ils ont aussi dvelopp des logiciels permettant leurs tudiants, enseignants et chercheurs de progresser dans ce domaine, faisant ainsi bnficier l'industrie de leur progrs. Dautre part, de nombreux groupements interprofessionnels et d'associations se sont crs pour rflchir et accompagner le dveloppement de l'exploration de donnes. Le premier de ces groupements professionnels dans le domaine est le groupe dintrt de l'Association for Computing Machinery sur la gestion des connaissances et l'exploration de donnes, le SIGKDD[15] . Depuis 1989 il organise une confrence internationale annuelle et publie les nouveaux rsultats, rflexions et dveloppements de ses membres[16] . Ainsi, depuis 1999, cet organisme publie une revue semestrielle dont le titre est SIGKDD Explorations [17] . D'autres confrences sur l'exploration de donnes et l'informatique sont organises, comme par exemple : DMIN - International Conference on Data Mining[18] ,[19] ,[20] ,[21] ,[22] DMKD - Research Issues on Data Mining and Knowledge Discovery ECML-PKDD - European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases ICDM[23] - IEEE International Conference on Data Mining[24] ,[25] ,[26] ,[27] ,[28] ,[29] ,[30] ,[31] MLDM - Machine Learning and Data Mining in Pattern Recognition SDM - SIAM International Conference on Data Mining EDM - International Conference on Educational Data Mining ECDM - European Conference on Data Mining PAKDD - The annual Pacific-Asia Conference on Knowledge Discovery and Data Mining
Exploration de donnes Ces recherches et rsultats financirement probants obligent les quipes spcialises dans l'exploration de donnes effectuer un travail mthodique dans des projets structurs.
Projet, mthodes et processus

De bonnes pratiques ont merg au fil du temps pour amliorer la qualit des projets. Parmi celles-ci, les mthodologies aident les quipes organiser les projets en processus. Au nombre des mthodes les plus utilises se trouvent la mthodologie SEMMA du SAS Institute et la CRISP-DM qui est la mthode la plus employe dans les annes 2010.
Mthode CRISP-DM
L'exploration de donnes se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques diverses telles que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des modles partir des donnes, c'est--dire trouver des structures intressantes ou des motifs selon des critres fixs au pralable, et d'en extraire un maximum de connaissances utiles l'entreprise. La mthode CRISP-DM[32] dcoupe le processus de fouille de donnes en six tapes permettant de structurer la technique et de l'ancrer dans un processus industriel. Plus qu'une thorie normalise, c'est un processus d'extraction des connaissances mtiers. Il faut d'abord comprendre le mtier[32] qui pose la question l'analyste, formaliser le problme que l'organisation cherche rsoudre en termes de donnes, comprendre les enjeux, connatre les critres de russite du projet et mettre en place un plan initial pour raliser cet objectif. Ensuite, l'analyste a besoin de donnes appropries. Ds que l'quipe de projet sait ce qu'il faut faire, elle doit se mettre en qute des donnes, des textes et tout le matriel qui lui permettra de rpondre au problme. Il lui faut ensuite en valuer la qualit, dcouvrir les premiers schmas apparents pour mettre des hypothses sur les modles cachs.
Phases du processus CRISP-DM
Les donnes que l'quipe de projet a collectes sont htrognes. Elles doivent tre prpares[32] en fonction des algorithmes utiliss, en supprimant les valeurs aberrantes, ou valeurs extrmes, en compltant les donnes non renseignes, par la moyenne ou par la mthode des K plus proches voisins, en supprimant les doublons, les variables invariantes et celles ayant trop de valeurs manquantes, ou bien par exemple en discrtisant les variables si lalgorithme utiliser le ncessite, comme c'est par exemple le cas pour l'analyse des correspondances multiples ACM, l'analyse discriminante DISQUAL, ou bien la mthode de Condorcet. Une fois les donnes prtes, il faut les explorer[32] . La modlisation regroupe des classes de tches pouvant tre utilises seules ou en complment avec les autres[33] dans un but descriptif ou prdictif. La segmentation est la tche consistant dcouvrir des groupes et des structures au sein des donnes qui sont d'une certaine faon similaires, sans utiliser des structures connues priori dans les donnes. La classification est la tche de gnralisation des structures connues pour les appliquer des donnes nouvelles[34] . La rgression tente de trouver une fonction modlisant les donnes continues, c'est--dire non discrtes, avec le plus petit taux d'erreur, afin d'en prdire les valeurs futures. L'association recherche les relations entre des items. Par exemple un supermarch peut rassembler des donnes sur des habitudes d'achats de ses clients. En utilisant les rgles d'association, le supermarch peut dterminer quels produits sont frquemment achets ensemble et ainsi utiliser cette connaissance des fins de marketing. Dans la littrature, cette technique est souvent cite sous le nom d' analyse du panier de la mnagre .
Exploration de donnes Il s'agit d'valuer ensuite[32] les rsultats obtenus en fonction des critres de succs du mtier et d'valuer le processus lui-mme pour faire apparatre les manques et les tapes ngliges. la suite de ceci, il doit tre dcid soit de dployer, soit d'itrer le processus en amliorant ce qui a t mal ou pas effectu. Puis vient la phase de livraison[32] et de bilan de fin de projet. Les plans de contrle et de maintenance sont conus et le rapport de fin de projet est rdig. Afin de dployer un modle prdictif, le langage PMML, bas sur le XML, est utilis. Il permet de dcrire toutes les caractristiques du modle et de le transmettre d'autres applications compatibles PMML.
D'autres mthodes
SEMMA La mthodologie SEMMA[35] (Sample then Explore, Modify, Model, Assess pour chantillonner, puis Explorer, Modifier, Modliser, valuer ), invente par le SAS Institute, se concentre sur les activits techniques de la fouille de donnes. Bien qu'elle soit prsente par le SAS comme seulement une organisation logique des outils de SAS Enterprise miner[36] , SEMMA peut tre utilise pour organiser le processus d'exploration de donnes indpendamment du logiciel utilis[37] . Six Sigma (DMAIC) Six Sigma[38] ,[39] ,[40] (DMAIC est un acronyme caractrisant la mthode comme suit : Define, Mesure, Analyse, Improve, Control pour Dfinir, Mesurer, Analyser, Amliorer, Contrler ) est une mthodologie structure, oriente donnes, dont le but est l'limination des dfauts, des redondances et des problmes de contrle qualit de toutes sortes dans les domaines de la production, de la fourniture de service, du management et d'autres activits mtiers. La fouille de donnes est un domaine dans lequel ce guide mthodologique peut tre appliqu[10] .
Maladresses viter
Les erreurs font partie de l'exprience, l'exploration de donnes est une question de pratique, de jugement et d'interprtation. Les mthodes sont faites pour guider, mais n'empchent pas les cueils dont les plus communment rencontrs par les fouilleurs de donnes expriments ou non, ont t dcrits par Robert Nisbet, John Elder et Gary Miner dans leur ouvrage Handbook of Statiscal Analysis & Data Mining Applications[41] . La premire est le fait de poser la mauvaise question. Ce qui conduit faire chercher au mauvais endroit. Il faut que la question initiale soit correctement pose pour que la rponse soit utile.
Sur-ajustement d'un modle : arbitrage performance / complexit
Ensuite, c'est se contenter d'une faible quantit de donnes pour un problme complexe[41] . Il faut avoir des donnes pour les explorer, et les cas intressants pour le fouilleur sont rares observer, il faut donc avoir sa disposition normment de donnes pour pouvoir faire des chantillons qui ont une valeur d'apprentissage et qui vont permettre de prdire une situation, c'est--dire rpondre une question pose, sur les donnes hors chantillon. De plus, si les donnes ne sont pas adaptes la question pose, la fouille sera limite : par exemple si les donnes ne contiennent pas de variables prdire, la fouille sera cantonne la description et l'analyste ne pourra que dcouper les donnes en sous-ensembles cohrents (clusterisation) ou trouver les meilleures dimensions qui capturent la variabilit des donnes. Il faut construire l'chantillon, qui permet l'apprentissage, avec prcaution et ne pas chantillonner la lgre[41] . L'apprentissage permet de construire le modle partir d'un ou plusieurs chantillons. Paramtrer l'outil
Exploration de donnes d'exploration de donnes jusqu' ce que le modle renvoie 100 % des cas recherchs revient se concentrer sur les particularits et se dtourner de la gnralisation, ncessaire, qui permet d'appliquer le modle sur les donnes hors-chantillon. Des techniques existent pour viter le sur-ajustement ou le sur-apprentissage. Il s'agit des mthodes de r-chantillonnage telles que le bootstrap, du jackknife ou de la validation croise[42] . Parfois, une seule technique (arbre de dcision, rseaux neuronaux, ...) n'est pas suffisante pour obtenir du modle qu'il donne de bons rsultats sur toutes les donnes[41] . Une des solutions, dans ce cas, serait constitue d'un ensemble d'outils, qu'on peut utiliser les uns aprs les autres et comparer les rsultats sur les mmes donnes ou bien unifier les forces de chaque mthode soit par l'apprentissage soit par combinaison des rsultats[43] . Il faut placer les donnes et les rsultats de la fouille en perspective dans leur contexte[41] , et ne pas se focaliser sur les donnes, sans cela des erreurs d'interprtation peuvent survenir ainsi que des pertes de temps et d'argent. liminer priori les rsultats qui paraissent absurdes[44] , en comparaison avec ce qui est attendu, peut tre source d'erreurs car ce sont peut-tre ces rsultats qui donnent la solution la question pose. Il est impossible d'utiliser et dinterprter les rsultats d'un modle en dehors du cadre dans lequel il a t construit[41] . Interprter des rsultats en fonction d'autres cas similaires mais diffrents est aussi cause d'erreurs, mais ce n'est pas propre aux raisonnements lis l'exploration de donnes. Enfin, extrapoler des rsultats, obtenus sur des espaces de faibles dimensions, sur des espaces de dimensions levs peut aussi conduire des erreurs. Deux citations de George Box, Tous les modles sont faux, mais certains sont utiles et Les statisticiens sont comme les artistes, ils tombent amoureux de leurs modles , illustrent avec humour le fait que quelquefois certains analystes en fouille de donnes ont besoin de croire en leur modle et de croire que le modle qu'ils travaillent est le meilleur. Utiliser un ensemble de modles et interprter la distribution des rsultats est nettement plus sr[45] .
Planifier
Dans un projet d'exploration de donnes, il est essentiel de savoir ce qui est important et ce qui ne l'est pas, ce qui prend du temps et ce qui n'en prend pas ; ce qui ne concide pas toujours.
Estimation du temps consacrer aux diffrentes tapes[46] ,[47]

Tches Charge Importance dans le projet 3 2 4 3 1 5
Inventaire, prparation et exploration des donnes laboration - Validation des modles Restitution des rsultats Analyse des premiers tests Dfinition des objectifs Documentation - prsentations
38 % 25 % 12 % 10 % 8% 7%
Le cur de l'exploration de donnes est constitu par la modlisation : toute la prparation est effectue en fonction du modle que l'analyste envisage de produire, les tches effectues ensuite valident le modle choisi, le compltent et le dploient. La tche la plus lourde de consquences dans la modlisation consiste dterminer le ou les algorithmes qui produiront le modle attendu. La question importante est donc celle des critres qui permettent de choisir cet ou ces algorithmes.
Algorithmes
Rsoudre un problme par un processus d'exploration de donnes impose gnralement l'utilisation d'un grand nombre de mthodes et d'algorithmes diffrents plus ou moins faciles comprendre et employer[48] . Il existe deux grandes familles d'algorithmes : les mthodes descriptives et les mthodes prdictives.
Mthodes descriptives
Dfinition Les mthodes descriptives[49] permettent d'organiser, de simplifier et d'aider comprendre l'information sous-jacente d'un ensemble important de donnes. Elles permettent de travailler sur un ensemble de donnes, organises en instances de variables, dans lequel aucune des variables explicatives des individus n'a d'importance particulire par rapport aux autres. Elles sont utilises par exemple pour dgager, d'un ensemble d'individus, des groupes homognes en typologie, pour construire des normes de comportements et donc des dviations par rapport ces normes telles que la dtection de fraudes nouvelles ou inconnues la carte bancaire ou l'assurance maladie, pour raliser de la compression d'informations ou de la compression d'image, etc. Exemples Parmi les techniques disponibles, celles qui sont issues de la statistique peuvent tre exploites. Sont regroupes sous le vocable analyses factorielles, des mthodes statistiques qui permettent de dgager des variables caches dans un ensemble de mesures ; ces variables caches sont appeles facteurs . Dans les analyses factorielles, on part du principe que si les donnes sont dpendantes entre elles, c'est parce qu'elles sont lies des facteurs qui leur sont communs[50] . Lintrt des facteurs rside dans le fait qu'un nombre rduit de facteurs explique presque aussi bien les donnes que l'ensemble des variables, ce qui est utile quand il y a un grand nombre de variables[51] . Les techniques factorielles se dcomposent principalement en analyse en composantes principales, analyse en composantes indpendantes, analyse factorielle des correspondances, analyse des correspondances multiples et positionnement multidimensionnel[52] .
Reprer les donnes aberrantes et les liminer.
Un exemple d'analyse en composante principale faite avec les donnes disponibles sous R.
Pour fixer les ides, l'analyse en composantes principales fait correspondre variables quantitatives dcrivant individus, facteurs, les composantes principales, de telle manire que la perte d'information soit minimum. En effet, les composantes sont organises dans l'ordre croissant des pertes d'information, la premire en perdant le moins, que les composantes soient non corrles linairement entre elles et que les individus soient projets sur les axes dfinis par les facteurs en respectant la distance qui existe entre eux. Les similitudes et les diffrences sont expliques par les facteurs. L'analyse factorielle des correspondances et l'ACM font correspondre variables qualitatives dcrivant les caractristiques de individus,
Une classification hirarchique faite avec les facteurs en utilisant le tableau de contingence, ou le tableau de Burt donnes disponibles sous R. dans le cas de l'ACM, de telle manire que les facteurs soient constitus des variables numriques sparant le mieux les valeurs des variables qualitatives initiales[53] , que deux individus soient proches s'ils possdent peu prs les mmes valeurs des variables qualitatives et que les valeurs de deux variables qualitatives soient proches si ce sont pratiquement les mmes individus qui les possdent[53] .
On peut aussi utiliser des mthodes nes dans le giron de l'intelligence artificielle et plus particulirement dans celui de l'apprentissage automatique. La classification[54] non supervise est une famille de mthodes qui permettent de regrouper des individus en classes, dont la caractristique est que les individus d'une mme classe se ressemblent, tandis que ceux de deux classes diffrentes sont dissemblables. Les classes de la classification ne sont pas connues au pralable, elles sont dcouvertes par le processus. D'une manire gnrale, les mthodes de classification servent rendre homognes des donnes qui ne le sont pas priori, et ainsi permettent de traiter chaque classe avec des algorithmes sensibles aux donnes aberrantes. Dans cette optique, les mthodes de classification forment une premire tape du processus d'analyse. Ces techniques empruntes l'intelligence artificielle utilisent le partitionnement de l'ensemble des informations mais aussi le recouvrement. Le partitionnement est l'objectif des algorithmes utilisant par exemple des mthodes telles que celles des k-means (les nues dynamiques en franais), des k-medoids[55] , k-modes et k-prototypes, qu'on peut utiliser pour rechercher les aberrations (outliers), les rseaux de Kohonen, qui peuvent aussi servir la classification[56] , l'algorithme EM ou l'AdaBoost. La classification hirarchique est un cas particulier de partitionnement pour lequel les graphiques produits sont facilement comprhensibles. Les mthodes ascendantes partent des individus qu'on agrge en classes, tandis que les mthodes descendantes partent du tout et par divisions successives arrivent aux individus qui composent les classes. Ci-contre le graphique d'une classification ascendante a t trac pour montrer comment les classes les plus proches sont relies entre elles pour former des classes de niveau suprieur. Le recouvrement logique floue est une forme de recouvrement de l'ensemble des individus reprsents par les lignes d'une matrice o certains d'entre eux possdent une probabilit non nulle d'appartenir deux classes diffrentes. L'algorithme le plus connu de ce type est le FCM (Fuzzy c-means)[57] . En bio-informatique, des techniques de classification double sont employes pour regrouper simultanment dans des classes diffrentes les individus et les variables qui les caractrisent. Pour rendre compte de l'utilit de ces mthodes de recouvrement, il faut se rappeler que la classification est un problme dont la grande complexit a t dfinie par Eric Bell. Le nombre de partitions d'un ensemble de objets est gal : . Il vaut donc mieux avoir des mthodes efficaces et rapides pour trouver une
partition qui rpond au problme pos plutt que de parcourir l'ensemble des solutions possibles.
Exploration de donnes Enfin, quand l'analyse se porte non pas sur les individus, les items ou les objets, mais sur les relations qui existent entre eux, la recherche de rgles d'associations est l'outil adapt. Cette technique est, l'origine, utilise pour faire l'analyse du panier d'achats ou l'analyse de squences. Elle permet, dans ce cas, de savoir quels sont les produits achets simultanment, dans un supermarch par exemple, par un trs grand nombre de clients ; elle est galement applique pour rsoudre des problmes d'analyse de parcours de navigation de sites web. La recherche de rgles d'association peut tre utilise de manire supervise ; les algorithmes APriori, GRI, Carma, mthode ARD ou encore PageRank se servent de cette technique[58] .
Mthodes prdictives
Dfinition La raison d'tre des mthodes prdictives est d'expliquer ou de prvoir un ou plusieurs phnomnes observables et effectivement mesurs. Concrtement, elles vont s'intresser une ou plusieurs variables dfinies comme tant les cibles de l'analyse. Par exemple, l'valuation de la probabilit pour qu'un individu achte un produit plutt qu'un autre, la probabilit pour qu'il rponde une opration de marketing direct, celles qu'il contracte une maladie particulire, en gurisse, les chances qu'un individu ayant visit une page d'un site web y revienne, sont typiquement des objectifs que peuvent atteindre les mthodes prdictives.
Rgression linaire.
En exploration de donnes prdictive, il y a deux types d'oprations : la discrimination ou classement, et la rgression ou prdiction, tout dpend du type de variable expliquer. La discrimination sintresse aux variables qualitatives, tandis que la rgression sintresse aux variables continues[59] . Les mthodes de classement et de prdiction permettent de sparer des individus en plusieurs classes. Si la classe est connue au pralable et que l'opration de classement consiste analyser les caractristiques des individus pour les placer dans une classe, la mthode est dite supervise[60] . Dans le cas contraire, on parle de mthodes non-supervises , ce vocabulaire tant issu de l'apprentissage automatique. La diffrence entre les mthodes descriptives de classification que l'on a vues prcdemment, et les mthodes prdictives de classement provient du fait que leur objectif est divergent : les premires rduisent, rsument, synthtisent les donnes[51] pour donner une vision plus claire de l'amas de donnes, alors que les secondes expliquent une ou plusieurs variables cibles en vue de la prdiction des valeurs de ces cibles pour les nouveaux arrivants.
Exploration de donnes Exemples On peut rfrencer quelques exemples de mthodes prdictives[61] , et les prsenter selon le domaine d'o elles proviennent. Parmi les mthodes issues de l'intelligence artificielle, l'analyste pourra utiliser les arbres de dcision[62] ,[63] , parfois pour la prdiction, parfois pour discrtiser les donnes quantitatives[64] , [65] , le raisonnement par cas, les rseaux de neurones[66] , les neurones base radiale[67] ,[68] pour la classification et l'approximation de fonctions, ou peut-tre les algorithmes gntiques, certains en appui des rseaux baysiens[69] , d'autres comme Timeweaver en recherche d'vnements rares[70] . Si l'analyste est plus enclin utiliser les mthodes issues de la statistique et des probabilits, il se tournera vers les techniques de rgressions linaires ou non linaires au sens large[71] pour trouver une fonction d'approximation, l'analyse discriminante de Fisher, la rgression logistique, et la rgression logistique PLS pour prdire une variable catgorielle, ou bien le modle linaire gnralis (GLM), le modle additif gnralis (GAM) ou modle log-linaire afin de prdire une variable multidimensionnelle.
Un exemple d'arbre de dcision utilisant la mthode CART, sur les donnes de la population du Titanic
10
Quant l'infrence baysienne et plus particulirement les rseaux baysiens[72] ,[73] , ils pourront tre utile l'analyste si celui-ci cherche les causes d'un phnomne ou bien cherche la probabilit de la ralisation d'un vnement[74] ,[75] . S'il souhaite complter les donnes manquantes, la mthode des k plus proches voisins (K-nn) reste sa disposition[76] . moins que l'exploration hypercubique issue de l'aide la dcision ou le filtrage collaboratif issu du marketing ne rpondent mieux ses attentes. La liste des algorithmes volue chaque jour, car ils n'ont pas tous le mme objet, ne s'appliquent pas aux mmes donnes en entre et aucun n'est optimal dans tous les cas. En outre, ils s'avrent complmentaires les uns aux autres en pratique et en les combinant intelligemment en construisant des modles de modles ou mtamodles, il est possible d'obtenir des gains en performance et en qualit trs significatifs. L'ICDM-IEEE a fait en 2006 un classement des 10 algorithmes[58] ayant le plus d'influence dans le monde de l'exploration de donnes : ce classement est une aide efficace au choix et la comprhension de ces algorithmes. L'Universit Stanford a mis en concurrence sa rentre d'automne Courbe lift valuant la performance d'un modle 2007 deux quipes sur le projet suivant : en s'appuyant sur la base de random forest sur les donnes Kyphosis. films visualiss par chaque client d'un rseau de distribution dont les abonnements sont pays par carte magntique, dterminer l'audience la plus probable d'un film qui n'a pas encore t vu. Une quipe s'est oriente sur une recherche d'algorithmes extrmement fins partir des informations de la base, une autre au contraire a pris des algorithmes extrmement simples, mais a combin la base fournie par le distributeur au contenu de lInternet Movie Database (IMDB) pour
11
enrichir ses informations. La seconde quipe a obtenu des rsultats nettement plus prcis. Un article[77] suggre que l'efficacit de Google tient moins son algorithme PageRank qu' la trs grande quantit d'information que Google peut corrler par croisement des historiques de requtes, et par l'analyse du comportement de navigation de ses utilisateurs sur les diffrents sites. Avec les moyens modernes de l'informatique l'une ou l'autre de ces deux solutions peut s'envisager dans chaque projet, mais d'autres techniques sont apparues qui ont prouv leur efficacit pour amliorer la qualit des modles et leur performance. Qualit et performance
Courbes ROC comparant la performance en classification de cinq modles d'apprentissage automatique sur les donnes du cancer du sein.
Un modle de qualit est un modle rapide, dont le taux d'erreur doit tre le plus bas possible. Il ne doit pas tre sensible aux fluctuations de l'chantillon pour ce qui concerne les mthodes supervises, il doit tre robuste et supporter des changements lents intervenants sur les donnes. En outre, le fait d'tre simple, comprhensible et produire des rsultats interprtables facilement, augmente sa valeur. Enfin, il est paramtrable pour tre rutilisable[78] . Plusieurs indicateurs sont utiliss pour valuer la qualit d'un modle, et parmi ceux-ci les courbes ROC et lift, l'indice de Gini et l'erreur quadratique moyenne montrent o se situe la prdiction par rapport la ralit et donnent ainsi une bonne ide de la valeur de cette composante de la qualit du modle. La robustesse et la prcision[79] ,[80] sont deux autres facettes de la qualit du modle. Pour obtenir un modle performant, la technique consiste limiter l'htrognit des donnes, optimiser lchantillonnage ou combiner les modles. La pr-segmentation se propose de classifier la population, puis de construire un modle sur chacune des classes dans lesquelles les donnes sont plus homognes et enfin d'en agrger les rsultats. Avec l'agrgation de modles, l'analyste applique le mme modle des chantillons lgrement diffrents issus de l'chantillon initial, pour ensuite associer les rsultats. Le bagging et le boosting taient les deux techniques les plus efficaces et les plus populaires en 1999[81] . En marketing par exemple, l'algorithme Uplift utilise la technique du bagging pour produire un modle d'identification de groupes de personnes pouvant rpondre une offre commerciale aprs sollicitation. Enfin, la combinaison de modles conduit l'analyste appliquer plusieurs modles sur une mme population et combiner les rsultats. Des techniques telles que l'analyse discriminante et les rseaux de neurones par exemple, se marient aisment.
Outils informatiques
Logiciels
La fouille de donnes n'existerait pas sans outils. L'offre informatique est prsente sous la forme de logiciels[82] et aussi sur quelques plateformes spcialises[83] . De nombreux logiciels sont prsents dans la sphre des logiciels commerciaux, mais il en existe aussi dans celle des logiciels libres. Il n'y a pas de meilleurs logiciels que d'autres, tout dpend de ce qu'on veut en faire[84] . Les logiciels commerciaux sont plutt destins aux entreprises, ou aux organismes ayant de gros volumes de donnes explorer[85] , tandis que les logiciels libres sont destins plus particulirement aux tudiants, ceux qui veulent exprimenter des techniques nouvelles, et aux PME[85] . En 2009[86] , les outils les plus utiliss sont, dans l'ordre, SPSS, RapidMiner, SAS, Excel, R, KXEN, Weka, Matlab,
Exploration de donnes Knime, Microsoft SQL Server, Oracle DM et Statistica. En 2010, R[87] est l'outil le plus utilis parmi les utilisateurs ayant rpondus au sondage de Rexer Analytics[88] .
12
Informatique en nuage
Linformatique en nuage (cloud computing) nest pas un outil dexploration de donnes, mais un ensemble de services web, dlivrs par des fournisseurs via l'internet, permettant daccueillir et/ou dutiliser des donnes et des logiciels[89] . Nanmoins, il existe des services qui peuvent tre utiliss dans le domaine de lexploration de donnes. Oracle Data mining sexpose sur lIaaS dAmazon[90] en proposant aux clients une Amazon Machine Image[91] contenant une base de donnes Oracle incluant une IHM pour la fouille de donnes ; une image pour R et Python est disponible aussi sur Amazon Web Services [92] . Des acteurs prsents exclusivement dans le nuage et spcialiss dans le domaine de la fouille de donnes proposent leurs services comme In2Cloud[93] , Predixion[94] et Cloud9Analytics[95] entre autres.
Limites et problmes
L'exploration des donnes est une technique ayant ses limites et posant quelques problmes[96] .
Limites
Les logiciels ne sont pas auto-suffisants. Les outils d'exploration des donnes ne proposent pas d'interprtation des rsultats, un analyste spcialiste de la fouille de donnes et une personne connaissant le mtier duquel sont extraites les donnes sont ncessaires pour analyser les livrables du logiciel. En outre, les logiciels d'exploration de donnes donnent toujours un rsultat, mais rien n'indique qu'il soit pertinent, ni ne donne une indication sur sa qualit. Mais, de plus en plus, des techniques d'aide l'valuation sont mises en place dans les logiciels libres ou commerciaux. Les relations entre les variables ne sont pas clairement dfinies. Les outils d'exploration des donnes indiquent que telles et telles variables ont une influence sur la variable expliquer, mais ne disent rien sur le type de relation, en particulier il n'est pas dit si les relations sont de cause effet. De plus, il peut tre trs difficile de restituer de manire claire soit par des graphes, des courbes ou des histogrammes, les rsultats de l'analyse. Le non-technicien aura quelquefois du mal comprendre les rponses qu'on lui apporte.
Problmes
Pour un francophone, nophyte de surcroit, le vocabulaire est une difficult voire un problme. Pour s'en rendre compte, il est intressant de prciser le vocabulaire rencontr dans les littratures franaise et anglo-saxonne. En prenant comme rfrence le vocabulaire anglo-saxon[97] , le clustering est compris en exploration de donnes comme une segmentation, en statistiques et en analyse des donnes comme une classification. La classification en anglais correspond la classification en exploration de donnes, l'analyse discriminante ou au classement en analyse de donnes la franaise et un problme de dcision en statistique. Enfin, les decision trees sont des arbres de dcision en exploration de donnes, et on peut entendre parler de segmentation dans ce cas dans le domaine de l'analyse des donnes. La terminologie n'est pas claire. La qualit des donnes, c'est--dire la pertinence et la compltude des donnes, est une ncessit pour l'exploration des donnes, mais ne suffit pas. Les erreurs de saisies, les enregistrements doublonns, les donnes non renseignes ou renseignes sans rfrence au temps affectent aussi la qualit des donnes. Les entreprises mettent en place des structures et des dmarches d'assurance qualit des donnes pour pouvoir rpondre efficacement aux nouvelles rglementations externes, aux audits internes, et augmenter la rentabilit de leurs donnes qu'elles considrent comme faisant partie de leur patrimoine[98] .
Exploration de donnes L'interoprabilit d'un systme est sa capacit fonctionner avec d'autres systmes, crs par des diteurs diffrents. Les systmes d'exploration de donnes doivent pouvoir travailler avec des donnes venant de plusieurs systmes de gestion de bases de donnes, de type de fichier, de type de donnes et de capteurs diffrents. En outre, linteroprabilit a besoin de la qualit des donnes. Malgr les efforts de l'industrie en matire d'interoprabilit, il semble que dans certains domaines ce ne soit pas la rgle[99] . Les donnes sont collectes dans le but de rpondre une question pose par le mtier. Un risque de l'exploration de donnes est l'utilisation de ces donnes dans un autre but que celui assign au dpart. Le dtournement des donnes est l'quivalent d'une citation hors de son contexte. En outre, elle peut conduire des problmes thiques. La vie prive des personnes peut tre menace par des projets d'exploration de donnes, si aucune prcaution n'est prise, notamment dans la fouille du web et l'utilisation des donnes personnelles collectes sur Internet o les habitudes d'achats, les prfrences, et mme la sant des personnes peuvent tre dvoiles. Un autre exemple est fourni par l'Information Awareness Office et en particulier le programme Total Information Awareness (TIA)[100] qui exploitait pleinement la technologie d'exploration de donnes et qui fut un des projets post-11 septembre que le Congrs des tats-Unis avait commenc financer, puis qu'il a abandonn cause des menaces particulirement importantes que ce programme faisait peser sur la vie prive des citoyens amricains. Mais mme sans tre dvoiles, les donnes des personnes recueillies par les entreprises, via les outils de CRM, les caisses enregistreuses, les DAB, les cartes sant,etc., peuvent conduire, avec les techniques de fouille de donnes, classer les personnes en une hirarchie de groupes, de bons mauvais, prospects, clients, patients, ou n'importe quel rle que l'on joue un instant donn dans la vie sociale, selon des critres inconnus des personnes elles-mmes[101] ,[102] . Dans cette optique, et pour corriger cet aspect ngatif, Rakesh Agrawal et Ramakrishnan Sikrant s'interrogent sur la faisabilit d'une exploration de donnes qui prserverait la vie prive des personnes[103] ,[104] . Le stockage des donnes ncessaire la fouille pose un autre problme dans la mesure o les donnes numriques peuvent tre pirates. Et dans ce cas l'clatement des donnes sur des bases de donnes distribues[105] et la cryptographie font partie des rponses techniques qui existent et qui peuvent tre mises en place par les entreprises.
13
Fouilles spcialises
Ce qui vient d'tre vu concerne l'exploration de donnes qu'on pourrait qualifier maintenant de classique. Des spcialisations techniques de l'exploration de donnes telles que la fouille d'images (image mining), la fouille du web (web data mining), la fouille de flots de donnes (data stream mining) et la fouille de textes (text mining) sont en plein dveloppement dans les annes 2010 et concentrent l'attention de nombreux chercheurs et industriels.
Par types de donnes

La fouille audio, technique naissante qui n'est peut-tre pas apparente la fouille de donnes, permet de reconnatre des sons dans un flux audio. Elle sert principalement dans le domaine de la reconnaissance vocale. La fouille d'images[106] est la technique qui sintresse au contenu de l'image. Elle extrait des caractristiques dans un ensemble d'images, par exemple du web, pour les classer, les regrouper par type ou bien pour reconnatre des formes dans une image dans le but de chercher des copies de cette image ou de dtecter un objet particulier, par exemple. La fouille de textes est l'exploration des textes en vue d'en extraire une connaissance de haute qualit. Cette technique est souvent dsigne sous l'anglicisme text mining. C'est un ensemble de traitements informatiques consistant extraire des connaissances selon un critre de nouveaut ou de similarit dans des textes produits par des humains pour des humains. Dans la pratique, cela revient mettre en algorithmes un modle simplifi des thories linguistiques dans des systmes informatiques d'apprentissage et de statistiques. Les disciplines impliques sont donc la linguistique calculatoire, l'ingnierie du langage, l'apprentissage artificiel, les statistiques et l'informatique.
14
Par environnements techniques

Il s'agit d'exploiter, avec la fouille du web, l'norme source de donnes que constitue le web et trouver des modles et des schmas dans l'usage, le contenu et la structure du web. La fouille de l'usage du web (Web usage mining ou Web log mining) est le processus d'extraction d'informations utiles stockes dans les journaux des serveurs. Cette fouille exploite la fouille de textes pour analyser les documents textes. La fouille de la structure du web est le processus d'analyse des relations, inconnues priori, entre documents ou pages stocks sur le web. La fouille de flots de donnes (data stream mining)[107] est la technique qui consiste explorer les donnes qui arrivent en un flot continu[108] , illimit, avec une grande rapidit, et dont certains paramtres fondamentaux se modifient avec le temps : par exemple, l'analyse des flots de donnes mis par des capteurs automobiles[109] . Mais des exemples d'applications peuvent tre trouvs dans les domaines des tlcommunications, de la gestion des rseaux, de la gestion des marchs financiers, de la surveillance, et dans les domaines d'activits de la vie de tous les jours, plus proches des personnes, comme l'analyse des flux de GAB, des transactions par cartes de crdit,etc.
Par domaines d'activits

La fouille de donnes spatiales[110] (Spatial data mining) est la technique d'exploration de donnes gographiques notre chelle sur Terre, mais aussi astronomiques ou microscopiques, dont le but est de trouver des motifs intressants dans les donnes contenant la fois du texte, des donnes temporelles ou des donnes gomtriques, telles que des vecteurs, des trames ou des graphes. Les donnes spatiales donnent des informations des chelles diffrentes, fournies par des techniques diffrentes, sous des formats diffrents, dans une priode de temps souvent longue en vue de l'observation des changements. Les volumes sont donc trs importants, les donnes peuvent tre imparfaites, bruites. De plus, les relations entre les donnes spatiales sont souvent implicites : les relations ensemblistes, topologiques, directionnelles et mtriques se rencontrent frquemment dans cette spcialisation. La fouille de donnes spatiales est donc particulirement ardue.
Reprsentation graphique des bords de la Meuse aux Pays-bas o des concentrations anormales de zinc ont t observes.
On utilise la fouille de donnes spatiales pour explorer les donnes des sciences de la terre, les donnes cartographiques du crime, celles des recensements, du trafic routier, des foyers de cancer[111] ,etc.
Dans le futur
Lavenir de l'exploration de donnes dpend de celui des donnes numriques. Avec lapparition du Web 2.0, des blogs, des wikis et des services en nuages[112] , il y a une explosion du volume des donnes numriques et les gisements de matire premire pour la fouille de donnes sont donc importants. De nombreux domaines exploitent encore peu la fouille de donnes pour leurs besoins propres. Lanalyse des donnes venant de la blogosphre nen est qu son dbut. Comprendre l cologie de linformation[113] ,[114] pour analyser le mode de fonctionnement des mdias de lInternet par exemple ne fait que commencer. Pour peu que les problmes lis la vie prive des personnes[115] ,[116] soient rgls, la fouille de donnes peut aider traiter des questions dans le domaine mdical[117] , et notamment dans la prvention des risques hospitaliers[117] . Enfin, avec lapparition de nouvelles donnes et de nouveaux domaines, les techniques continuent de se dvelopper[118] .
15
Notes et rfrences
Notes
[1] Terme recommand au Canada par l'OQLF, et en France par la DGLFLF (Journal officiel du 27 fvrier 2003) et par FranceTerme
(en) Kurt Thearling, An Introduction to Data Mining (http://www.thearling.com/text/dmwhite/dmwhite.htm) sur thearling.com. Consult le 2 mai 2011. [3] [PDF] Jean-Claude Oriol, Une approche historique de la statistique (http:/ / www. statistix. fr/ IMG/ pdf/ Une_approche_historique_de_la_statistique_v3. pdf). Consult le 12 mai 2011
[2]
(en) Nikhil Pal et Lakhmi Jain, Advanced techniques in knowledge discovery and data mining, Springer, 2005, 254p. (ISBN978-1-85233-867-1) [5] [PDF] Philippe Besse, Data mining II - Modlisation Statistique et Apprentissage, Universit Pde Toulouse (http:/ / www. math. univ-toulouse. fr/ ~besse/ pub/ Appren_stat. pdf), juillet 2000. Consult le 12 mai 2011
[4] [6] [PDF] (en) Patricia Cerrito, A Data Mining Applications Area in the Department of Mathematics (http:/ / www. math. louisville. edu/ people/ faculty/ Cerrito/ DataMine. pdf). Consult le 31 mai 2011 [7] (en) Maryann Lawlor, Smart Companies Dig Data (http:/ / www. afcea. org/ signal/ articles/ anmviewer. asp?a=1417& print=yes). Consult le 31 mai 2011 [8] [PDF] Christine Frodeau, Data mining, Outil de Prediction du Comportement du Consommateur (http:/ / www. creg. ac-versailles. fr/ IMG/ pdf/ data_mining. pdf). Consult le 12 mai 2011 [9] (en) Colleen McCue, Data Mining and Predictive Analysis, Elsevier, 2007, 313p. (ISBN978-0-7506-7796-7) [10] [PDF] Frank audet, Malcolm Moore, Amlioration de la qualit dans un centre dappel (http:/ / www. jmp. com/ fr/ software/ success/ pdf/ qualite_et_management. pdf). Consult le 12 mai 2011 [11] [PDF] (en) Henry Abarbanel, Curtis Callan, William Dally, Freeman Dyson, Terence Hwa, Steven Koonin, Herbert Levine, Oscar Rothaus, Roy Schwitters, Christopher Stubbs, Peter Weinberger, Data mining and the human genome (http:/ / www. fas. org/ irp/ agency/ dod/ jason/ genome. pdf), p.7. Consult le 12 mai 2011 [12] (en) Industries / Fields for Analytics / Data Mining in 2010 (http:/ / www. kdnuggets. com/ polls/ 2010/ analytics-data-mining-industries-applications. html), octobre 2010. Consult le 12 mai 2011 [13] Voir dans ce document les efforts de standardisation et d'interoprabilit effectus par l'industrie : [PDF] (en) Arati Kadav, Aya Kawale, Pabitra Mitra, Data Mining Standards (http:/ / www. datamininggrid. org/ wdat/ works/ att/ standard01. content. 08439. pdf). Consult le 13 mai 2011 [14] (en) Yi Peng, Gang Kou, Yong Shi et Zhengxin Chen, A Descriptive Framework for the Field of Data Mining and Knowledge Discovery, dans International Journal of Information Technology and Decision Making, vol.7, no4, 2008, p.639 682 [[10.1142/S0219622008003204 texte intgral] ( le 19 mai 2011)] [15] (en) SIGKDD : Site officiel (http:/ / www. sigkdd. org/ index. php). Consult le 13 mai 2011 [16] (en) ACM SIGKDD : Conferences (http:/ / www. kdd. org/ conferences. php). Consult le 13 mai 2011 [17] (en) ACM, New York, SIGKDD Explorations (http:/ / www. kdd. org/ explorations/ about. php). Consult le 13 mai 2011 [18] (en) 5th (2009) (http:/ / www. dmin--2009. com/ ). Consult le 13 mai 2011 [19] (en) 4th (2008) (http:/ / www. dmin-2008. com/ ). Consult le 13 mai 2011 [20] (en) 3rd (2007) (http:/ / www. dmin-2007. com/ ). Consult le 13 mai 2011 [21] (en) 2nd (2006) (http:/ / www. dmin-2006. com/ ). Consult le 13 mai 2011 [22] (en) 1st (2005) (http:/ / www. informatik. uni-trier. de/ ~ley/ db/ conf/ dmin/ dmin2005. html). Consult le 13 mai 2011 [23] (en) ICDM : Site officiel (http:/ / www. cs. uvm. edu/ ~icdm/ ). Consult le 13 mai 2011 [24] (en) IEEE International Conference on Data Mining (http:/ / www. informatik. uni-trier. de/ ~ley/ db/ conf/ icdm/ index. html). Consult le 13 mai 2011 [25] (en) ICDM09, Miami, FL (http:/ / www. cs. umbc. edu/ ICDM09/ ). Consult le 13 mai 2011 [26] (en) ICDM08, Pisa (Italy) (http:/ / icdm08. isti. cnr. it/ ). Consult le 13 mai 2011 [27] (en) ICDM07, Omaha, NE (http:/ / www. ist. unomaha. edu/ icdm2007/ ). Consult le 13 mai 2011 [28] (en) ICDM06, Hong Kong (http:/ / www. comp. hkbu. edu. hk/ iwi06/ icdm/ ). Consult le 13 mai 2011 [29] (en) ICDM05, Houston, TX (http:/ / www. cacs. ull. edu/ ~icdm05/ ). Consult le 13 mai 2011 [30] (en) ICDM04, Brighton (UK) (http:/ / icdm04. cs. uni-dortmund. de/ ). Consult le 13 mai 2011 [31] (en) ICDM01, San Jose, CA. (http:/ / www. cs. uvm. edu/ ~xwu/ icdm-01. html). Consult le 13 mai 2011 [32] (en) CRoss Industry Standard Process for Data Mining (http:/ / www. crisp-dm. org/ Process/ index. htm), 2007. Consult le 14 mai 2011 [33] [PDF] (en) Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, From Data Mining to Knowledge Discovery in Databases (http:/ / www. kdnuggets. com/ gpspubs/ aimag-kdd-overview-1996-Fayyad. pdf), 1996. Consult le 14 mai 2011 [34] Par exemple, un programme gestionnaire de messages lectroniques pourrait tenter de classer un e-mail dans la catgorie des e-mails lgitimes ou bien dans celle des pourriels. Les algorithmes gnralement utiliss incluent les arbres de dcision, les plus proches voisins, la classification nave baysienne, les rseaux neuronaux et les sparateurs vaste marge (SVM) [35] (en) STATISTICA, Statistics Glossary, Models for Data Mining (http:/ / www. statsoft. com/ textbook/ statistics-glossary/ m/ button/ m/ ). Consult le 13 mai 2011
[36] (en) SAS SEMMA (http:/ / www. sas. com/ offices/ europe/ uk/ technologies/ analytics/ datamining/ miner/ semma. html). Consult le 13 mai 2011 [37] [PDF] (en) Ana Azevedo, Manuel Filipe Santos, KDD, SEMMA and CRISP-DM: a parallel overview (http:/ / www. iadis. net/ dl/ final_uploads/ 200812P033. pdf), IADIS, 2008, (ISBN978-972-8924-63-8), p.184. Consult le 14 mai 2011 [38] isixsigma, What Is Six Sigma? (http:/ / www. isixsigma. com/ index. php?option=com_k2& view=item& id=1463:what-is-six-sigma?& Itemid=155). Consult le 15mai2011 [39] StatSoft, Sigma DMAIC Six Sigma DMAIC (http:/ / www. statsoft. com/ textbook/ statistics-glossary/ s/ button/ s/ #Six). Consult le 15mai2011 [40] (en)Aveta Business Institute, Six Sigma on line (http:/ / www. sixsigmaonline. org/ services. html). Consult le 15mai2011 [41] Nisbet, Elder et Miner 2009, p.733 [42] (en) fasq.org, What are cross-validation and bootstrapping? (http:/ / www. faqs. org/ faqs/ ai-faq/ neural-nets/ part3/ section-12. html). Consult le 15 mai 2011 [43] (en) Jing Gao, Wei Fan, Jiawei Han, On the Power of Ensemble: Supervised and Unsupervised Methods Reconciled (http:/ / www. ews. uiuc. edu/ ~jinggao3/ sdm10ensemble. htm). Consult le 15 mai 2011 [44] [PDF] (en)Mary McGlohon, Data Mining Disasters: a report (http:/ / www. cs. cmu. edu/ ~mmcgloho/ pubs/ accidents-sigbovik08. pdf), p.2. Consult le 14 mai 2011 [45] (en) An Introduction to Ensemble Methods (http:/ / fedc. wiwi. hu-berlin. de/ xplore/ ebooks/ html/ csa/ node228. html) sur RDC (http:/ / fedc. wiwi. hu-berlin. de). Consult le 14 mai 2011 [46] Tuffry 2010, p.44 [47] (en) Dorian Pyle, Data Preparation for Data Mining, Morgan Kaufmann, 1999, 560p. (ISBN978-1558605299) [48] (en) Kurt Thearling, ''An Introduction to Data Mining (http:/ / www. thearling. com/ dmintro/ dmintro. htm), p.17. Consult le 14 mai 2011 [49] [PDF] Stphane Tuffry, Les techniques descriptives (http:/ / data. mining. free. fr/ cours/ Descriptives. pdf), 2007, p.5. Consult le 14 mai 2011 [50] [PDF] Jacques Baillargeon, Analyse factorielle exploratoire (http:/ / www. uqtr. ca/ cours/ srp-6020/ afe/ afe. pdf), 2003, p.4. Consult le 14 mai 2011 [51] Tuffry 2010, p.161 [52] [PDF] Philippe Besse, Alain Baccini, Exploration Statistique (http:/ / www. math. univ-toulouse. fr/ ~besse/ pub/ Explo_stat. pdf), juin 2010, p.7. Consult le 14 mai 2011 [53] Tuffry 2010, p.198 [54] [PDF] Philippe Besse, Alain Baccini, Exploration Statistique (http:/ / www. math. univ-toulouse. fr/ ~besse/ pub/ Explo_stat. pdf), juin 2010, p.8. Consult le 14 mai 2011 [55] Tuffry 2010, p.244 [56] Alexandre Aupetit, Rseaux de neurones artificiels : une petite introduction (http:/ / labo. algo. free. fr/ neuro/ reseau_de_neurones_artificiel. html), mai 2004. Consult le 14 mai 2011 [57] [PDF] (en)Nikhil R. Pal, Kuhu Pal, James M. Keller, James C. Bezdek, Fuzzy c-Means Clustering of Incomplete Data (http:/ / www. comp. ita. br/ ~forster/ CC-222/ material/ fuzzyclust/ fuzzy01492404. pdf), aot 2005. Consult le 14 mai 2011 [58] [PDF] (en) ICDM Top 10 algorithms in data mining (http:/ / www. cs. uvm. edu/ ~icdm/ algorithms/ 10Algorithms-08. pdf). Consult le 14 mai 2011 [59] Tuffry 2010, p.297 [60] Nisbet, Elder et Miner 2009, p.235 [61] Dont ont peut trouver, pour certaines, la description ici : [PDF] Guillaume Calas, tudes des principaux algorithmes de data mining (http:/ / guillaume. calas. free. fr/ data/ Publications/ DM-Algos. pdf), 2009. Consult le 14 mai 2011 [62] [PDF] (en) Wei-Yin Loh, Yu-Shan Shih, Split Selection Methods for Classification Trees (http:/ / www. math. ccu. edu. tw/ ~yshih/ papers/ sinica. pdf), 1997. Consult le 14 mai 2011 [63] [PDF] (en)Leo Breiman, Random Forests (http:/ / www. springerlink. com/ content/ u0p06167n6173512/ fulltext. pdf), 2001. Consult le 14 mai 2011 [64] [PDF] Ricco Rakotomalala, Arbres de Dcision (http:/ / www-rocq. inria. fr/ axis/ modulad/ archives/ numero-33/ tutorial-rakotomalala-33/ rakotomalala-33-tutorial. pdf), 2005. Consult le 14 mai 2011 [65] Comme CART, CHAID, ECHAID, QUEST, C5, C4.5 et les forts d'arbres dcisionnels [66] Tels que les perceptrons mono ou multicouches avec ou sans rtropropagation des erreurs [67] (en) (en) Simon Haykin, Neural Networks: A comprehensive Foundation, Prentice Hall, 1998, 842p. (ISBN978-0132733502) [68] [ppt] M. Boukadoum, Rseaux de neurones base radiale (http:/ / www. labunix. uqam. ca/ ~boukadoum_m/ DIC9315/ Notes/ NN/ 6_rbf. ppt). Consult le 14 mai 2011 [69] [PDF] Jean-Marc Trmeaux, Algorithmes gntiques pour l'identification structurelle des rseaux baysiens (http:/ / naku. dohcrew. com/ dea-ecd/ Tremeaux-genetic-bayesnet. pdf), 2006. Consult le 14 mai 2011 [70] [PDF] Thomas Valle, Murat Yldzolu, Prsentation des algorithmes gntiques et de leurs applications en conomie (http:/ / www. sc-eco. univ-nantes. fr/ ~tvallee/ recherche/ murat/ agpresf42. pdf), 2003, p.15. Consult le 14 mai 2011 [71] Telles que la rgression linaire, linaire multiple, logistique, PLS, ANOVA, MANOVA, ANCOVA ou MANCOVA.
16
[72] [PDF] Olivier Parent, Julien Eustache, Les Rseaux Baysiens (http:/ / liris. cnrs. fr/ amille/ enseignements/ master_ia/ rapports_2006/ Reseau Bayesien SYNTHESE ECRITE. pdf), 2006. Consult le 14 mai 2011 [73] [PDF] Gilles Balmisse, Les Rseaux Baysiens (http:/ / www. gillesbalmisse. com/ IMG/ pdf/ GB_RB. pdf), 2006. Consult le 14 mai 2011 [74] [PDF] Samos, Les Rseaux Baysiens (http:/ / samos. univ-paris1. fr/ archives/ ftp/ preprints/ samos175. pdf), 2003. Consult le 14 mai 2011 [75] Bayesia, Pour sortir de l'incertitude, entrez dans l're des rseaux baysiens (http:/ / www. bayesia. com/ fr/ technologie/ reseaux-bayesiens. php), Bayesia. Consult le 14 mai 2011 [76] Valrie Monbet, Les donnes manquantes (http:/ / perso. univ-rennes1. fr/ valerie. monbet/ doc/ cours/ IntroDM/ Chapitre4. pdf), p.27. Consult le 14 mai 2011 [77] Didier Durand, PageRank de Google : l'algorithme prend en compte 200 paramtres ! (http:/ / media-tech. blogspot. com/ 2008/ 03/ pagerank-de-google-lalgorithme-prend-en. html), 2008. Consult le 14 mai 2011 [78] [PDF] Bertrand Liaudet, Cours de Data Mining 3 : Modelisation Prsentation Gnrale (http:/ / bliaudet. free. fr/ IMG/ pdf/ Cours_de_data_mining_3-Modelisation-EPF. pdf). Consult le 14 mai 2011 [79] Tuffry 2010, p.518 [80] Voir Glossaire du data mining pour la dfinition de robustesse et prcision . [81] [PDF] (en) David Opitz, Richard Maclin, Popular Ensemble Methods: An Empirical Study (http:/ / www. d. umn. edu/ ~rmaclin/ cs5751/ notes/ opitz-jair99. pdf), 1999. Consult le 14 mai 2011 [82] (en) Software Suites for Data Mining, Analytics, and Knowledge Discovery (http:/ / www. kdnuggets. com/ software/ suites. html#B) sur kdnuggets (http:/ / www. kdnuggets. com). Consult le 15 mai 2011 [83] Plateforme de datamining pour les editeurs d'univers virtuels (http:/ / www. marketingvirtuel. fr/ 2009/ 03/ 17/ twofish-lance-une-plateforme-de-datamining-pour-les-editeurs-dunivers-virtuels/ ). Consult le 15 mai 2011 [84] [PDF] (en) Dean W. Abbott, I. Philip Matkovsky, et John Elder IV, 1998 IEEE International Conference on Systems, Man, and Cybernetics, San Diego, CA (http:/ / datamininglab. com/ Portals/ 0/ tool eval articles/ smc98_abbott_mat_eld. pdf), 14 octobre 1998. Consult le 15 mai 2011 [85] Tuffry 2010, p.121 [86] (en) Data Mining Tools Used Poll (http:/ / www. kdnuggets. com/ polls/ 2009/ data-mining-tools-used. htm), 2009. Consult le 15 mai 2011 [87] (en)Rexer Analytics, 2010 Data Miner Survey (http:/ / www. rexeranalytics. com/ Data-Miner-Survey-Results-2010. html). Consult le 19 juin 2011 [88] (en)Rexer Analytics, Rexer Analytics (http:/ / www. rexeranalytics. com/ index. html). Consult le 19 juin 2011 [89] (en)Dave Wells, Whats Up with Cloud Analytics? (http:/ / www. b-eye-network. com/ view/ 12100). Consult le 2 juin 2011 [90] IaaS signifiant Infrastructure as a service dnomm Amazon Elastic Compute Cloud chez Amazon [91] [PDF](en)John Smiley, Bill Hodak, Oracle Database on Amazon EC2 : An Oracle White Paper (http:/ / www. oracle. com/ technetwork/ topics/ cloud/ oracle-aws-getting-started-twp-171089. pdf). Consult le 4 juin 2011 [92] [PDF](en)Drew Conway, Amazon EC2 configuration for scientific computing in Python and R (http:/ / www. kdnuggets. com/ 2011/ 04/ amazon-cloud-computing-with-python-and-r. html). Consult le 4 juin 2011 [93] (en)In2Cloud, In2Clouds Solutions (http:/ / www. in2clouds. com/ predictive-analytics-solutions). Consult le 5 juin 2011 [94] (en)Predixion, Cloud Predixion Solutions (http:/ / www. predixionsoftware. com/ predixion/ Solutions. aspx). Consult le 5 juin 2011 [95] (en)Cloud9, Cloud9 Solution Overview (http:/ / www. cloud9analytics. com/ solutions). Consult le 14 juin 2011 [96] [PDF] (en) Jeffrey Seifer, CRS report for congress (http:/ / biotech. law. lsu. edu/ blaw/ crs/ RL31798. pdf), 2007. Consult le 15 mai 2011 [97] Tuffry 2010, p.158 [98] Laetitia Hardy, Pourquoi la qualit des donnes devient incontournable au sein de lentreprise? (http:/ / www. decideo. fr/ Pourquoi-la-qualite-des-donnees-devient-incontournable-au-sein-de-l-entreprise_a1951. html) sur Decideo (http:/ / www. decideo. fr), 2007. Consult le 15 mai 2011 [99] [PDF] (en) Jeffrey Seifert, CRS report for congress (http:/ / biotech. law. lsu. edu/ blaw/ crs/ RL31798. pdf), 2007, p.27. Consult le 15 mai 2011 [100] (en) International Workshop on Practical Privacy-Preserving Data Mining (http:/ / www. cs. umbc. edu/ ~kunliu1/ p3dm08/ ), 2008. Consult le 15 mai 2011 [101] [PDF] (en) Martin Meint, Jan Mller, Privacy Preserving Data Mining (http:/ / www. fidis. net/ fileadmin/ journal/ issues/ 1-2007/ Privacy_Preserving_Data_Mining. pdf). Consult le 15 mai 2011 [102] (en) Kirsten Wahlstrom, John F. Roddick, Rick Sarre, Vladimir Estivill-Castro et Denise de Vries, Legal and Technical Issues of Privacy Preservation in Data Mining (http:/ / www. irma-international. org/ chapter/ legal-technical-issues-privacy-preservation/ 10968/ ), 2007. Consult le 15 mai 2011 [103] [PDF] (en) Rakesh Agrawal, Ramakrishnan Sikrant, privacy-Preserving Data mining (http:/ / www. cs. utexas. edu/ ~shmat/ courses/ cs395t_fall05/ ppdm. pdf). Consult le 15 mai 2011 [104] Puisque les modles de l'exploration de donnes concernent les donnes agrges d'o sont limines les donnes personnelles.
17
[105] [PDF] (en) Murat Kantarcioglu, Introduction to Privacy Preserving Distributed Data Mining (http:/ / wiki. kdubiq. org/ summerschool2008/ uploads/ Main/ SS08/ Lectures/ Kantarcioglu_kdubiq08-talk. pdf). Consult le 15 mai 2011 [106] [PDF] Patrick Gros, Nouvelles de lAS fouille dimages & mergence de caractristiques smantiques (http:/ / liris. cnrs. fr/ as50/ Journee-7-juillet/ Gros-presentation. pdf), 16 juillet 2003. Consult le 15 mai 2011 [107] [PDF] (en) Mohamed Medhat Gaber, Arkady Zaslavsky et Shonali Krishnaswamy, Data Streams: A Review (http:/ / www. sigmod. org/ publications/ sigmod-record/ 0506/ p18-survey-gaber. pdf), 2005. Consult le 15 mai 2011 [108] [PDF] (en) Chih-Hsiang Li, Ding-Ying Chiu, Yi-Hung Wu, Arbee L. P. Chen, Mining Frequent Itemsets from Data Streams with a Time-Sensitive Sliding Window (http:/ / www. siam. org/ proceedings/ datamining/ 2005/ dm05_07linc. pdf), 2005. Consult le 15 mai 2011 [109] [PDF] (en) Hillol Kargupta, Ruchita Bhargava, Kun Liu, Michael Powers, Patrick Blair, Samuel Bushra, James Dull, Kakali Sarkar, Martin Klein, Mitesh Vasa et David Handy, VEDAS : A Mobile and Distributed Data Stream Mining System for Real-Time Vehicle Monitoring (http:/ / www. siam. org/ proceedings/ datamining/ 2004/ dm04_028karguptah. pdf), 2004. Consult le 15 mai 2011 [110] (en) Spatial Database and Spatial Data Mining Research Group : Site officiel (http:/ / www. spatial. cs. umn. edu/ ), 2011. Consult le 15 mai 2011 [111] [PDF] (en) Shashi Shekhar, Pusheng Zhang, Spatial Data Mining: Accomplishments and Research Needs (http:/ / www. spatial. cs. umn. edu/ paper_ps/ giscience. pdf), 2004. Consult le 15 mai 2011 [112] IDC pronostique une explosion du volume de donnes produites dans le monde d'ici 10 ans (http:/ / www. lemagit. fr/ article/ stockage-numerique-idc-nuage-donnees-cloud/ 6254/ 1/ idc-pronostique-une-explosion-volume-donnees-produites-dans-monde-ici-ans/ ). Consult le 21 mai 2011 [113] Selon Tim Finin, Anupam Joshi, Pranam Kolari, Akshay Java, Anubhav Kale et Amit Karandikar, The information ecology of social media and online communities (http:/ / aisl. umbc. edu/ resources/ 376. pdf). Consult le 19 juin 2011. [114] Kargupta et al. Kumar, p.283 [115] Kargupta et al. Kumar, p.357 [116] Kargupta et al. Kumar, p.420 [117] Kargupta et al. Kumar, p.471 [118] Kargupta et al. Kumar, p.1-281
18
Rfrences
(en) Cet article est partiellement ou en totalit issu de larticle de Wikipdia en anglais intitul Data mining (http://en.wikipedia.org/wiki/En:data_mining?oldid=cur) (voir la liste des auteurs (http://en.wikipedia.org/ wiki/En:data_mining?action=history))
Sources et contributeurs de larticle
19
Sources et contributeurs de larticle

Exploration de donnes Source: http://fr.wikipedia.org/w/index.php?oldid=69077328 Contributeurs: -
Source des images, licences et contributeurs

Fichier:SlideQualityLife.png Source: http://fr.wikipedia.org/w/index.php?title=Fichier:SlideQualityLife.png Licence: Creative Commons Attribution 3.0 Contributeurs: A. N. Gorban, A. Zinovyev Fichier:CarMilageData.png Source: http://fr.wikipedia.org/w/index.php?title=Fichier:CarMilageData.png Licence: Creative Commons Attribution-Sharealike 3.0 Contributeurs: User:Jackverr Fichier:AcpClusterRL01.png Source: http://fr.wikipedia.org/w/index.php?title=Fichier:AcpClusterRL01.png Licence: Creative Commons Attribution-Sharealike 3.0,2.5,2.0,1.0 Contributeurs: Jackverr Fichier:CRISP DM.png Source: http://fr.wikipedia.org/w/index.php?title=Fichier:CRISP_DM.png Licence: Creative Commons Attribution 3.0 Contributeurs: Jackverr Image:Surajustement Modle 2.JPG Source: http://fr.wikipedia.org/w/index.php?title=Fichier:Surajustement_Modle_2.JPG Licence: Creative Commons Attribution-ShareAlike 3.0 Unported Contributeurs: Fichier:LOF.svg Source: http://fr.wikipedia.org/w/index.php?title=Fichier:LOF.svg Licence: Public Domain Contributeurs: Chire Fichier:AirqACP.png Source: http://fr.wikipedia.org/w/index.php?title=Fichier:AirqACP.png Licence: Creative Commons Attribution-Sharealike 3.0,2.5,2.0,1.0 Contributeurs: Jackverr Fichier:HierarchicalClustering.png Source: http://fr.wikipedia.org/w/index.php?title=Fichier:HierarchicalClustering.png Licence: Creative Commons Attribution-Sharealike 3.0 Contributeurs: Jackverr Image:LinearRegressionR.png Source: http://fr.wikipedia.org/w/index.php?title=Fichier:LinearRegressionR.png Licence: Creative Commons Attribution-Sharealike 3.0,2.5,2.0,1.0 Contributeurs: Jackverr Image:CART tree titanic survivors.png Source: http://fr.wikipedia.org/w/index.php?title=Fichier:CART_tree_titanic_survivors.png Licence: Creative Commons Attribution-Sharealike 3.0 Contributeurs: Stephen Milborrow Image:LiftCurve01.png Source: http://fr.wikipedia.org/w/index.php?title=Fichier:LiftCurve01.png Licence: Creative Commons Attribution-Sharealike 3.0 Contributeurs: Jackverr Image:ROCCurve02.png Source: http://fr.wikipedia.org/w/index.php?title=Fichier:ROCCurve02.png Licence: Creative Commons Attribution-Sharealike 3.0,2.5,2.0,1.0 Contributeurs: Jackverr Image:MeuseRiverZincConcentr01.png Source: http://fr.wikipedia.org/w/index.php?title=Fichier:MeuseRiverZincConcentr01.png Licence: Creative Commons Attribution-Sharealike 3.0,2.5,2.0,1.0 Contributeurs: Jackverr
Licence
Creative Commons Attribution-Share Alike 3.0 Unported http:/ / creativecommons. org/ licenses/ by-sa/ 3. 0/

Exploration de Données - Data Mining

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Exploration de Données - Data Mining

Transféré par

Droits d'auteur :

Formats disponibles

Data mining

Un exemple de ce qu'on peut faire avec le logiciel R : ici un corrlogramme

Par secteurs d'activits

Produits manufacturs 8.0

Recherche et groupes de rflexion

Projet, mthodes et processus

Phases du processus CRISP-DM

Estimation du temps consacrer aux diffrentes tapes[46] ,[47]

Reprer les donnes aberrantes et les liminer.

Par types de donnes

Par environnements techniques

Par domaines d'activits

Sources et contributeurs de larticle

Sources et contributeurs de larticle

Source des images, licences et contributeurs

Vous aimerez peut-être aussi