Académique Documents
Professionnel Documents
Culture Documents
notes 1
L’exploration de données , connue aussi sous l'expression de fouille de données, forage
1
de données, prospection de données, data mining , ou encore extraction
de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une
connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-
automatiques.
Elle se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques diverses telles
que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir
des données, c'est-à-dire trouver des structures intéressantes ou des motifs selon des critères fixés
au préalable, et d'en extraire un maximum de connaissances.
https://fr.wikipedia.org/wiki/Exploration_de_données 1/19
01/11/2020 Exploration de données — Wikipédia
Sommaire
Histoire
Applications industrielles
Par objectifs
Par secteurs d'activités
Recherche et groupes de réflexion
Projets, méthodes et processus
Méthode CRISP-DM
D'autres méthodes
SEMMA
Six Sigma (DMAIC)
Maladresses à éviter
Planifier
Algorithmes
Méthodes descriptives
Définition
Exemples
Méthodes prédictives
Définition
Exemples
Qualité et performance
Outils informatiques
Logiciels
Informatique en nuage
Limites et problèmes
Limites
Problèmes
Fouilles spécialisées
Par types de données
Par environnements techniques
Par domaines d'activités
Dans le futur
Notes et références
Notes
Ouvrages spécialisés
Autres références
Voir aussi
Articles connexes
Statistiques
Intelligence artificielle
Aide à la décision
Applications
Bibliographie
https://fr.wikipedia.org/wiki/Exploration_de_données 2/19
01/11/2020 Exploration de données — Wikipédia
Histoire
La génération de modèles à partir d'un grand nombre de
données n'est pas un phénomène récent. Pour qu'il y ait création
de modèle il faut qu'il y ait collecte de données. En Chine on
prête à l'Empereur mythique Yao, la volonté de recenser les
4
récoltes en 2238 av. J.-C. ; en Égypte le
pharaon Amasis organise le recensement de sa population
4
au Ve siècle av. J.-C. Ce n'est qu'au XVIIe siècle qu'on commence
à vouloir analyser les données pour en rechercher des
caractéristiques communes. En 1662, John Graunt publie son
livre « Natural and Political Observations Made upon the Bills Collecter les données, les analyser
of Mortality » dans lequel il analyse la mortalité à Londres et et les présenter au client.
essaie de prévoir les apparitions de la peste bubonique.
En 1763, Thomas Bayes montre qu'on peut déterminer, non
seulement des probabilités à partir des observations issues d’une expérience, mais aussi les
paramètres relatifs à ces probabilités. Présenté dans le cas particulier d'une loi binomiale, ce résultat
est étendu indépendamment par Laplace, conduisant à une formulation générale du théorème de
Bayes. Legendre publie en 1805 un essai sur la méthode des moindres carrés qui permet de
comparer un ensemble de données à un modèle mathématique. Les calculs manuels coûteux ne
permettent cependant pas d'utiliser ces méthodes hors d'un petit nombre de cas simples et
éclairants.
De 1919 à 1925, Ronald Fisher met au point l'analyse de la variance comme outil pour son projet
d'inférence statistique médicale. Les années 1950 voient l'apparition de calculateurs encore onéreux
et des techniques de calcul par lots sur ces machines. Simultanément, des méthodes et des
techniques voient le jour telles que la segmentation, classification (entre autres par la méthode des
nuées dynamiques), une première version des futurs réseaux de neurones qui se nomme
le Perceptron, et quelques algorithmes auto-évolutifs qui se nommeront plus tard génétiques. Dans
les années 1960 arrivent les arbres de décision et la méthode des centres mobiles; ces techniques
permettent aux chercheurs d'exploiter et de découvrir des modèles de plus en plus précis.
En France, Jean-Paul Benzécri développe l'analyse des correspondances en 1962. On reste
cependant dans une optique de traitement par lots.
5
En 1969 paraît l'ouvrage de Myron Tribus Rational descriptions, decisions and designs qui
généralise les méthodes bayésiennes dans le cadre du calcul automatique (professeur à Dartmouth,
il utilise assez logiquement le langage BASIC, qui y a été créé quelques années plus tôt, et
son interactivité). La traduction en français devient disponible en 1973 sous le nom Décisions
rationnelles dans l'incertain. Une idée importante de l'ouvrage est la mention du théorème de Cox-
Jaynesdémontrant que toute acquisition d'un modèle soit se fait selon les règles de Bayes (à
un homomorphisme près), soit conduit à des incohérences. Une autre est que parmi toutes les
distributions de probabilité satisfaisant aux observations (leur nombre est infini), il faut choisir celle
qui contient le moins d'arbitraire (donc le moins d'information ajoutée, et en conséquence celle
notes 3
d'entropie maximale . La probabilité s'y voit considérée comme simple traduction numérique
d'un état de connaissance, sans connotation fréquentiste sous-jacente. Enfin, cet ouvrage popularise
la notation des probabilités en décibels, qui rend la règle de Bayes additive et permet de quantifier
de façon unique l'apport d'une observation en la rendant désormais indépendante des diverses
estimations a priori préalables (voir Inférence bayésienne).
https://fr.wikipedia.org/wiki/Exploration_de_données 3/19
01/11/2020 Exploration de données — Wikipédia
L'expression « data mining » avait une connotation péjorative au début des années 1960, exprimant
le mépris des statisticiens pour les démarches de recherche de corrélation sans hypothèses de
départ [réf. nécessaire]. Elle tombe dans l'oubli, puis Rakesh Agrawal l'emploie à nouveau dans les
années 1980 lorsqu'il entamait ses recherches sur des bases de données d'un volume de 1 Mo. Le
concept d'exploration de données fait son apparition, d'après Pal et Jain, aux conférences de l'IJCAI
6
en 1989 . Gregory Piatetsky-Shapiro chercha un nom pour ce nouveau concept dans la fin des
années 1980, aux GTE Laboratories. « Data mining » étant sous la protection d'un copyright, il
7
employa l'expression « Knowledge discovery in data bases » (KDD) .
Puis, dans les années 1990, viennent les techniques d'apprentissage automatique telles que
b1
les SVM en 1998, qui complètent les outils de l'analyste.
Au début du XXIe siècle, une entreprise comme Amazon.com se sert de tous ces outils pour proposer
8, 9
à ses clients des produits susceptibles de les intéresser .
Applications industrielles
Par objectifs
Le scoring des clients dans les banques est maintenant très connu, il permet de repérer les « bons »
clients, sans facteur de risque (Évaluation des risques-clients) à qui les organismes financiers,
banques, assurances, etc., peuvent proposer une tarification adaptée et des produits attractifs, tout
en limitant le risque de non-remboursement ou de non-paiement ou encore de sinistre dans le cas
des assurances.
10 12
https://fr.wikipedia.org/wiki/Exploration_de_données 4/19
01/11/2020 Exploration de données — Wikipédia
10 12
Les centres d'appel utilisent cette technique pour améliorer la qualité du service et permettre
une réponse adaptée de l'opérateur pour la satisfaction du client.
Dans la recherche du génome humain, les techniques d'exploration de données ont été utilisées pour
13
découvrir les gènes et leur fonction .
D'autres exemples dans d'autres domaines pourraient être trouvés, mais ce qu'on peut remarquer
dès à présent, c'est que toutes ces utilisations permettent de caractériser un phénomène complexe
(comportement humain, expression d'un gène), pour mieux le comprendre, afin de réduire les coûts
de recherche ou d'exploitation liés à ce phénomène, ou bien afin d'améliorer la qualité des processus
liés à ce phénomène.
L'industrie a pris conscience de l'importance du patrimoine constitué par ses données et cherche à
l'exploiter en utilisant l'informatique décisionnelle et l'exploration des données. Les compagnies les
14
plus avancées dans ce domaine se situent dans le secteur tertiaire. Selon le site kdnuggets.com la
répartition aux États-Unis, en pourcentage du total des réponses au sondage, de l'utilisation de
l'exploration des données par secteurs d'activités s'effectue en 2010 comme ceci :
Branches et domaines dans lesquels est utilisée l'exploration des données (%).
GRC/ analyse de la Santé,resso
consommation
26,8 Banque 19,2 humaines
13,1
Marketing
Détection de fraude 12,7 Finance 11,3 direct,collec 11,3
de fonds
Télécommunication 10,8 Assurance 10,3 Sciences 10,3
Éducation 9,9 Publicité 9,9 Web 8,9
Produits Commerce
Médical 8,0 manufacturés
8,0 de détail
8,0
Notation crédit 8,0
Commerce
électronique
7,0
Moteur de
recherche
6,6
Réseaux sociaux 6,6
Gouvernement,milita 6,1
Des universités telles que celles de Constance en Allemagne, de Dortmund en Caroline du Nord,
aux États-Unis, de Waikato en Nouvelle-Zélande, et l'Université Lumière Lyon 2 en France, ont
effectué des recherches pour trouver de nouveaux algorithmes et améliorer les anciens. Ils ont aussi
développé des logiciels permettant à leurs étudiants, enseignants et chercheurs de progresser dans
ce domaine, faisant ainsi bénéficier l'industrie de leur progrès.
https://fr.wikipedia.org/wiki/Exploration_de_données 5/19
01/11/2020 Exploration de données — Wikipédia
Ces recherches et résultats financièrement probants obligent les équipes spécialisées dans
l'exploration de données à effectuer un travail méthodique dans des projets structurés.
Méthode CRISP-DM
33
La méthode CRISP-DM découpe le processus de fouille de données en six étapes permettant de
structurer la technique et de l'ancrer dans un processus industriel. Plus qu'une théorie normalisée,
c'est un processus d'extraction des connaissances métiers.
33
Il faut d'abord comprendre le métier qui pose la question à l'analyste, formaliser le problème que
l'organisation cherche à résoudre en ce qui concerne les données, comprendre les enjeux, connaître
les critères de réussite du projet et mettre en place un plan initial pour réaliser cet objectif.
Ensuite, l'analyste a besoin de données appropriées. Dès que l'équipe de projet sait ce qu'il faut faire,
elle doit se mettre en quête des données, des textes et tout le matériel qui lui permettra de répondre
au problème. Il lui faut ensuite en évaluer la qualité, découvrir les premiers schémas apparents pour
émettre des hypothèses sur les modèles cachés.
https://fr.wikipedia.org/wiki/Exploration_de_données 6/19
01/11/2020 Exploration de données — Wikipédia
La segmentation est la tâche consistant à découvrir des groupes et des structures au sein des
données qui sont d'une certaine façon similaires, sans utiliser des structures connues a priori dans
les données. La classification est la tâche de généralisation des structures connues pour les appliquer
notes 5
à des données nouvelles .
La régression tente de trouver une fonction modélisant les données continues, c'est-à-dire non
discrètes, avec le plus petit taux d'erreur, afin d'en prédire les valeurs futures.
L'association recherche les relations entre des items. Par exemple un supermarché peut rassembler
des données sur des habitudes d'achats de ses clients. En utilisant les règles d'association, le
supermarché peut déterminer quels produits sont fréquemment achetés ensemble et ainsi utiliser
cette connaissance à des fins de marketing. Dans la littérature, cette technique est souvent citée sous
le nom d'« analyse du panier de la ménagère ».
33
Il s'agit d'évaluer ensuite les résultats obtenus en fonction des critères de succès du métier et
d'évaluer le processus lui-même pour faire apparaître les manques et les étapes négligées. À la suite
de ceci, il doit être décidé soit de déployer, soit d'itérer le processus en améliorant ce qui a été mal ou
pas effectué.
33
Puis vient la phase de livraison et de bilan de fin de projet. Les plans de contrôle et de
maintenance sont conçus et le rapport de fin de projet est rédigé. Afin de déployer un modèle
prédictif, le langage PMML, basé sur le XML, est utilisé. Il permet de décrire toutes les
caractéristiques du modèle et de le transmettre à d'autres applications compatibles PMML.
D'autres méthodes
SEMMA
35
La méthodologie SEMMA (Sample then Explore, Modify, Model, Assess pour « Échantillonner,
puis Explorer, Modifier, Modéliser, Évaluer »), inventée par le SAS Institute, se concentre sur les
activités techniques de la fouille de données. Bien qu'elle soit présentée par le SAS comme seulement
36
une organisation logique des outils de SAS Enterprise miner , SEMMA peut être utilisée pour
37
organiser le processus d'exploration de données indépendamment du logiciel utilisé .
redondances et des problèmes de contrôle qualité de toutes sortes dans les domaines de la
production, de la fourniture de service, du management et d'autres activités métiers. La fouille de
12
données est un domaine dans lequel ce guide méthodologique peut être appliqué .
Maladresses à éviter
Il faut construire l'échantillon, qui permet l'apprentissage, avec précaution et ne pas échantillonner
b2
à la légère . L'apprentissage permet de construire le modèle à partir d'un ou plusieurs échantillons.
Paramétrer l'outil d'exploration de données jusqu'à ce que le modèle renvoie 100 % des cas
recherchés revient à se concentrer sur les particularités et se détourner de la généralisation,
nécessaire, qui permet d'appliquer le modèle sur les données hors-échantillon. Des techniques
existent pour éviter le sur-ajustement ou le sur-apprentissage. Il s'agit des méthodes de ré-
41
échantillonnage telles que le bootstrap, du jackknife ou de la validation croisée .
Parfois, une seule technique (arbre de décision, réseaux neuronaux...) n'est pas suffisante pour
b2
obtenir un modèle qui donne de bons résultats sur toutes les données . Une des solutions, dans ce
cas, serait constituée d'un ensemble d'outils, qu'on peut utiliser les uns après les autres et comparer
les résultats sur les mêmes données ou bien unifier les forces de chaque méthode soit par
42
l'apprentissage soit par combinaison des résultats .
b2
Il faut placer les données et les résultats de la fouille en perspective dans leur contexte , et ne pas
se focaliser sur les données, sans cela des erreurs d'interprétation peuvent survenir ainsi que des
pertes de temps et d'argent.
43
Éliminer à priori les résultats qui paraissent absurdes , en comparaison avec ce qui est attendu,
peut être source d'erreurs car ce sont peut-être ces résultats qui donnent la solution à la question
posée.
Il est impossible d'utiliser et d’interpréter les résultats d'un modèle en dehors du cadre dans lequel il
b2
a été construit . Interpréter des résultats en fonction d'autres cas similaires mais différents est
aussi cause d'erreurs, mais ce n'est pas propre aux raisonnements liés à l'exploration de données.
Enfin, extrapoler des résultats, obtenus sur des espaces de faibles dimensions, sur des espaces de
dimensions élevées peut aussi conduire à des erreurs.
https://fr.wikipedia.org/wiki/Exploration_de_données 8/19
01/11/2020 Exploration de données — Wikipédia
Deux citations de George Box, « Tous les modèles sont faux, mais certains sont utiles » et « Les
statisticiens sont comme les artistes, ils tombent amoureux de leurs modèles », illustrent avec
humour le fait que quelquefois certains analystes en fouille de données ont besoin de croire en leur
modèle et de croire que le modèle qu'ils travaillent est le meilleur. Utiliser un ensemble de modèles
44
et interpréter la distribution des résultats est nettement plus sûr .
Planifier
Dans un projet d'exploration de données, il est essentiel de savoir ce qui est important et ce qui ne
l'est pas, ce qui prend du temps et ce qui n'en prend pas ; ce qui ne coïncide pas toujours.
Le cœur de l'exploration de données est constitué par la modélisation : toute la préparation est
effectuée en fonction du modèle que l'analyste envisage de produire, les tâches effectuées ensuite
valident le modèle choisi, le complètent et le déploient. La tâche la plus lourde de conséquences dans
la modélisation consiste à déterminer le ou les algorithmes qui produiront le modèle attendu. La
question importante est donc celle des critères qui permettent de choisir cet ou ces algorithmes.
Algorithmes
Résoudre un problème par un processus d'exploration de données impose généralement l'utilisation
d'un grand nombre de méthodes et d'algorithmes différents plus ou moins faciles à comprendre et à
46
employer . Il existe deux grandes familles d'algorithmes : les méthodes descriptives et les méthodes
prédictives.
Méthodes descriptives
Définition
47
Les méthodes descriptives permettent d'organiser, de simplifier et d'aider à comprendre
l'information sous-jacente d'un ensemble important de données.
https://fr.wikipedia.org/wiki/Exploration_de_données 9/19
01/11/2020 Exploration de données — Wikipédia
rapport à ces normes telles que la détection de fraudes nouvelles ou inconnues à la carte bancaire ou
à l'assurance maladie, pour réaliser de la compression d'informations ou de la compression d'image,
etc.
Exemples
On peut aussi utiliser des méthodes nées dans le giron de l'intelligence artificielle et plus
49
particulièrement dans celui de l'apprentissage automatique. La classification non supervisée est
une famille de méthodes qui permettent de regrouper des individus en classes, dont la
caractéristique est que les individus d'une même classe se ressemblent, tandis que ceux de deux
classes différentes sont dissemblables. Les classes de la classification ne sont pas connues au
préalable, elles sont découvertes par le processus. D'une manière générale, les méthodes de
https://fr.wikipedia.org/wiki/Exploration_de_données 10/19
01/11/2020 Exploration de données — Wikipédia
classification servent à rendre homogènes des données qui ne le sont pas à priori, et ainsi
permettent de traiter chaque classe avec des algorithmes sensibles aux données aberrantes. Dans
cette optique, les méthodes de classification forment une première étape du processus d'analyse.
Le recouvrement à logique floue est une forme de recouvrement de l'ensemble des individus
représentés par les lignes d'une matrice où certains d'entre eux possèdent une probabilité non nulle
d'appartenir à deux classes différentes. L'algorithme le plus connu de ce type est le FCM (Fuzzy c-
51
means) .
Il faut aussi mentionner l’ Iconographie des corrélations associée à l’utilisation des Interactions
logiques, méthode géométrique qui se prête bien à l’analyse des réseaux complexes de relations
multiples.
Pour rendre compte de l'utilité de ces méthodes de recouvrement, il faut se rappeler que la
classification est un problème dont la grande complexité a été définie par Eric Bell. Le nombre de
partitions d'un ensemble de objets est égal à : . Il vaut donc mieux avoir des
méthodes efficaces et rapides pour trouver une partition qui répond au problème posé plutôt que de
parcourir l'ensemble des solutions possibles.
Enfin, quand l'analyse se porte non pas sur les individus, les items ou les objets, mais sur les
relations qui existent entre eux, la recherche de règles d'associations est l'outil adapté. Cette
technique est, à l'origine, utilisée pour faire l'analyse du panier d'achats ou l'analyse de séquences.
Elle permet, dans ce cas, de savoir quels sont les produits achetés simultanément, dans un
supermarché par exemple, par un très grand nombre de clients ; elle est également appliquée pour
résoudre des problèmes d'analyse de parcours de navigation de sites web. La recherche de règles
d'association peut être utilisée de manière supervisée ; les algorithmes APriori, GRI, Carma,
52
méthode ARD ou encore PageRank se servent de cette technique .
Méthodes prédictives
Définition
La raison d'être des méthodes prédictives est d'expliquer ou de prévoir un ou plusieurs phénomènes
observables et effectivement mesurés. Concrètement, elles vont s'intéresser à une ou plusieurs
variables définies comme étant les cibles de l'analyse. Par exemple, l'évaluation de la probabilité
pour qu'un individu achète un produit plutôt qu'un autre, la probabilité pour qu'il réponde à une
https://fr.wikipedia.org/wiki/Exploration_de_données 11/19
01/11/2020 Exploration de données — Wikipédia
Exemples
S'il souhaite compléter les données manquantes, la méthode des k plus proches voisins (K-nn) reste
64
à sa disposition .
https://fr.wikipedia.org/wiki/Exploration_de_données 12/19
01/11/2020 Exploration de données — Wikipédia
La liste des algorithmes évolue chaque jour, car ils n'ont pas
tous le même objet, ne s'appliquent pas aux mêmes données en
entrée et aucun n'est optimal dans tous les cas. En outre, ils
s'avèrent complémentaires les uns aux autres en pratique et en
les combinant intelligemment en construisant des modèles de
modèles ou métamodèles, il est possible d'obtenir des gains en
performance et en qualité très significatifs. L'ICDM-IEEE a fait
52
en 2006 un classement des 10 algorithmes ayant le plus
d'influence dans le monde de l'exploration de données : ce
classement est une aide efficace au choix et à la compréhension
de ces algorithmes.
Qualité et performance
Un modèle de qualité est un modèle rapide, dont le taux d'erreur doit être le plus bas possible. Il ne
doit pas être sensible aux fluctuations de l'échantillon pour ce qui concerne les méthodes
supervisées, il doit être robuste et supporter des changements lents intervenants sur les données. En
outre, le fait d'être simple, compréhensible et produire des résultats interprétables facilement,
66
augmente sa valeur. Enfin, il est paramétrable pour être réutilisable .
Plusieurs indicateurs sont utilisés pour évaluer la qualité d'un modèle, et parmi ceux-ci les
courbes ROC et lift, l'indice de Gini et l'erreur quadratique moyenne montrent où se situe la
prédiction par rapport à la réalité et donnent ainsi une bonne idée de la valeur de cette composante
de la qualité du modèle.
b 9, notes 10
La robustesse et la précision sont deux autres facettes de la qualité du modèle. Pour
obtenir un modèle performant, la technique consiste à limiter l'hétérogénéité des données, optimiser
l’échantillonnage ou combiner les modèles.
https://fr.wikipedia.org/wiki/Exploration_de_données 13/19
01/11/2020 Exploration de données — Wikipédia
Avec l'agrégation de modèles, l'analyste applique le même modèle à des échantillons légèrement
différents issus de l'échantillon initial, pour ensuite associer les résultats. Le bagging et
67
le boostingétaient les deux techniques les plus efficaces et les plus populaires en 1999 . En
marketing par exemple, l'algorithme Uplift utilise la technique du bagging pour produire un modèle
d'identification de groupes de personnes pouvant répondre à une offre commerciale après
sollicitation.
Enfin, la combinaison de modèles conduit l'analyste à appliquer plusieurs modèles sur une même
population et à combiner les résultats. Des techniques telles que l'analyse discriminante et les
réseaux de neurones par exemple, se marient aisément.
Outils informatiques
Logiciels
La fouille de données n'existerait pas sans outil. L'offre informatique est présente sous la forme
68 69
de logiciels et aussi sur quelques plateformes spécialisées . De nombreux logiciels sont présents
dans la sphère des logiciels commerciaux, mais il en existe aussi dans celle des logiciels libres. Il n'y
70
a pas de logiciels meilleurs que d'autres, tout dépend de ce qu'on veut en faire . Les logiciels
commerciaux sont plutôt destinés aux entreprises, ou aux organismes ayant de gros volumes de
b 10
données à explorer , tandis que les logiciels libres sont destinés plus particulièrement aux
b 10 71
étudiants, à ceux qui veulent expérimenter des techniques nouvelles, et aux PME . En 2009 , les
outils les plus utilisés sont, dans
l'ordre, SPSS, RapidMiner (en), SAS, Excel, R, KXEN (en), Weka, Matlab, KNIME, Microsoft SQL
72
Server, Oracle DM (en), STATISTICA et CORICO (Iconographie des corrélations). En 2010, R est
l'outil le plus utilisé parmi les utilisateurs ayant répondu au sondage de Rexer
73
Analytics et STATISTICA apparaît comme l'outil préféré de la plupart des prospecteurs de
données (18 %). STATISTICA, IBM SPSS Modeler, et R ont reçu les taux de satisfaction les plus
élevés à la fois en 2010 et 2009 dans ce sondage de Rexer Analytics.
Informatique en nuage
L’informatique en nuage (cloud computing) n’est pas un outil d’exploration de données, mais un
ensemble de services web, délivrés par des fournisseurs via l'internet, permettant d’accueillir et/ou
74
d’utiliser des données et des logiciels . Néanmoins, il existe des services qui peuvent être utilisés
dans le domaine de l’exploration de données. Oracle Data mining s’expose sur l’IaaS
notes 11 75
d’Amazon en proposant aux clients une Amazon Machine Image contenant une base de
données Oracle incluant une IHM pour la fouille de données ; une image pour R et Python est
76
disponible aussi sur Amazon Web Services . Des acteurs présents exclusivement dans le nuage et
spécialisés dans le domaine de la fouille de données proposent leurs services
77 78 79 80
comme Braincube , In2Cloud , Predixion et Cloud9Analytics entre autres.
Limites et problèmes
81
L'exploration des données est une technique ayant ses limites et posant quelques problèmes .
Limites
Les logiciels ne sont pas auto-suffisants. Les outils d'exploration des données ne proposent pas
d'interprétation des résultats, un analyste spécialiste de la fouille de données et une personne
connaissant le métier duquel sont extraites les données sont nécessaires pour analyser les livrables
https://fr.wikipedia.org/wiki/Exploration_de_données 14/19
01/11/2020 Exploration de données — Wikipédia
du logiciel.
En outre, les logiciels d'exploration de données donnent toujours un résultat, mais rien n'indique
qu'il soit pertinent, ni ne donne une indication sur sa qualité. Mais, de plus en plus, des techniques
d'aide à l'évaluation sont mises en place dans les logiciels libres ou commerciaux.
Les relations entre les variables ne sont pas clairement définies. Les outils d'exploration des données
indiquent que telles et telles variables ont une influence sur la variable à expliquer, mais ne disent
rien sur le type de relation, en particulier il n'est pas dit si les relations sont de cause à effet.
De plus, il peut être très difficile de restituer de manière claire soit par des graphes, des courbes ou
des histogrammes, les résultats de l'analyse. Le non-technicien aura quelquefois du mal à
comprendre les réponses qu'on lui apporte.
Problèmes
Pour un francophone, néophyte de surcroit, le vocabulaire est une difficulté voire un problème. Pour
s'en rendre compte, il est intéressant de préciser le vocabulaire rencontré dans les littératures
b 11
française et anglo-saxonne. En prenant comme référence le vocabulaire anglo-saxon ,
le clusteringest compris en exploration de données comme une segmentation, en statistiques et en
analyse des données comme une classification. La classification en anglais correspond à la
classification en exploration de données, à l'analyse discriminante ou au classement en analyse de
données à la française et à un problème de décision en statistique. Enfin, les decision trees sont des
arbres de décision en exploration de données, et on peut entendre parler de segmentation dans ce
cas dans le domaine de l'analyse des données. La terminologie n'est pas claire.
La qualité des données, c'est-à-dire la pertinence et la complétude des données, est une nécessité
pour l'exploration des données, mais ne suffit pas. Les erreurs de saisies, les enregistrements
doublonnés, les données non renseignées ou renseignées sans référence au temps affectent aussi la
qualité des données. Les entreprises mettent en place des structures et des démarches d'assurance
qualité des données pour pouvoir répondre efficacement aux nouvelles réglementations externes,
aux audits internes, et augmenter la rentabilité de leurs données qu'elles considèrent comme faisant
82
partie de leur patrimoine .
L'interopérabilité d'un système est sa capacité à fonctionner avec d'autres systèmes, créés par des
éditeurs différents. Les systèmes d'exploration de données doivent pouvoir travailler avec des
données venant de plusieurs systèmes de gestion de bases de données, de type de fichier, de type de
données et de capteurs différents. En outre, l’interopérabilité a besoin de la qualité des données.
Malgré les efforts de l'industrie en matière d'interopérabilité, il semble que dans certains domaines
83
ce ne soit pas la règle .
Les données sont collectées dans le but de répondre à une question posée par le métier. Un risque de
l'exploration de données est l'utilisation de ces données dans un autre but que celui assigné au
départ. Le détournement des données est l'équivalent d'une citation hors de son contexte. En outre,
elle peut conduire à des problèmes éthiques.
La vie privée des personnes peut être menacée par des projets d'exploration de données, si aucune
précaution n'est prise, notamment dans la fouille du web et l'utilisation des données
personnellescollectées sur Internet où les habitudes d'achats, les préférences, et même la santé des
personnes peuvent être dévoilées. Un autre exemple est fourni par l'Information Awareness
84
Office et en particulier le programme Total Information Awareness (TIA) qui exploitait
pleinement la technologie d'exploration de données et qui fut un des projets « post-11 septembre »
que le Congrès des États-Unis avait commencé à financer, puis qu'il a abandonné à cause des
menaces particulièrement importantes que ce programme faisait peser sur la vie privée des citoyens
américains. Mais même sans être dévoilées, les données des personnes recueillies par les
https://fr.wikipedia.org/wiki/Exploration_de_données 15/19
01/11/2020 Exploration de données — Wikipédia
entreprises, via les outils de gestion de la relation client (CRM), les caisses enregistreuses, les DAB,
les cartes santé, etc., peuvent conduire, avec les techniques de fouille de données, à classer les
personnes en une hiérarchie de groupes, de bons à mauvais, prospects, clients, patients, ou
n'importe quel rôle que l'on joue à un instant donné dans la vie sociale, selon des critères inconnus
85, 86
des personnes elles-mêmes . Dans cette optique, et pour corriger cet aspect négatif, Rakesh
Agrawal et Ramakrishnan Sikrant s'interrogent sur la faisabilité d'une exploration de données qui
87, notes 12
préserverait la vie privée des personnes . Le stockage des données nécessaire à la fouille
pose un autre problème dans la mesure où les données numériques peuvent être piratées. Et dans ce
88
cas l'éclatement des données sur des bases de données distribuées et la cryptographie font partie
des réponses techniques qui existent et qui peuvent être mises en place par les entreprises.
Fouilles spécialisées
Certaines entreprises ou groupes se sont spécialisés, avec par exemple Acxiom, Experian
Information Solutions, D & B, et Harte-Hanks pour les données de consommation ou Nielsen
N.V. pour les données d'audience.
Outre l'exploration de données (décrite plus haut) qu'on peut maintenant qualifier de classique, des
spécialisations techniques de l'exploration de données telles que la fouille d'images (image mining),
la fouille du web (web data mining), la fouille de flots de données (data stream mining) et la fouille
de textes (text mining) sont en plein développement dans les années 2010 et concentrent l'attention
de nombreux chercheurs et industriels, y compris pour les risques de diffusion de données
personnelles qu'elles font courir aux individus.
Des logiciels de catégorisation des individus selon leur milieu social et leurs caractérisations de
consommateurs sont utilisés par ces entreprises (ex : Claritas Prizm (créé par Claritas Inc. et racheté
par Nielsen Company.
La fouille audio, technique récente, parfois apparentée à la fouille de données, permet de reconnaître
des sons dans un flux audio. Elle sert principalement dans le domaine de la reconnaissance
vocaleet/ou s'appuie sur elle.
89
La fouille d'images est la technique qui s’intéresse au contenu de l'image. Elle extrait
des caractéristiques dans un ensemble d'images, par exemple du web, pour les classer, les regrouper
par type ou bien pour reconnaître des formes dans une image dans le but de chercher des copies de
cette image ou de détecter un objet particulier, par exemple.
La fouille de textes est l'exploration des textes en vue d'en extraire une connaissance de haute
qualité. Cette technique est souvent désignée sous l'anglicisme text mining. C'est un ensemble de
traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou
de similarité, dans des textes produits par des humains pour des humains. Dans la pratique, cela
revient à mettre en algorithmes un modèle simplifié des théories linguistiques dans des systèmes
informatiques d'apprentissage et de statistiques. Les disciplines impliquées sont donc la linguistique
calculatoire, l'ingénierie du langage, l'apprentissage artificiel, les statistiques et l'informatique.
Il s'agit d'exploiter, avec la fouille du web, l'énorme source de données que constitue le web et
trouver des modèles et des schémas dans l'usage, le contenu et la structure du web. La fouille de
l'usage du web (Web usage mining ou Web log mining) est le processus d'extraction d'informations
https://fr.wikipedia.org/wiki/Exploration_de_données 16/19
01/11/2020 Exploration de données — Wikipédia
utiles stockées dans les journaux des serveurs. Cette fouille exploite la fouille de textes pour analyser
les documents textes. La fouille de la structure du web est le processus d'analyse des relations,
inconnues à priori, entre documents ou pages stockés sur le web.
90
La fouille de flots de données (data stream mining) est la technique qui consiste à explorer les
91
données qui arrivent en un flot continu , illimité, avec une grande rapidité, et dont certains
paramètres fondamentaux se modifient avec le temps : par exemple, l'analyse des flots de données
92
émis par des capteurs automobiles . Mais des exemples d'applications peuvent être trouvés dans
les domaines des télécommunications, de la gestion des réseaux, de la gestion des marchés
financiers, de la surveillance, et dans les domaines d'activités de la vie de tous les jours, plus proches
des personnes, comme l'analyse des flux de GAB, des transactions par cartes de crédit, etc.
On utilise la fouille de données spatiales pour explorer les données des sciences de la terre, les
données cartographiques du crime, celles des recensements, du trafic routier, des foyers
94
de cancer , etc.
Dans le futur
L’avenir de l'exploration de données dépend de celui des données numériques. Avec l’apparition
95
du Web 2.0, des blogs, des wikis et des services en nuages , il y a une explosion du volume des
données numériques et les gisements de matière première pour la fouille de données sont donc
importants.
De nombreux domaines exploitent encore peu la fouille de données pour leurs besoins propres.
L’analyse des données venant de la blogosphère n’en est qu’à son début. Comprendre l’« écologie de
notes 13, b 12
l’information » pour analyser le mode de fonctionnement des médias de l’Internet par
exemple ne fait que commencer.
b 13, b 14
Pour peu que les problèmes liés à la vie privée des personnes soient réglés, la fouille de
b 15
données peut aider à traiter des questions dans le domaine médical , et notamment dans la
b 15
prévention des risques hospitaliers .
https://fr.wikipedia.org/wiki/Exploration_de_données 17/19
01/11/2020 Exploration de données — Wikipédia
Sans aller jusqu'à la science-fiction de Minority Report, les techniques de profilage sans a
96
priori sont rendues possibles par l'exploration de données , pouvant poser quelques problèmes
97 98
éthiques nouveaux . Un documentaire de BBC Horizon résume une partie de ces questions.
Enfin, avec l’apparition de nouvelles données et de nouveaux domaines, les techniques continuent
b 16
de se développer .
Notes et références
Cet article est partiellement ou en totalité issu de l’article de Wikipédia
(en)
en anglais intitulé « Data mining » (voir la liste des auteurs).
Notes
1. Terme recommandé au Canada par l'OQLF, et en France par la DGLFLF (Journal officiel du 27
février 2003) et par FranceTerme
2. en suivant le même exemple, il permet de répondre à la question : « Quel pourrait être le chiffre
d'affaires dans un mois ? »
3. . Ces distributions sont faciles à calculer, et on trouve parmi elles des lois déjà largement
utilisées (loi normale, distribution exponentielle négative, lois de Zipf et de Mandelbrot...), par des
méthodes sans rapport avec celles qui les ont établies. Le test de fitness d'une distribution au
modèle du « test Psi » de calcul de l'entropie résiduelle, est asymptotiquement équivalent à
la Loi du χ².
4. Voir dans ce document les efforts de standardisation et d'interopérabilité effectués par
l'industrie : (en) Arati Kadav, Aya Kawale et Pabitra Mitra, « Data Mining Standards » [PDF],
sur datamininggrid.org (consulté le13 mai 2011)
5. Par exemple, un programme gestionnaire de messages électroniques pourrait tenter de classer
un e-mail dans la catégorie des e-mails légitimes ou bien dans celle des pourriels. Les
algorithmes généralement utilisés incluent les arbres de décision, les plus proches voisins,
la classification naïve bayésienne, les réseaux neuronaux et les séparateurs à vaste
marge (SVM)
6. Dont on peut trouver, pour certaines, la description ici : Guillaume Calas, « Études des
principaux algorithmes de data mining » [PDF], sur guillaume.calas.free.fr, 2009 (consulté
le 14 mai 2011)
7. Comme CART, CHAID, ECHAID, QUEST, C5, C4.5 et les forêts d'arbres décisionnels
8. Tels que les perceptrons mono ou multicouches avec ou sans rétropropagation des erreurs
9. Telles que la régression linéaire, linéaire
multiple, logistique, PLS, ANOVA, MANOVA, ANCOVAou MANCOVA.
10. Voir Glossaire du data mining pour la définition de « robustesse » et « précision ».
11. IaaS signifiant Infrastructure as a service dénommé Amazon Elastic Compute Cloud chez
Amazon
12. Puisque les modèles de l'exploration de données concernent les données agrégées d'où sont
éliminées les données personnelles.
13. Selon Tim Finin, Anupam Joshi, Pranam Kolari, Akshay Java, Anubhav Kale et Amit
Karandikar, « The information ecology of social media and online communities »,
sur aisl.umbc.edu (consulté le 19 juin 2011).
Ouvrages spécialisés
1. Tufféry 2010, p. 506
2. Nisbet, Elder et Miner 2009, p. 733
3. Tufféry 2010, p. 44
4. Tufféry 2010, p. 161
https://fr.wikipedia.org/wiki/Exploration_de_données 18/19
01/11/2020 Exploration de données — Wikipédia
https://fr.wikipedia.org/wiki/Exploration_de_données 19/19