Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Introduction
Depuis quelques années un volume croissant de données est généré de toute part par des
organismes médicaux, industriels, commerciaux, etc... Cet écoulement continu et croissant
d’informations peut maintenant être stocké et préparé à l’étude grâce aux nouvelles
techniques tel que d’Entrepôt de Données (Data Wharehouse) mais vu que aujourd'hui toutes
les entreprises collectent et stockent de grandes quantités de données. Ces mégabases de
données, qui ne cessent d'augmenter jour après jour, sont peu exploitées par technique Data
Wharehouse, alors qu'elles cachent de connaissances décisives face au marché et à la
concurrence. Pour combler ce besoin, une nouvelle industrie est naître : le Data Mining (qu'on
appellerait en français la fouille de données).
Si on analyse évolution des Bases de Données on constate que le besoin crée l’invention
1960’s: Collecte des données, création des BD’s, IMS et le modèle réseau
1980’s: Modèles de données et SGBD'S avancés (relationnel étendu, OO, déductifs, etc.) et
SGBD'S dédiés (spatial, génomique, etc.)
1990’s - 2000’s: Data mining et data warehousing, BD’s multimédia, BD’s sur le WEB, etc
1. Définitions
La fouille de données (data mining) dans sa conception actuelle, à la fois comme champ
scienti que et industriel, est apparue au début des années 90. On peut estimer une fouille de
données comme une nécessité imposée par le besoin des entreprises de valoriser les données
qu’elles accumulent dans leurs bases. En e et, le développement des capacités de
transmission et de stockage ont conduit les services concernés à accumuler de plus en plus de
données. Plusieurs définitions à été proposées :
Def3 : Processus inductif, itératif et interactif de découverte dans les BD larges de modèles de
données valides, nouveaux, utiles et compréhensibles.
Betouati .F Page
Compréhensibles: présentation simple
Data warehouses qui contient des données déjà préparées pour l’extraction
Les données peuvent être stockées dans des entrepôts, dans des bases de données
distribuées ou sur Internet : web mining. La fouille de donnée ne se limite pas au
traitement des données structurées sous forme de tables numériques ; elle o re des
moyens pour aborder les corpus en langage naturel (text mining domaine de recherche
d’information), les images (image mining), le son (sound mining) ou la vidéo et dans
ce cas, on parle alors plus généralement de "multimedia mining".
L’association :
La recherche de règles d'association est la tâche la plus intéressante du data mining. C’est
également celle qui est la plus répandue dans le monde des affaires, notamment en marketing
Betouati .F Page
pour l'analyse du panier de consommation. La recherche de règles d’association cherche à
découvrir les règles de quantification ou de relation entre deux ou plusieurs attributs. Les
règles d'association sont de la forme «Si antécédent, puis conséquente », avec une mesure
confiance associée à la règle. La recherche de règles d’associations dans une grande base de
données permet de découvrir des règles cachées utiles pour la prise de décision.
Exemple de règle célèbre : lorsqu’un homme achète des couches pour bébés, il achète de lait
dans 65% des cas. Il serait alors intéressant pour le gestionnaire d’adapter ses promotions à
ces nouvelles règles.
La description :
Parfois, les chercheurs et les analystes essaient simplement de trouver des façons de décrire
des tendances cachées dans les données. Les descriptions des modèles et des tendances
servent à expliquer ou vérifier un fait. Par exemple : « ceux qui ont le plus de diplômes sont
les plus susceptibles d’avoir un poste à responsabilité. ».
L’estimation :
L'estimation est similaire à la classification, sauf que la variable cible est numérique plutôt
que catégorique. Les modèles sont construits en utilisant des données, qui fournissent la
valeur de la variable cible, ainsi que les « prédicteurs ». Par exemple : « l'estimation de la
pression artérielle d'un patient d'hôpital, basée sur son âge, son sexe, son indice de masse
corporelle, et le taux de sodium. La relation entre la pression artérielle et le prédicateur
variable de l'ensemble de formation nous donnerait un modèle d'estimation. Nous pouvons
alors appliquer ce modèle à de nouveaux cas.
La prédiction:
La prédiction est semblable à la classification et l'estimation, sauf que pour la prévision, les
résultats se situent dans l'avenir. Exemples de tâches de prévision appliquée au marketing : «
Prédire le prix d'un stock de trois mois dans le futur »
La classification :
Supposons qu'un décideur veuille classer ses employés par tranches de revenu, ou n'importe
quelle autre caractéristique associée à cette personne, comme l'âge, le sexe et la profession.
Cette tâche est une tâche de classification.
Le clustering :
Le Clustering désigne le regroupement des données, des observations ou des cas dans des
classes d’objets similaires. Un cluster maximise la similarité des objets de du même cluster et
minimise la similarité des objets de cluster différents. En effet, il n'y a pas de variable cible
pour le clustering. La tâche de clustering ne cherche pas à classer, estimer, ou prédire la
valeur d'une variable cible. Mais plutôt à segmenter l'ensemble des données en sous-groupes
relativement homogènes à l’aide de mesures de distances.
Plusieurs techniques peuvent être inscrites dans le contexte du Data Mining, on en cite :
Betouati .F Page
Les arbres de décision (chapitre4).
Les réseaux de neurones.
Les algorithmes génétiques
4. Type d’apprentissage
Dans FDD on trouve deux types d’apprentissage
Apprentissage supervisé: c’est le processus dans lequel l’apprenant reçoit des exemples
d’apprentissage comprenant à la fois des données d’entrées et de sorties (classification,
prédiction)
Apprentissage non supervisé: c’est le processus dans lequel l’apprenant reçoit des exemples
d’apprentissage ne comprenant que des données entrées des données (association, clustering)
Modèles prédictifs: Utilisent les données avec des résultats connus pour développer des
modèles permettant de prédire les valeurs d’autres données ex Classification, prédiction
Modèles descriptifs: Proposent des descriptions des données pour aider à la prise de décision
ex association, segmentation.
Gestion et analyse des marchés: organisation des rayonnages dans les supermarchés en
regroupant les produits qui sont généralement achetés ensemble (pour que les clients
n’oublient pas bêtement ’acheter un produit parce qu’il est situé à l’autre bout du magasin).
Par exemple, on extraira une règle du genre : "les clients qui achètent le produit X en fin de
semaine, pendant l’été, achètent généralement le produit Y «panier de la ménagère»
Il vise à savoir comment les changements dans la séquence d'ADN d'un individu affectent les risques
de développer des maladies courantes telles que le cancer.
Prédire l’évolution des actions financières par exemple l’organisme de crédit décide d’accorder ou
non un crédit en fonction du profil du demandeur de crédit, de sa demande, et des expériences passées
de prêts ; Etablir des profils de clients
Détection de fraudes
Betouati .F Page
Exemple : Vous êtes à l’étranger et quelqu’un a volé votre carte de crédit ou votre mobile …
Comme data mining utilisé dans assurances auto détecte les personnes qui collectionnent les accidents
et les remboursements
Web
Réorganiser du site WEB pour faciliter la navigation les logs des accés Web sont
analysés pour découvrir les préférences des utilisateurs
Commerce électronique
Évaluation
Exploration
Transformation
Connaissances
Préparation
Patrons
Données
Sélection Données
transformées
traitées
Données
cibles
Données
Fig. 1 Etapes du processus ECB
Pour pouvoir sélectionner les données utiles à l’extraction des connaissances, on doit préciser les
objectifs de l’étude, on demandera par exemple à un commercial d'atteindre un certain volume de
Betouati .F Page
vente ou de chiffre d'affaires mais plus rarement de répondre à des questions comme "quelle est la
durée de vie active des clients ?" ou "quelle est la dépense globale des clients au cours de leur
relation avec l'entreprise et comment évolue-t-elle ?", etc...
L’identification des objectifs a une forte influence sur le choix des méthodes. En effet,
toutes les méthodes n’offrent pas le même degré de lisibilité et de compréhensibilité des
résultats. De cette bonne formalisation du problème, dépend la réussite de l’application.
On constitue la base de travail sur laquelle va s’appliquer le projet. Il s’agit d’une collecte de données
à priori utiles pour atteindre l’objectif fixé mais aussi toutes les données ayant un rapport de près ou
de loin avec le sujet.
Les données brutes de multiples sources hétérogènes internes et externes (souvent réalisée à
l'aide des requêtes SQL) sont rarement directement exploitables pour une opération de
datamining.
Il s'agit à ce stade d'appliquer des filtres prédéfinis sur les données afin d'attribuer des valeurs
cohérentes aux variables mal ou non renseignées ou encore d'harmoniser les formats (date :
jj/mm/aaaa). On peut également avoir à convertir les données d'un format EBCDIC vers
ASCII.
Betouati .F Page
Système de Datamining :
Intelligent miner
Produit d’IBM
Fonctions
Classification,Association,Régression,Analyse de
séquences,Regroupement
Clémentine de SPSS
DBMiner
http://www.cs.waikato.ac.nz/ml/weka
Betouati .F Page
Betouati .F Page