Vous êtes sur la page 1sur 22

Master M2 (Option F3I)

Data Mining
i i
(Le processus de data mining)

Data Mining et Apprentissage Automatique


Cours de Master F3I
2008-2009
Le Processus de Data Minig

1 Phase 1 : Poser le problème


1.
ƒ C’est la phase où l’on expose le problème et où l’on définit
les objectifs, le résultat attendu ainsi que les moyens de
mesurer le succès de ll’étape
étape de data mining.
mining
ƒ Il s’agit de comprendre le contexte de la recherche en vue
de donner une signification logique aux variables.
ƒ Ill est nécessaire
é i ded recueillir
illi les
l intuitions
i ii et la
l connaissance
i
des expert afin d’orienter le processus de découverte ou tout
simplement pour identifier les variables les plus pertinentes
susceptibles
tibl d’expliquer
d’ li l phénomènes
les hé è analysés.
l é

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 2


Le Processus de Data Minig

‰ Formulation du problème
ƒ Formuler le problème réel sous une forme qui peut être
traitée par les techniques et les outils du data mining.
ƒ Ét
Étape primordiale
i di l avantt toute
t t exploitation
l it ti effective
ff ti d
des
données.
ƒ Appliquer une méthode de formulation
ƒ Découper le problème complexe en sous problèmes de
complexité moindre.

‰ Typologie du problème : affectation ou structuration


ƒ La démarche vise à comprendre un phénomène précis et
identifiable tels que la recherche des cause.
identifiable, cause
ƒ Approche exploratoire qui cherche à classifier des objets en
des sous-ensembles homogènes.
ƒ Id tifi des
Identifier d facteurs
f t d’ ff t ti
d’affectation.

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 3


Le Processus de Data Minig

ƒ En revanche,
revanche si ll’objectif
objectif est de mettre en évidence des
classes ou des facteurs d’affectations de différentiation, la
démarche relève alors d’une action d’identification des
facteurs de structuration.

ƒ Résultats attendu
ƒ Avant de se lancer dans le processus de data mining, il faut
savoir ce que l’on attend et ce que l’on compte faire de la
connaissance.
ƒ Faire une analyse critique des processus lies à l’exploitation
des résultats (logistique, informatique, marketing, contrôle de
gestion,…).
ƒ L’identification des individus qui utilisent les résultats d’un
processus de data mining et celle des décidons qu’ils doivent
prendre ont une forte influence sur le choix des algorithmes.

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 4


Le Processus de Data Minig

2 Phase 2 : La recherche des données


2.
ƒ Déterminer la structure générale des données ainsi que les
règles utilisées pour les constituer..
ƒ Id tifi les
Identifier l informations
i f ti exploitables
l it bl ett vérifier
é ifi leur
l qualité
lité ett
leur facilité d’accès : documents papier, supports
électroniques, fichiers internes ou externes, fichiers multiples
ou bases de données de type data warehouses ou data
marts.
‰ L’investigation
ƒ Sélection optimale des données avec l’aide d’un expert.
ƒ A la différence avec un système expert, on ne demande pas
à l’expert
p d’organiser
g son p
processus d’analyse
y mais de lister
ce qui, selon lui, a une importance.
ƒ S’il n’y a pas d’expert, on peut entreprendre une recherche
des facteurs les p plus déterminants p par les techniques
q
d’analyse de données (Régression linéaire, RdN, …)

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 5


Le Processus de Data Minig

Temps
p de
Zone optimale

Nombre d’exemples
calcul long

Multiplication
Trop peu d’exemples
des apprentissages
par rapport
pa appo à la
a taille
a e
N

pour s’assurer

du problème
de la stabilité
-

- Nombre de variables +

Liaison entre dimension et exemples

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 6


Le Processus de Data Minig

ƒ Cette phase de structuration des données doit clarifier les


associations qui existent entres elles, leurs contenus
sémantiques, les regroupements couramment utilisés pour
centaines d
d’entres
entres elles, etc.

ƒ La réduction des dimensions


ƒ Intégrer
é toutes les variables implique entraîne un
surdimensionnement du problème, qui nuit à la capacité de
généralisation.
ƒ Cette capacité de généralisation permet à un modèle de
conserver des performances comparables dans la base
d’apprentissage et dans la base de test.
ƒ Problème quelles sont les variables à retenir pour le modèle ?

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 7


Le Processus de Data Minig

3 Phase 3 : La sélection des données pertinentes


3.
ƒ Rechercher des évènements similaires dans le passé.
‰ Échantillon ou exhaustivité
ƒ L’analyse doit choisir entre étudier l’exhaustivité de la base
de données et travailler sur un échantillon. Ce choix dépend
en partie des outils utilisés, de la puissance machine
disponible, du budget alloué et du niveau de fiabilité
recherché.
‰ Mode de création de l’échantillon
ƒ Représentativité de l’échantillon.
ƒ Loi de Pareto (20/80) (20% des clients contribuent à 80 de
chiffre dd’affaire)
affaire).
ƒ Méthode des grappes, etc.…
ƒ Utilisation d’un critère a priori aléatoire, etc.…

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 8


Le Processus de Data Minig

Marge d’erreur
d erreur maximale
Taille de la population
+ ou – 5% + ou – 2,5 % + ou – 1 %

25 000 000 384 1 536 9 600


1 000 000 384 1 535 9 513
100 000 383 1 514 8 763
10 000 370 1 332 4 899
1 000 278 606 906
100 80 94 99

Exemples de tailles d’échantillon

Remarque : Pour diminuer le risque d’erreur, il faut augmenter la taille de l’échantillon.


é

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 9


Le Processus de Data Minig

4 Phase 4 : Le nettoyage des données


4.
ƒ La définition de la taille de la base d’exemples et le choix de
son mode d’élaboration passent par un diagnostic de la
qualité potentielles des données.
données
ƒ Une mauvaise qualité des données (erreurs de saisie, champs
nuls, valeurs aberrantes) impose généralement une phase de
nettoyage des données.
données Celle-ci
Celle ci pour objectif de corriger ou
de contourner les inexactitudes ou les erreurs qui se sont
glissées dans les données.
‰ L’origine
L’ i i d donées
des d é
ƒ Base d’exemples restreinte (moins de 300 enregistrements ou
moins de 30 variables) et son alimentation est automatique :
contrôle facile (manuelle).
ƒ Base d’exemples restreinte et, son alimentation manuelle,
implique risque de saisie existent. Aider l’utilisateur par un
moyen de vérification et de contrôle de saisie.

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 10


Le Processus de Data Minig

ƒ Base dd’exemples
exemples importante et alimentation manuelle : i y a
risque dans la saisie (résolu par des contrôles), mais le coût de
la collecte des données est supérieurs aux bénéfices
escomptés.
ƒ Base d’exemples importante et son alimentation
automatique : risque de non-qualité des données augmente
d’autant
d autant plus que certaines données ont été perdu voir
jamais, exploitée. Il faut prévoir de développer des
procédures de contrôle de qualité.

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 11


Le Processus de Data Minig

+
Zone à risque Coût de collecte
majeur important
mise en œuvre de contrôles à la saisie

Nombre d’exemples
processus d’analyse et tests de
de normalité cohérence

Risque de saisie
Bonne fiabilité des Mise en place de
informations
o a o s contrôles
co ô es à la
a saisie
sa s e
N

Contrôle visuel et test de


cohérence
-

Saisie automatique Saisie manuelle

La fiabilité des donnés

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 12


Le Processus de Data Minig

‰ Les valeurs aberrantes (3 approches)


ƒ Isoler les pics de certaines valeurs dans une distribution
statistique (ex. date 1/1/1901).
ƒ C d
Cadrer l
les valeurs
l correctes
t (
(moyenne + 3 écarts
é t types)
t ) ett
éliminer les autres.
ƒ Construire un premier score, puis examiner les exemples qui
contribuent
ib f
fortement à ce score. Un niveau
i d contribution
de ib i
anormale représente souvent une donnée aberrante.
‰ Les valeurs manquantes
ƒ Exclure les enregistrements incomplets.
ƒ Remplacer les données manquantes
ƒ Gérer les valeurs manquantes.
manquantes
‰ Les valeurs nulles
ƒ Identifier les enregistrements contenants des valeurs nulles
pour identifier la sources de l’erreur et de l’éliminer.

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 13


Le Processus de Data Minig

‰ Prévenir la non qualité des données


ƒ La mauvaise qualité des données complexifie l’apprentissage
et nuit à la performance du modèle :
ƒ I té
Intégration
ti d flous
de fl ( variation
i ti paramétrée)
ét é ) à la l phase
h
d’apprentissage pour mesurer la stabilité du modèle sur des
échantillons de tests.
ƒ Associer
i à une variable
i bl plusieurs
l i valeurs
l probabilisées
b bili é (ex.
( à
23 ans, salarié (70%), demandeur d’emploi (30%)).
5. Phase 5 : Les actions sur les variables
ƒ Transformation monovariable
ƒ Modification de l’unité de mesure
ƒ Transformation des dates en durées
ƒ La conversion des données géographiques en
coordonnées.

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 14


Le Processus de Data Minig

Variables brutes Variables normalisées


Âge Revenu Âge Revenu
Exemple 1 23 175 -1,625 -0,653
Exemple 2 55 235 2,375 0,147
Exemple 3 48 224 1,500 0
Exemple 4 36 287 0 0 840
0,840
Exemple 5 67 156 3,875 -0,907

Exemple 100 41 312 0,625 1,173

Moyenne 36 224
Écart-type 8 75

Transformation es variables âge te revenue en grandeurs

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 15


Le Processus de Data Minig

Chiffre d’affaires Log (chiffre d’affaires)


Exemple 1 23 3,135
Exemple 2 78 4,357
E
Exemple
l 3 123 4 812
4,812
Exemple 4 131 4,875
Exemple 5 2 345 7,760

Effet de la transformation Log sur la variable exceptionnelle 2345

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 16


Le Processus de Data Minig

ƒ La transformation multivariable
ƒ Les ratios.
ƒ La fréquence.
ƒ Les tendances.
ƒ Les combinaisons linéaires.
ƒ Les combinaisons non linéaires.

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 17


Le Processus de Data Minig
Période 1 Période 2 Période 3 Période 4 Fréquence
q
Exemple 1 Non Oui Non Non 25 %
Exemple 2 Oui OUI Oui Oui 100 %
E
Exemple
l 3 OUI O i
Oui OUI N
Non 75 %
Exemple 4 Oui Non Oui Oui 75 %
Exemple 5 Non Non Non Non 0%

Période 1 Période 2 Progression Tendance


Exemple 1 235 536 128 % ++
Exemple 2 214 210 -2 % =
Exemple 3 345 100 -71 % -
Exemple 4 200 200 0% =
Exemple
p 5 110 4 200 3 718 % ++

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 18


Le Processus de Data Minig

6 Phase 6 : La recherche du modèle


6.
ƒ Cette phase appelée aussi phase de modélisation consiste à
extraire la connaissance utile d’un ensemble de données
bruités et la présenter sous forme synthétique.
synthétique
‰ L’apprentissage
ƒ Scinder la base en deux grandes bases : la base
d’apprentissage (70 à 80 %) et base de test (20 à 30 %). .
ƒ La base d’apprentissage sert à construire le modèle, la base
de test à vérifier sa stabilité.
‰ L’automatisme et l’interactivité
ƒ Les modèles construits de manière automatique sont
particulièrement sensibles à la qualité des données qui leur
sont fournies. La majorité des logiciels de data mining offrent
une option à l’utilisateur pour améliorer le raisonnement au
fur et à mesure de la construction du modèle.
modèle

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 19


Le Processus de Data Minig
‰ Les algorithmes de calcul
ƒ Recherche des modèles à base d’équation.
ƒ Analyse logique.
ƒ Techniques de projection.
projection
7. Phase 7 : Évaluation des résultats
ƒ Elle permet d’estimer la qualité du modèle, c’est-à-dire sa
capacité
ité à déterminer
dét i correctement
t t les
l valeurs
l qu’il
’il estt
censé avoir appris à calculer sur des cas nouveaux. Cette
évaluation prend généralement une forme qualitative et une
f
forme quantitative.
tit ti
‰ L’évaluation qualitative
ƒ Connaissance sous forme g graphique
p q ou textuelle p
pour
améliorer la compréhension des résultats.
‰ L’évaluation quantitative
ƒ Notion d
d’intervalle
intervalle de confiance.
confiance
ƒ Validation par test.
05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 20
Le Processus de Data Minig
8. Phase 8 : Intégration de la connaissance
ƒ Implémenter le modèle ou ses résultats dans les systèmes
informatiques ou dans le processus de l’entreprise.
ƒ Transition du domaine des études au domaine opérationnel.
p
ƒ Dresser un bilan du déroulement des étapes précédentes :
ƒ Faibles qualité des données constatée conduit à revoir
les processus dd’alimentation
alimentation du data warehouse.
warehouse
ƒ Détection du fort pouvoir prédictif d’une donnée pousse
à modifier le schéma de la base de données et le
rythme d d’alimentation
alimentation.
ƒ Les agrégats construits dans le processus d’analyse se
révèlent être des dimensions intéressantes pour le
pilotage de l’entreprise et contribuent à ll'extension
extension des
tableaux de bord existants.
ƒ La connaissance extraite est en contradiction avec la
connaissance
i existante,
i t t auquell cas une communication
i ti
et des explications seront nécessaires.
05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 21
Références

„ J. Han,
J H and
d M.
M Kamber.
K b D t Mining
Data Mi i C
Concepts
t
and Techniques. Morgan Kaufmann.

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 22

Vous aimerez peut-être aussi