Académique Documents
Professionnel Documents
Culture Documents
Data Mining
i i
(Le processus de data mining)
Formulation du problème
Formuler le problème réel sous une forme qui peut être
traitée par les techniques et les outils du data mining.
Ét
Étape primordiale
i di l avantt toute
t t exploitation
l it ti effective
ff ti d
des
données.
Appliquer une méthode de formulation
Découper le problème complexe en sous problèmes de
complexité moindre.
En revanche,
revanche si ll’objectif
objectif est de mettre en évidence des
classes ou des facteurs d’affectations de différentiation, la
démarche relève alors d’une action d’identification des
facteurs de structuration.
Résultats attendu
Avant de se lancer dans le processus de data mining, il faut
savoir ce que l’on attend et ce que l’on compte faire de la
connaissance.
Faire une analyse critique des processus lies à l’exploitation
des résultats (logistique, informatique, marketing, contrôle de
gestion,…).
L’identification des individus qui utilisent les résultats d’un
processus de data mining et celle des décidons qu’ils doivent
prendre ont une forte influence sur le choix des algorithmes.
Temps
p de
Zone optimale
Nombre d’exemples
calcul long
Multiplication
Trop peu d’exemples
des apprentissages
par rapport
pa appo à la
a taille
a e
N
pour s’assurer
’
du problème
de la stabilité
-
- Nombre de variables +
Marge d’erreur
d erreur maximale
Taille de la population
+ ou – 5% + ou – 2,5 % + ou – 1 %
Base dd’exemples
exemples importante et alimentation manuelle : i y a
risque dans la saisie (résolu par des contrôles), mais le coût de
la collecte des données est supérieurs aux bénéfices
escomptés.
Base d’exemples importante et son alimentation
automatique : risque de non-qualité des données augmente
d’autant
d autant plus que certaines données ont été perdu voir
jamais, exploitée. Il faut prévoir de développer des
procédures de contrôle de qualité.
+
Zone à risque Coût de collecte
majeur important
mise en œuvre de contrôles à la saisie
Nombre d’exemples
processus d’analyse et tests de
de normalité cohérence
Risque de saisie
Bonne fiabilité des Mise en place de
informations
o a o s contrôles
co ô es à la
a saisie
sa s e
N
Moyenne 36 224
Écart-type 8 75
La transformation multivariable
Les ratios.
La fréquence.
Les tendances.
Les combinaisons linéaires.
Les combinaisons non linéaires.
J. Han,
J H and
d M.
M Kamber.
K b D t Mining
Data Mi i C
Concepts
t
and Techniques. Morgan Kaufmann.