Cours - 3 Processus de Data Mining

Master M2 (Option F3I)
Data Mining
i i
(Le processus de data mining)
Data Mining et Apprentissage Automatique

Cours de Master F3I
2008-2009
Le Processus de Data Minig
1 Phase 1 : Poser le problème

1.
C’est la phase où l’on expose le problème et où l’on définit
les objectifs, le résultat attendu ainsi que les moyens de
mesurer le succès de ll’étape
étape de data mining.
mining
Il s’agit de comprendre le contexte de la recherche en vue
de donner une signification logique aux variables.
Ill est nécessaire
é i ded recueillir
illi les
l intuitions
i ii et la
l connaissance
i
des expert afin d’orienter le processus de découverte ou tout
simplement pour identifier les variables les plus pertinentes
susceptibles
tibl d’expliquer
d’ li l phénomènes
les hé è analysés.
l é
05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 2

Formulation du problème
Formuler le problème réel sous une forme qui peut être
traitée par les techniques et les outils du data mining.
Ét
Étape primordiale
i di l avantt toute
t t exploitation
l it ti effective
ff ti d
des
données.
Appliquer une méthode de formulation
Découper le problème complexe en sous problèmes de
complexité moindre.
Typologie du problème : affectation ou structuration

La démarche vise à comprendre un phénomène précis et
identifiable tels que la recherche des cause.
identifiable, cause
Approche exploratoire qui cherche à classifier des objets en
des sous-ensembles homogènes.
Id tifi des
Identifier d facteurs
f t d’ ff t ti
d’affectation.

En revanche,
revanche si ll’objectif
objectif est de mettre en évidence des
classes ou des facteurs d’affectations de différentiation, la
démarche relève alors d’une action d’identification des
facteurs de structuration.
Résultats attendu
Avant de se lancer dans le processus de data mining, il faut
savoir ce que l’on attend et ce que l’on compte faire de la
connaissance.
Faire une analyse critique des processus lies à l’exploitation
des résultats (logistique, informatique, marketing, contrôle de
gestion,…).
L’identification des individus qui utilisent les résultats d’un
processus de data mining et celle des décidons qu’ils doivent
prendre ont une forte influence sur le choix des algorithmes.

2 Phase 2 : La recherche des données

2.
Déterminer la structure générale des données ainsi que les
règles utilisées pour les constituer..
Id tifi les
Identifier l informations
i f ti exploitables
l it bl ett vérifier
é ifi leur
l qualité
lité ett
leur facilité d’accès : documents papier, supports
électroniques, fichiers internes ou externes, fichiers multiples
ou bases de données de type data warehouses ou data
marts.
L’investigation
Sélection optimale des données avec l’aide d’un expert.
A la différence avec un système expert, on ne demande pas
à l’expert
p d’organiser
g son p
processus d’analyse
y mais de lister
ce qui, selon lui, a une importance.
S’il n’y a pas d’expert, on peut entreprendre une recherche
des facteurs les p plus déterminants p par les techniques
q
d’analyse de données (Régression linéaire, RdN, …)

Temps
p de
Zone optimale
Nombre d’exemples
calcul long
Multiplication
Trop peu d’exemples
des apprentissages
par rapport
pa appo à la
a taille
a e
N
pour s’assurer
’
du problème
de la stabilité
-
- Nombre de variables +
Liaison entre dimension et exemples

Cette phase de structuration des données doit clarifier les

associations qui existent entres elles, leurs contenus
sémantiques, les regroupements couramment utilisés pour
centaines d
d’entres
entres elles, etc.
La réduction des dimensions

Intégrer
é toutes les variables implique entraîne un
surdimensionnement du problème, qui nuit à la capacité de
généralisation.
Cette capacité de généralisation permet à un modèle de
conserver des performances comparables dans la base
d’apprentissage et dans la base de test.
Problème quelles sont les variables à retenir pour le modèle ?

3 Phase 3 : La sélection des données pertinentes

3.
Rechercher des évènements similaires dans le passé.
Échantillon ou exhaustivité
L’analyse doit choisir entre étudier l’exhaustivité de la base
de données et travailler sur un échantillon. Ce choix dépend
en partie des outils utilisés, de la puissance machine
disponible, du budget alloué et du niveau de fiabilité
recherché.
Mode de création de l’échantillon
Représentativité de l’échantillon.
Loi de Pareto (20/80) (20% des clients contribuent à 80 de
chiffre dd’affaire)
affaire).
Méthode des grappes, etc.…
Utilisation d’un critère a priori aléatoire, etc.…

Marge d’erreur
d erreur maximale
Taille de la population
+ ou – 5% + ou – 2,5 % + ou – 1 %
25 000 000 384 1 536 9 600

1 000 000 384 1 535 9 513
100 000 383 1 514 8 763
10 000 370 1 332 4 899
1 000 278 606 906
100 80 94 99
Exemples de tailles d’échantillon
Remarque : Pour diminuer le risque d’erreur, il faut augmenter la taille de l’échantillon.

é

4 Phase 4 : Le nettoyage des données

4.
La définition de la taille de la base d’exemples et le choix de
son mode d’élaboration passent par un diagnostic de la
qualité potentielles des données.
données
Une mauvaise qualité des données (erreurs de saisie, champs
nuls, valeurs aberrantes) impose généralement une phase de
nettoyage des données.
données Celle-ci
Celle ci pour objectif de corriger ou
de contourner les inexactitudes ou les erreurs qui se sont
glissées dans les données.
L’origine
L’ i i d donées
des d é
Base d’exemples restreinte (moins de 300 enregistrements ou
moins de 30 variables) et son alimentation est automatique :
contrôle facile (manuelle).
Base d’exemples restreinte et, son alimentation manuelle,
implique risque de saisie existent. Aider l’utilisateur par un
moyen de vérification et de contrôle de saisie.

Base dd’exemples
exemples importante et alimentation manuelle : i y a
risque dans la saisie (résolu par des contrôles), mais le coût de
la collecte des données est supérieurs aux bénéfices
escomptés.
Base d’exemples importante et son alimentation
automatique : risque de non-qualité des données augmente
d’autant
d autant plus que certaines données ont été perdu voir
jamais, exploitée. Il faut prévoir de développer des
procédures de contrôle de qualité.

+
Zone à risque Coût de collecte
majeur important
mise en œuvre de contrôles à la saisie
Nombre d’exemples
processus d’analyse et tests de
de normalité cohérence
Risque de saisie
Bonne fiabilité des Mise en place de
informations
o a o s contrôles
co ô es à la
a saisie
sa s e
N
Contrôle visuel et test de

cohérence
-
Saisie automatique Saisie manuelle
La fiabilité des donnés

Les valeurs aberrantes (3 approches)

Isoler les pics de certaines valeurs dans une distribution
statistique (ex. date 1/1/1901).
C d
Cadrer l
les valeurs
l correctes
t (
(moyenne + 3 écarts
é t types)
t ) ett
éliminer les autres.
Construire un premier score, puis examiner les exemples qui
contribuent
ib f
fortement à ce score. Un niveau
i d contribution
de ib i
anormale représente souvent une donnée aberrante.
Les valeurs manquantes
Exclure les enregistrements incomplets.
Remplacer les données manquantes
Gérer les valeurs manquantes.
manquantes
Les valeurs nulles
Identifier les enregistrements contenants des valeurs nulles
pour identifier la sources de l’erreur et de l’éliminer.

Prévenir la non qualité des données

La mauvaise qualité des données complexifie l’apprentissage
et nuit à la performance du modèle :
I té
Intégration
ti d flous
de fl ( variation
i ti paramétrée)
ét é ) à la l phase
h
d’apprentissage pour mesurer la stabilité du modèle sur des
échantillons de tests.
Associer
i à une variable
i bl plusieurs
l i valeurs
l probabilisées
b bili é (ex.
( à
23 ans, salarié (70%), demandeur d’emploi (30%)).
5. Phase 5 : Les actions sur les variables
Transformation monovariable
Modification de l’unité de mesure
Transformation des dates en durées
La conversion des données géographiques en
coordonnées.

Variables brutes Variables normalisées

Âge Revenu Âge Revenu
Exemple 1 23 175 -1,625 -0,653
Exemple 2 55 235 2,375 0,147
Exemple 3 48 224 1,500 0
Exemple 4 36 287 0 0 840
0,840
Exemple 5 67 156 3,875 -0,907
…
Exemple 100 41 312 0,625 1,173
Moyenne 36 224
Écart-type 8 75
Transformation es variables âge te revenue en grandeurs

Chiffre d’affaires Log (chiffre d’affaires)

Exemple 1 23 3,135
Exemple 2 78 4,357
E
Exemple
l 3 123 4 812
4,812
Exemple 4 131 4,875
Exemple 5 2 345 7,760
Effet de la transformation Log sur la variable exceptionnelle 2345

La transformation multivariable
Les ratios.
La fréquence.
Les tendances.
Les combinaisons linéaires.
Les combinaisons non linéaires.

Période 1 Période 2 Période 3 Période 4 Fréquence
q
Exemple 1 Non Oui Non Non 25 %
Exemple 2 Oui OUI Oui Oui 100 %
E
Exemple
l 3 OUI O i
Oui OUI N
Non 75 %
Exemple 4 Oui Non Oui Oui 75 %
Exemple 5 Non Non Non Non 0%
Période 1 Période 2 Progression Tendance

Exemple 1 235 536 128 % ++
Exemple 2 214 210 -2 % =
Exemple 3 345 100 -71 % -
Exemple 4 200 200 0% =
Exemple
p 5 110 4 200 3 718 % ++

6 Phase 6 : La recherche du modèle

6.
Cette phase appelée aussi phase de modélisation consiste à
extraire la connaissance utile d’un ensemble de données
bruités et la présenter sous forme synthétique.
synthétique
L’apprentissage
Scinder la base en deux grandes bases : la base
d’apprentissage (70 à 80 %) et base de test (20 à 30 %). .
La base d’apprentissage sert à construire le modèle, la base
de test à vérifier sa stabilité.
L’automatisme et l’interactivité
Les modèles construits de manière automatique sont
particulièrement sensibles à la qualité des données qui leur
sont fournies. La majorité des logiciels de data mining offrent
une option à l’utilisateur pour améliorer le raisonnement au
fur et à mesure de la construction du modèle.
modèle

Les algorithmes de calcul
Recherche des modèles à base d’équation.
Analyse logique.
Techniques de projection.
projection
7. Phase 7 : Évaluation des résultats
Elle permet d’estimer la qualité du modèle, c’est-à-dire sa
capacité
ité à déterminer
dét i correctement
t t les
l valeurs
l qu’il
’il estt
censé avoir appris à calculer sur des cas nouveaux. Cette
évaluation prend généralement une forme qualitative et une
f
forme quantitative.
tit ti
L’évaluation qualitative
Connaissance sous forme g graphique
p q ou textuelle p
pour
améliorer la compréhension des résultats.
L’évaluation quantitative
Notion d
d’intervalle
intervalle de confiance.
confiance
Validation par test.
8. Phase 8 : Intégration de la connaissance
Implémenter le modèle ou ses résultats dans les systèmes
informatiques ou dans le processus de l’entreprise.
Transition du domaine des études au domaine opérationnel.
p
Dresser un bilan du déroulement des étapes précédentes :
Faibles qualité des données constatée conduit à revoir
les processus dd’alimentation
alimentation du data warehouse.
warehouse
Détection du fort pouvoir prédictif d’une donnée pousse
à modifier le schéma de la base de données et le
rythme d d’alimentation
alimentation.
Les agrégats construits dans le processus d’analyse se
révèlent être des dimensions intéressantes pour le
pilotage de l’entreprise et contribuent à ll'extension
extension des
tableaux de bord existants.
La connaissance extraite est en contradiction avec la
connaissance
i existante,
i t t auquell cas une communication
i ti
et des explications seront nécessaires.
Références
J. Han,
J H and
d M.
M Kamber.
K b D t Mining
Data Mi i C
Concepts
t
and Techniques. Morgan Kaufmann.

Cours - 3 Processus de Data Mining

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours - 3 Processus de Data Mining

Transféré par

Droits d'auteur :

Formats disponibles

Master M2 (Option F3I)

Data Mining et Apprentissage Automatique

1 Phase 1 : Poser le problème

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 2

 Typologie du problème : affectation ou structuration

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 3

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 4

2 Phase 2 : La recherche des données

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 5

Liaison entre dimension et exemples

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 6

 Cette phase de structuration des données doit clarifier les

 La réduction des dimensions

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 7

3 Phase 3 : La sélection des données pertinentes

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 8

25 000 000 384 1 536 9 600

Exemples de tailles d’échantillon

Remarque : Pour diminuer le risque d’erreur, il faut augmenter la taille de l’échantillon.

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 9

4 Phase 4 : Le nettoyage des données

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 10

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 11

Contrôle visuel et test de

Saisie automatique Saisie manuelle

La fiabilité des donnés

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 12

 Les valeurs aberrantes (3 approches)

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 13

 Prévenir la non qualité des données

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 14

Variables brutes Variables normalisées

Transformation es variables âge te revenue en grandeurs

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 15

Chiffre d’affaires Log (chiffre d’affaires)

Effet de la transformation Log sur la variable exceptionnelle 2345

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 16

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 17

Période 1 Période 2 Progression Tendance

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 18

6 Phase 6 : La recherche du modèle

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 19

05/12/2009 Master F3I (Data Mining et Apprentissage Automatique), A. MOUSSAOUI 22

Vous aimerez peut-être aussi

Typologie du problème : affectation ou structuration

Cette phase de structuration des données doit clarifier les

La réduction des dimensions

Les valeurs aberrantes (3 approches)

Prévenir la non qualité des données