Académique Documents
Professionnel Documents
Culture Documents
Module 2 Traitement Des Données
Module 2 Traitement Des Données
Objectifsdumodule
z Comprendre les donnes et passer en revue les tapes principales de la prparation des donnes afin de maximiser la performance de la modlisation
Laqualitdesdonnes
z Toutes les sources de donnes prsentent des problmes de qualit z Les modles de Data Mining ragissent plutt mal des donnes de mauvaises qualit z Causes de erreurs:
Sources Livraison Extraction Transformation Chargement
Lamauvaisesqualitdesdonnes Causespossibles
z Au niveau dune table
Observations dupliques Variables cls dupliques Variable cls manquantes
Valeur manquante Valeur nulle Valeur positive/ngative Out liners Valeur codes Date
M.E.S Gestion Srl - Rue Louis-Favre 34 - 2002 Neuchtel - contact@mesgestion.ch - www.mesgestion.ch
Lamauvaisequalitdesdonnes Correctionspossibles
z Modification dune variable z Elimination dune observation z Remplacer les valeurs manquantes:
Une valeur part La moyenne / mdiane Valeur alatoire selon la distribution Une estimation base sur la redondance des donnes
Lecasparticulierdesdonnes Missing
z Un des problmes les plus frquent rencontr dans le cadre de projet de Data Mining z Les donnes manquantes recoupent plusieurs cas de figure:
Champ totalement vide (white space ou null value) Champ numrique avec une valeur de type caractre Valeur code pour valeur manquante (99 ou autre)
Exemplesde valeursmanquantes
MISSING VALUES
Valeursmanquantes SPSSClementine
White space undefined
Missing code
8 M.E.S Gestion Srl - Rue Louis-Favre 34 - 2002 Neuchtel - contact@mesgestion.ch - www.mesgestion.ch
Lenud:QUALITE
z Cet outil de Clementine produit un rapport propos des valeurs manquantes dans un jeu de donnes z Il tient compte de tous les diffrents types de valeurs manquantes mentionns plus tt
Palette <OUTPUT>
LesparamtresdunudQUALITE
undefined = $ null $
10
Sortieavecuniquementoption undefined
Seule la variable INCOME montre des valeurs manquantes alors que lanalyse de la table de base nous a montr dautres problmes de qualit des donnes
11 M.E.S Gestion Srl - Rue Louis-Favre 34 - 2002 Neuchtel - contact@mesgestion.ch - www.mesgestion.ch
Dfinirdescodesdevaleursmanquantes
z Cette opration doit tre ralise depuis longlet TYPE dans le nud SOURCE de donnes
On indique SPSS Clementine quelles valeurs (codes) dans un champ doivent tre considres comme manquantes
12 M.E.S Gestion Srl - Rue Louis-Favre 34 - 2002 Neuchtel - contact@mesgestion.ch - www.mesgestion.ch
Exempledclarationpourlavariable CHILDREN
13
Autresproblmesdequalitdesdonnes
z100% des problmes de qualit ne concernent pas uniquement les valeurs manquantes z On peut galement rencontrer des erreurs de saisie, des valeurs aberrantes ou des irrgularits statistiques (distribution, )
Type de donnes Variables catgoriques Variables numriques Vrifications Distribution catgories Histogramme, rsum stat.
14
LenudAUDITdedonnes
z Cet outil de Clementine permet dobtenir rapidement un rsum statistique et graphique (distribution) de lensemble des variables dune source de donnes
Palette <OUTPUT>
15
LesparamtresdunudAUDIT
ExempledeloutputdunudAUDIT
17
Analyseprliminaire:quelquesexemples
z Sagissant dun fichier de demandes de crdit, que pensez-vous des informations suivantes?
18
Analyseprliminaire:quelquesexemples
z Sagissant dun fichier de demandes de crdit, que pensez-vous des informations suivantes?
REVENU
19 M.E.S Gestion Srl - Rue Louis-Favre 34 - 2002 Neuchtel - contact@mesgestion.ch - www.mesgestion.ch
Oprationssurlesdonnes
z Lanalyse de la qualit des informations impose dans la majorit des manipulations des donnes
Nettoyage des donnes Agrgation de variables
20
ManipulationdesdonnesdansSPSS Clementine
zAu niveau des enregistrements
21
LoutilSELECT
z Permet deffectuer une slection des donnes du flux (inclure ou exclure) z Fonctionne sur la base de critre de slection dtermins par lutilisateurs
22
ParamtresdunudSELECT
Inclusive ou exclusive
23
Leschoixdescritres:legnrateur dexpressionsCLEM
Oprateurs et fonctions Variables disposition
24
QuelquesexpressionsCLEM
25
Exercice UtiliserlenudSELECT
z Utiliser loutil SELECT pour dterminer si le facteur REVENU (avec une borne < ou > 20000) a une influence sur le risque? z Fichier de base: SmallSampleComma.txt
26
LoutilFILTRE
27
ParamtresdunudFILTRE
Cliquer sur la flche pour exclure la variable correspondante Bouton droit de la souris pour renommer
28
LoutilTRIER
z Cet lment de Clementine permet de trier les enregistrements soit par ordre croissant ou dcroissant
29
ParamtresdunudTRIER
Choix de lordre du tri Ajouter des critres de tris
30
LoutilRETRIER
z A ne pas confondre avec loutil prcdent z Permet de changer lordre dapparence des variables dans les tables
Palette <OPS SUR CHAMPS>
31
ParamtresdunudRETRIER
Choix des variables
32
LoutilCALCULER
z Outil trs important de Clementine permettant de crer des variables avec des rgles de calculs personnalises
33
ParamtresdunudCALCULER
Nom de la nouvelle variable
Calcul appliquer
34
Typesdecalculspossibles
Formule Boolen Ensemble Etat Comptage Conditionnel
35
Variable rsultante est le rsultat dune expression CLEM Rsultat est un FLAG de type True/False La nouvelle variable est un groupe prdfini Le nouveau champ reprsente 1 tat parmi 2 possibles. Le choix dpend dune condition Le nouveau champ est le rsultat dun comptage La nouvelle variable est le rsultat de 1 ou 2 expressions dpendant de la valeur dune condition
CALCULER Utilisationdeformules
36
CALCULER: Lesfonctionsboolennes
Condition(s)
37
CALCULER Utiliserdesensembles
Nom de groupes
Conditions
38
CALCULER Lesfonctionsconditionnelles
IF THEN ELS E
39
LoutilREMPLACER
z Cet outil de Clementine (trs utile pour traiter les valeurs manquantes) permet de remplacer la valeur dune variable dans les enregistrements selon que celle-ci soit:
Dans tous les cas (toujours) Une condition Valeur nulle Valeur non-renseigne
40
ParamtresdunudREMPLACER
Variable traiter
Type de remplacement
Valeur de substitution
41
OutilRECODER
z Permet de re-classifier les valeurs dune variable de type Ensemble ou Bolen z Clementine peut soit remplacer celle de la table de base ou crer une nouvelle variable de stockage
42
ParamtresdunudRECODER
Valeurs actuelles
Nouvelles valeurs
43
Gnrerautomatiquementdesnuds
z Clementine offre la possibilit de crer plus facilement certains nuds notamment des slection en utilisant des autres nuds de lapplication z Exemples
A partir dun histogramme A partir du nud qualit des donnes Etc
44
LoutilspcialV.GLOBALES
z Ce nud permet de calculer des indicateurs globaux sur la base des variables disponibles z Celles-ci peuvent tre ensuite rutilises dans le flux Clementine au travers du gnrateur dexpressions
Palette <Sortie>
45
ParamtresdunudV:GLOBALES
Variable(s) traiter
46