Vous êtes sur la page 1sur 7

TP DE DATA MINING 0 : UTILISATION DE SPSS CLEMENTINE

EPF – 4/ 5 ème année - Option Ingénierie d’Affaires et de Projets - Finance Bertrand LIAUDET

Utilisation de SPSS - Clementine

1

Aide et didacticiel

1

Vocabulaire de base : nœud, flux, résultats et projet

2

L’espace de travail Clémentine

2

L’espace de travail des flux

2

La palette des nœuds de Clémentine

3

Le gestionnaire des flux

7

Le gestionnaire des projets

7

UTILISATION DE SPSS - CLEMENTINE

Clementine est un logiciel de data mining. Il comporte deux parties :

Une partie d’analyse et de manipulation des données « classiques »

Une partie de modélisation propre au data mining

La partie d’analyse et de manipulation des données reprend les notions de base de l’algèbre relationnelle (SQL). La partie de modélisation propre au data mining utilise les algorithmes spécifiques du data mining.

Aide et didacticiel

Aide / Rubriques d’aide -> Accès à l’aide :

Cliquez sur le bouton Aide ou sur l'icône correspondante dans la plupart des boîtes de dialogue pour accéder à la rubrique d'aide propre aux commandes de cette boîte de dialogue.

Pour accéder à l'aide générale sur les noeuds et les éléments de la barre d'outils, sélectionnez « Qu'est-ce que c'est ? » dans le menu Aide de Clementine. Le curseur se transforme en point d'interrogation : vous pouvez l'utiliser pour cliquer sur n'importe quel élément de l'espace de travail de flux ou des palettes. Une fenêtre d'aide apparaît : elle contient des informations sur l'élément sélectionné.

Suivre les étapes du didacticiel

Vocabulaire de base : nœud, flux, résultats et projet

Nœud : un nœud est un élément d’un flux. C’est une étape d’un traitement complet qu’on appelle « flux ». Un nœud isolé ne produit pas de résultats. C’est la connexion de plusieurs nœuds qui peut produire des résultats. La version de Clementine qu’on utilise propose 60 nœuds répartis dans 6 catégories (Sources, Opérations sur les lignes, Opérations sur les champs, Graphiques, Modélisation, Sortie). Flux : un flux est un ensemble de nœuds produisant des résultats. Il faut au moins deux nœuds pour fabriquer un flux : un nœud d’entrée (choix du fichier de données) et un nœud de sortie (choix d’une méthode d’affichage ou d’un modèle). Un flux contient un et un seul nœud de sortie. Il peut contenir plusieurs nœuds d’entrée. Il peut se diviser en plusieurs branches, mais se termine toujours par un seul nœud de sortie. Résulats : sorties et modèle : les flux produisent quatre types de résultats : des tableaux, des graphiques, des statistiques et des modèles. Tableaux, graphiques et statistiques sont appelées : « sorties ». Projet (processus) : un projet est un ensemble de flux répartis dans les étapes du processus CRISP-DM.

L’espace de travail Clémentine

L’espace de travail Clémentine se divise en 4 parties :

L’espace de travail des flux : pour fabriquer les flux.

La palette des nœuds : pour choisir les nœuds.

Le gestionnaire des flux : pour gérer les flux en tant que fichiers.

Le gestionnaire des projets : pour gérer les projets en tant que fichiers.

L’espace de travail des flux

Dans l’espace de travail des flux, on peut :

Déposer les nœuds de la palette des nœuds.

Paramétrer les nœuds.

Connecter les nœuds.

Exécuter un nœud de sortie.

L’espace de travail des flux contient un ou plusieurs flux (autant que de nœuds de sortie).

un ou plusieurs flux (autant que de nœuds de sortie). EPF - 4 è m e

EPF - 4 ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 2/7- Bertrand LIAUDET

La palette des nœuds de Clémentine

Dans la « palette de nœuds », zone horizontale en bas de la fenêtre de Clémentine, le logiciel propose toutes les opérations possibles regroupées logiquement :

Sources

Opérations sur les lignes

Opérations sur les champs

Graphiques

Modélisation

Sortie

Dans ces opérations, on va retrouver la logique de l’algèbre relationnelle :

Select : choix des attributs, attributs calculés, élimination des doublons, fonctions de groupe

From : choix des tables, produit cartésien

Where : choix des lignes et jointure

Order by : tris

Group by : regroupements

Union, Minus, Intersection : opérations ensemblistes

Sources

Les outils SGBD, Délimité, Fixe, SPSS, SAS permettent de choisir un fichier de données sur lequel se feront les opérations de data mining. Le fichier de données ne sera pas modifié par les opérations du data mining. Pour travailler à partir d’un fichier enregistré en format texte, on utilise l’outil « Délimité ».

8 opérations sur les lignes

6 opérations sur les lignes Clémentine et leurs équivalents SQL :

Clémentine

SQL

Sélectionner

Where

Agréger

Group by

Trier

Order by

Distinguer

Distinct

Fusionner

Jointure

Ajouter

Union

EPF - 4 ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 3/7- Bertrand LIAUDET

2

opérations sur les lignes spécifiques au data mining :

Opération

Explications

Échantillonner

Permet de produire un échantillon à partir d’un ensemble de départ.

Équilibrer

Permet de modifier la répartition des valeurs d’une variable.

10 opérations sur les champs (sur les colonnes)

3

opérations sur les champs Clémentine et leurs équivalents SQL :

 

Clémentine

SQL

Explications

Re-trier

Select

Permet de définir l’ordre d’affichage des colonnes.

Filtrer

Select

Permet de choisir les colonnes et de les renommer.

Calculer

Select

Permet de générer de nouveaux champs et des champs calculés.

7

opérations sur les champs spécifiques au data mining

 

Opération

Explications

Typer

Permet de modifier le type des champs. Double-clique du champ possible.

Remplacer / Recoder

Permet de modifier les valeurs des variables d’un champ selon certains critères.

Discrétiser

Permet de générer une variable catégorielle à partir d’une autre variable. Plusieurs types de catégories sont possibles : par effectifs (quantiles), par intervalles, etc.).

Partitionner

Permet de définir l’organisation du jeu de données en jeux d’apprentissage, de test et éventuellement de validation. Cette organisation est utile pour la modélisation.

Binariser

Permet de générer une variable booléenne à partir d’une valeur d’une autre variable (par exemple :

origine = ‘Europe’ devient une variable booléenne).

Historiser

 

7 graphiques

7 opérations graphiques proposées par Clémentine :

Clémentine

Explications

EPF - 4 ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 4/7- Bertrand LIAUDET

Nuage

2 ou 3 variables, plus une superposition.

Proportion

1 var. non numérique + superposition.

Histogramme

1 var. numérique + superposition.

Résumé

Statistique d’une variable pour les valeurs d’une autre variable (par exemple : moyenne des puissances par années).

Courbe

Idem nuage, en tirant un trait entre les points.

Relation

Effectif des co-occurrences entre valeurs catégorielles.

Évaluation

Comparaison graphique des modèles prédictifs.

5 modélisations

5 opérations de modélisation proposées par Clémentine en version d’évaluation :

Clémentine

Arbre C & RT

K-means

GRI (règles d’asso)

ACP / Facteur

Régression

14 sorties

14 opérations de sortie proposées par Clémentine qu’on peut regrouper en 4 genres :

4 opérations d’observation des données :

Table

Affichage du tableau de départ.

Matrice

Pour deux variables catégorielles, matrice des occurrences ou calcul statistique pour une troisième variable (exemple : poids moyen par année et par

cm3).

Audit données

Synthèse statistique et graphique.

Statistiques

Statistiques et corrélations.

Qualité

Analyse la qualité initiale des données

2 opérations de rapport :

Analyse

Crée un rapport comparant l’exactitude des modèles prédictifs

Rapport

Edition d’un rapport écrit.

EPF - 4 ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 5/7- Bertrand LIAUDET

1 opération « technique interne» :

V. Globales

Permet de définir des calculs statistiques (moyenne, minimum, etc.) en variables globales qui pourront ensuite être utilisées dans des formules de filtre.

6 outils d’exportation des données :

Excel

Fichier plat

SGBD

Export SPSS

Export SAS

Commande SPSS

SGBD Export SPSS Export SAS Commande SPSS EPF - 4 è m e année - IAP

EPF - 4 ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 6/7- Bertrand LIAUDET

Le gestionnaire des flux

Flux

L’espace de travail des flux correspond à un flux du gestionnaire des flux. On peut le sauvegarder. Les flux peuvent être rangés dans un projet.

Sorties

Tous les résultats de type « Sorties » (résultats de type tableaux, statistiques ou graphiques) se retrouvent dans l’onglet « Sorties ». Ils peuvent être sauvegardés. Ils peuvent être rangés dans un projet.

Modèles

Tous les résultats de type « modèle » se retrouvent dans l’onglet « Modèles ». Ils peuvent être sauvegardés. Ils peuvent être rangés dans un projet.

Le gestionnaire des projets

CRISP – DM

Chaque étape du CRISP – DM est un dossier dans lequel on peut ranger les éléments du projet : les flux, les super-nœuds, les sorties et les modèles. On peut enregistrer le projet avec tous ses fichiers.

Classes

L’onglet « Classes » organise les éléments du projet par catégorie (et non plus par étapes comme dans le CRISP – DM) : flux, super-nœuds, modèles, sorties (tableaux, graphiques, etc.).

EPF - 4 ème année - IAP - TP de Data Mining –0 : Utilisation de SPSS-Clémentine - page 7/7- Bertrand LIAUDET