Vous êtes sur la page 1sur 5

MIT820: Entrepôts de données et intelligence artificielle

Introduction aux outils BI de SQL Server 2016


Fouille de données avec SQL Server Analysis Services (SSAS)

Description générale
Ce tutoriel a pour objectif de vous familiariser avec les fonctionnalités de fouille de
données offertes dans l'outil SQL Server Analysis Services (SSAS). Dans le cadre du
tutoriel, vous aurez à créer un modèle de fouille de données permettant de prédire quels
clients sont les plus susceptibles d'acheter une bicyclette (afin de maximiser le retour
d'une campagne ciblée de marketing). Ce faisant, vous apprendrez à définir et utiliser
des approches de fouille de données, tels que la classification bayésienne, les arbres de
décision et le clustering.

Pour plus d’informations sur ce tutoriel, consultez le lien suivant :


https://msdn.microsoft.com/en-us/library/ms167167.aspx

Créer un nouveau projet SSAS

1. Démarrer la machine virtuelle tel que décrit dans les tutoriels précédents
2. À partir du menu Démarrer, lancer l’application SQL Visual Studio 2015
3. Dans le menu Fichier créer un projet de type Projet multidimensionnel et
d'exploration de données
4. Renommer le projet TutorielDatamining

Créer une Source de données

1. Dans l'Explorateur de solutions (à droite), cliquer-droit sur Sources de


données → Nouvelle source de données
2. Dans Connexions de données, choisir AdventureWorksDW2014 sur le serveur
MTI820. Si cette source n'existe pas, la créer comme au tutoriel précédent;
3. Pour l'onglet Informations d'emprunt d'identité, choisir Utiliser un nom
d'utilisateur et mot de passe Windows spécifique et mettre:
• Nom d'utilisateur: sqladmin
• Mot de passe: [le mot de passe de la machine virtuelle]

Créer une Vue de source de données (DSV)

Les DSV permettent d'avoir les méta-données (e.g., schéma des tables) localement,
sans avoir à maintenir de connexion avec la source.
1. Dans l'Explorateur de solutions, cliquer-droit sur Vues de sources de données →
Nouvelle vue de source de données;
2. Dans Selectionner une source de données, choisir Adventure Works DW2014, et
cliquer sur Next;
3. Choisir les tables suivantes :
• ProspectiveBuyers: clients prospectifs pour la prédiction des modèles;
• vTargetMail: données historiques utilisées pour entraîner les modèles.
4. Cliquer sur Next et renommer la DSV : Targeted Mailing.

Créer une Structure d'exploration de données

1. Dans l'Explorateur de solutions, cliquer-droit sur Structure d'exploration de


données → Nouvelle structure d'exploration de données;
2. Dans Sélectionner la méthode de définition, choisir À partir d'une base de
données relationnelle ou d'un entrepôt de données qui existent déjà. Cliquer sur
Next;
3. Choisir l'option Créer une structure d'exploration de données avec un modèle
d'exploration de données et sélectionner Microsoft Decision Trees (MDT) comme
technique. Cliquer sur Next;
4. Dans le menu Sélectionner une vue de source de données, choisir Targeted
Mailing et cliquer sur Next;
5. Dans le menu Spécifier les types des tables, sélectionner vTargetMail dans la
colonne Cas. Cela identifie la table vTargetMail comme la source des données
d’entraînement;
6. Dans le menu Spécifier les données d'apprentissage:
a. Sélectionner BikeBuyer dans la colonne Predictible (valeur de sortie à
prédire);
b. Cliquer sur Suggérer. Les valeurs obtenues représentent la corrélations à
la colonne BikeBuyer; les colonnes ayant plus de 95% de corrélation sont
ajoutées automatiquement (colonne Age). Cliquer sur OK;
c. Dans le menu Input, sélectionner les colonnes suivantes (attributs du
modèle):
• Age, CommuteDistance, EnglishEducation, EnglishOccupation,
Gender, GeographyKey, HouseOwnerFlag, MaritalStatus,
NumberCarsOwned, NumberChildrenAtHome, Region, TotalChildren,
YearlyIncome
d. Dans la colonne la plus à gauche, rajouter (i.e. cocher) les colonnes
suivantes afin de pouvoir les utiliser pour l’analyse drill-through (ces
colonnes ne serviront pas d’attributs au modèle) :
• AddressLine1, AddressLine2, DateFirstPurchase, EmailAdress,
FirstName, LastName
e. S’assurer que la colonne Clé est cochée pour CustomerKey et cliquer sur
Next;
7. Dans le menu Spécifier le type de contenu et de données des colonnes:
a. Faire Détecter pour avoir des types recommandés
b. Changer GeographyKey pour
• Type de contenu : Discrete
• Type de données : Text
c. Cliquer sur Next
8. Dans Créer un jeu de test:
• Pourcentage de données de test : 30%
• Nombre maximal de cas : 1000
Note : 30% des données d’entraînement seront mises de côté pour mesurer la
performance des modèles entraînés (ces données forment le jeu de test).

9. Cliquer sur Next et dans Fin de l'assistant, entrer:


a. Nom de la structure d'exploration de données : Targeted Mailing
b. Nom du modèle d'exploration de données : TM_Decision_Tree
c. Cocher Accepter l'extraction
d. Observer le champs Aperçu (en bas) et cliquer sur Finish.

Ajout de nouveaux modèles et entraînement

1. Sélectionner l’onglet Modèles d'exploration de données (2ème dans la barre du


haut, icône en forme de pioche)
2. Cliquer-droit la colonne Structure → Nouveau modèle d'exploration de données.
3. Entrer TM_Clustering dans Nom du modèle et choisir Clusters Microsoft dans
Nom d'algorithme. Cliquer sur OK.
4. Répéter la même opération avec TM_Naive_Bayes pour Nom du modèle et
Microsoft Naive Bayes dans Nom d'algorithme. Un message mentionnant que les
colonnes numériques Age and Yearly Income ont été ignorées. Cliquer sur Oui.
Note : deux modèles de fouilles de données ont été ajoutés, un modèle de
clustering et un modèle de classification bayésienne.
5. Dans l’onglet Structure d'exploration de données (1er dans le barre du haut),
cliquer-droit sur Targeted Maliing → Propriétés
6. Mettre le HoldoutSeed à 12. C’est la graine aléatoire (random seed) qui
permettra de reproduire les résultats ultérieurement
7. Dans le menu Modèle d'exploration de données (barre en haut complètement),
choisir Traiter et cliquer sur Oui pour construire et déployer le modèle.
8. Dans le menu Traiter Structure d'exploration de données, faire Exécuter, et
attendre la fin de l'entraînement. Vérifier que l'état est Traitement réussi (avec
des avertissements) et cliquer sur Fermer.

Analyse des données : Arbre de décision

1. Choisir l’onglet Visonneuse de modèle d'exploration de données (3ème dans la


barre du haut)
2. Dans Modèle d'exploration de données (en haut), choisir le modèle
TM_Decision_Tree
3. Mettre la valeur de Arrière-plan à 1 (classe des acheteurs potentiels). Avec cette
option, plus un noeud est foncé, plus la probabilité d’être un acheteur potentiel
est grande;
4. Observer que Number Cars Owned est l'attribut le plus important (utilisé au
premier niveau), et que les clients ayant le plus grand potentiel (i.e., noeud le
plus foncé) n’ont pas de voitures.
5. Mettre le pointeur de la souris au dessus d’un noeud (ex : le plus foncé) et
observer la distribution des exemples dans le noeuds.
6. Cliquer-droit sur le noeud et faire Extraire → Colonnes de modèle seulement.
Observer la liste des clients.
7. Choisir l’onglet Réseau de dépendances, et sélectionner le noeud Bike Buyer au
centre.
8. Déplacer le curseur (slider) et observer les attributs ayant le plus grand impact
sur Bike Buyer. Le noeud Number Cars Owned devrait être le dernier à
disparaître en glissant le curseur vers le bas : c’est l’attribut ayant le plus
d’impact sur la variable Bike Buyer.

Analyse des données : Clustering

1. Dans le menu Modèle d'exploration de données, sélectionner TM_Clustering


2. Dans l’onglet Diagramme de clusters :
a. Mettre Variable d'ombrage à Bike Buyer, et État à 1. La couleur du noeud
représente maintenant la proportion des acheteurs de bicyclette dans le
groupe;
b. Cliquer-droit le noeud le plus foncé (i.e., Cluster 1 ou 5 avec 62% de Bike
Buyers) et le renommer BikeBuyersHigh
c. Cliquer-droit le noeud le plus pâle (i.e., Cluster 7 avec 34%) et le
renommer BikeBuyersLow
3. Dans l’onglet Profils du cluster:
a. Déplacer (glisser-coller) les colonnes BikeBuyersHigh/Low à gauche
b. Cliquer la colonne BikeBuyersHigh pour trier les variables en ordre
d'importance
c. Observer la distribution des attributs dans les groupe High et Low
4. Dans l’onglet Caractéristiques du cluster :
a. Choisir le cluster BikeBuyersHigh
b. Observer la probabilité de chaque attribut/valeur.
5. Dans l’onglet Discrimination de cluster:
a. Dans Cluster 1, choisir BikeBuyersHigh
b. Dans Cluster 2, choisir Complement of BikeBuyersHigh
c. Observer la différence au niveau de la distribution des attributs dans le
groupe à fort potentiel d’achat, versus les autres groupes.

Analyse des données : modèle bayésien naïf

1. Dans Mining model, sélectionner TM_Naive_Bayes


2. Observer rapidement les onglets disponibles.

Tester les modèles

1. Sélectionner l’onglet Graphique d'analyse de précision (4ème dans la barre en


haut)
2. Dans le menu Sélectionner le jeu de données à utiliser pour le graphique
d'analyse de précision de l'onglet Sélection d'entrée, choisir Utiliser des
scénarios de test de modèle d'exploration de données.
3. S'assurer que les trois modèles sont cochés et choisir Bike Buyer dans la
colonne Nom de la colonne prédictible
4. Choisir 1 dans la colonne Prédire la valeur. Note : la valeur 1 correspond aux
acheteurs.
5. Sélectionner l'onglet Graphique de courbe d'élévation (Lift chart).
6. Analyser le graphique:
a. Chaque courbe montre le pourcentage d'acheteurs rejoints par rapport au
pourcentage des clients ciblés.
b. Supposons que l’on puisse seulement envoyer la publicité à 30% des
clients. Déplacer la ligne verticale grise à la valeur 30% de l’axe
horizontal. Le croisement de chaque courbe avec la ligne grise montre le
pourcentage des clients intéressants (ceux susceptibles d’acheter des
bicyclettes) qui seront rejoints.
c. Observer que l’arbre de décision est le meilleur modèle avec un taux
d’environ 50%. Un algorithme idéal aurait un taux de 60%.
d. Observer les valeurs dans le menu Légende d'exploration de données à
droite.