Vous êtes sur la page 1sur 12

Ecole des Sciences de L’Information

Data Mining
Dans ce TP, vous allez élaborer un scénario pour une campagne de publipostage ciblée dans laquelle
vous utilisez le machine learning pour analyser et prévoir le comportement des clients. Le TP explique
comment utiliser trois des algorithmes d’exploration de données les plus importants: le clustering, les
arbres de décision et Naive Bayes.

La société fictive, Adventure Works Cycles, est utilisée pour tous les exemples. L’entreprise souhaite
en savoir plus sur ses clients sur la base d’achats historiques, puis d’utiliser ses données historiques
pour établir des prédictions utilisables en marketing.

Création d'un projet Analysis Services


Une base de données Analysis Services contient plusieurs types d'objets.

• Modèles multidimensionnels (cubes)


• Structures et modèles d'exploration de données
• Objets de prise en charge, tels que des sources de données, des vues de source de données et
des assemblys personnalisés

Notez que vous n'avez pas obligatoirement besoin d'un cube pour effectuer l'exploration de données.
Dans ce TP, vous allez utiliser le data warehouse AdventureWorksDW comme la source de données.

Créer un projet Analysis Services


• Créer un nouveau Projet multidimensionnel et d'exploration de données Analysis Services.
• Nommer le nouveau projet BasicDataMining.

Créer une source de données


• Créer une nouvelle connexion à la base de données AdventureWorksDW.

Créer une vue de source de données


• Créer une nouvelle source de données relationnelles, sélectionner la source de données
Adventure Works DW que vous avez créé dans la dernière tâche.
• Sélectionner les objets suivants, puis cliquez sur la flèche droite pour les inclure dans la
nouvelle vue de source de données :
o ProspectiveBuyer (dbo) -table des futurs acheteurs de vélos
o vTargetMail (dbo) -vue des données historiques des cours acheteurs de vélo
• Remplacer le nom par Targeted Mailing, puis cliquez sur Terminer.

Création d'une structure de Targeted Mailing


Le service marketing de Adventure Works Cycles souhaite augmenter les ventes en destinant à des
clients spécifiques une campagne de publipostage (targeted mailing). La base de données de
l'entreprise contient une liste des clients passés et une liste des nouveaux clients potentiels. En
étudiant les attributs des clients antérieurs, l’entreprise espère révéler des modèles qu’ils peuvent
alors appliquer aux clients potentiels. Par exemple, ils peuvent utiliser les tendances passées pour

Microsoft Data Mining Tutorials


Datawarehouse
Ecole des Sciences de L’Information

prédire quels clients potentiels sont plus susceptibles d’acheter un vélo dans Adventure Works Cycles,
ou créer des segments de clients de futures campagnes marketing.

Créer une structure d'exploration de données pour le scénario de publipostage ciblé


• Dans l’Explorateur de solutions, cliquez sur des Structures d’exploration de données et
sélectionnez nouvelle Structure d’exploration de données pour démarrer l’Assistant
exploration de données.
• Sélectionner la méthode à partir de l’entrepôt de données ou de la base de données
relationnelle existant.
• Sur la page créer la Structure d’exploration de données, sous quelle technique d’exploration
de données voulez-vous utiliser ?, sélectionner Microsoft Decision Trees.

• Cocher la colonne Case pour que vTargetMail soit utilisé comme table de cas, puis cliquez sur
Suivant. Vous utiliserez la table ProspectiveBuyer ultérieurement pour les tests; ignorez la
pour l'instant.
• Sur la page spécifier les données d’apprentissage, vous allez identifier au moins une colonne
prévisible, une colonne clé et une colonne d’entrée pour votre modèle. Sélectionner la case à
cocher dans la colonne prédictible dans la ligne BikeBuyer.
• Cliquer sur suggérer pour ouvrir la boîte de dialogue suggérer des colonnes associées.
• Le bouton suggérer est activé chaque fois qu’au moins un attribut prédictible a été
sélectionné. La boîte de dialogue répertorie les colonnes qui sont plus étroitement liées à la
colonne prédictible et classe les attributs en fonction de leur corrélation avec l’attribut
prédictible. Les colonnes qui contiennent une corrélation significative (confiance supérieure à
95%) sont automatiquement sélectionnées pour être incluses dans le modèle.
• Examiner les suggestions, puis cliquer sur Annuler pour ignorer les suggestions.
• Cocher la colonne clé dans la ligne CustomerKey
• Cocher la colonne entrée dans les lignes suivantes
• Age
• CommuteDistance
• EnglishEducation

Microsoft Data Mining Tutorials


Datawarehouse
Ecole des Sciences de L’Information

• EnglishOccupation
• Gender
• GeographyKey
• HouseOwnerFlag
• MaritalStatus
• NumberCarsOwned
• NumberChildrenAtHome
• Region
• TotalChildren
• YearlyIncome
• Sur la colonne d'extrême gauche de la page, cocher la case dans les lignes suivantes.
• AddressLine1
• AddressLine2
• DateFirstPurchase
• EmailAddress
• firstName
• lastName

Microsoft Data Mining Tutorials


Datawarehouse
Ecole des Sciences de L’Information

• Vérifier que ces lignes ne sont cochées que dans la colonne gauche. Ces colonnes seront
ajoutées à votre structure mais ne seront pas incluses dans le modèle. Toutefois, une fois le
modèle construit, elles seront disponibles pour l'extraction et le test.

Examiner et modifier le type de contenu et le type de données de chaque colonne


• Sur la page Spécifier le contenu et le type de données des colonnes, cliquer sur Détecter pour
exécuter un algorithme qui détermine les types de données et de contenu par défaut pour
chaque colonne
• Passer en revue les entrées des colonnes Type de contenu et Type de données et les modifier
si nécessaire pour vous assurer que les paramètres sont identiques à ceux répertoriés dans le
tableau suivant.

Column Content Type Data Type


Address Line1 Discrete Text
Address Line2 Discrete Text
Age Continuous Long
Bike Buyer Discrete Long
Commute Distance Discrete Text
CustomerKey Key Long
DateLastPurchase Continuous Date
Email Address Discrete Text
English Education Discrete Text
English Occupation Discrete Text
FirstName Discrete Text
Gender Discrete Text
Geography Key Discrete Text
House Owner Flag Discrete Text
Last Name Discrete Text
Marital Status Discrete Text
Number Cars Owned Discrete Long
Number Children At Home Discrete Long
Region Discrete Text
Total Children Discrete Long
Yearly Income Continuous Double

Spécifier le jeu de test


La séparation des données en jeux d'apprentissage et de test lorsque vous créez une structure
d'exploration de données permet d'évaluer facilement l'exactitude des modèles d'exploration de
données que vous créerez ultérieurement.

• Sur la page Créer un ensemble de tests, pour le pourcentage de données à tester, laisser la
valeur par défaut de 30.
• Pour Nombre maximal d'observations dans le jeu de données de test, taper 1000.
• Cliquer sur Suivant.

Microsoft Data Mining Tutorials


Datawarehouse
Ecole des Sciences de L’Information

Spécifier l’extraction
L'extraction peut être activée sur les modèles et sur les structures. La case à cocher dans cette boîte
de dialogue active l'extraction sur le modèle nommé. Une fois le modèle traité, vous serez en mesure
d'extraire des informations détaillées des données d'apprentissage qui ont été utilisées pour créer le
modèle.

• Pour le nom de la structure d’exploration de données, taper Targeted Mailing.


• Dans nom du modèle d’exploration de données, taper TM_Decision_Tree.
• Sélectionner la case à cocher accepter l’extraction.
• Examiner l’aperçu. Notez que seules les colonnes sélectionnées en tant que clé,
entrée ou prédictible sont affichés. Les autres colonnes que vous avez sélectionnées (par
exemple, AddressLine1) ne sont pas utilisées pour générer le modèle mais seront disponibles
dans la structure sous-jacente et pourront être interrogées à l'issue du traitement et du
déploiement du modèle.
• Cliquez sur Terminer.

Ajout et traitement des modèles


La structure d'exploration de données initiale que vous avez créée contient un modèle d'exploration
de données unique qui est basé sur l'algorithme Decision Trees. Vous pouvez utiliser ce modèle pour
identifier les clients de la campagne de publipostage ciblée. Cependant, pour garantir que votre
analyse est complète, il est recommandé de créer des modèles associés à l'aide de différents
algorithmes et de comparer leurs résultats. De cette façon vous pouvez également obtenir différentes
analyses. Par conséquent, vous allez créer deux modèles, puis les traiter et les déployer.

Vous allez utiliser les algorithmes :

• Clustering
• Naive Bayes

Ces deux algorithmes sont sélectionnés en raison de leur capacité à prédire une valeur discrète (c.-à-
d., un achat de vélo).

Créer un modèle d'exploration de données Microsoft Clustering


• Ouvrir l’onglet modèles d’exploration de données.
• Cliquer sur la colonne Structure , puis sélectionner nouveau modèle d’exploration de données.
• Nommer le modèle TM_Clustering.
• Dans nom de l’algorithme, sélectionnez Microsoft Clustering.

Microsoft Data Mining Tutorials


Datawarehouse
Ecole des Sciences de L’Information

Créer un modèle d'exploration de données Microsoft Naive Bayes


• De la même manière, créer un nouveau modèle d’exploration TM_NaiveBayes de type
Microsoft Naive Bayes.
• Un message s’affiche indiquant que l’algorithme Naive Bayes ne prend pas en charge les
colonnes Age et Yearly Income , qui sont continues.

Déployer le projet et traiter tous les modèles d'exploration de données


Avant de pouvoir consulter ou utiliser les modèles d'exploration de données que vous avez créés, vous
devez déployer le projet Analysis Services et traiter la structure d'exploration de données et les
modèles d'exploration de données.

• Déploiement envoie le projet à un serveur et crée tous les objets de ce projet sur le serveur.

Microsoft Data Mining Tutorials


Datawarehouse
Ecole des Sciences de L’Information

• Traitement remplit les objets Analysis Services objets des données à partir de sources de
données relationnelles.

Les modèles ne peuvent pas être utilisés tant qu'ils n'ont pas été déployés et traités. En outre, lorsque
vous apportez des modifications au modèle, notamment lorsque vous ajoutez de nouvelles données,
vous devez redéployer et retraiter les modèles.

NB : Lorsque vous déployez un projet et traitez la structure et les modèles, les lignes individuelles dans
votre structure de données sont assignées au jeu d'apprentissage ou au jeu de test selon une valeur
de départ numérique. Par défaut, la valeur de départ numérique est calculée selon des attributs de la
structure de données. Cependant, si vous modifiez certains aspects de votre modèle, la valeur de
départ change, ce qui génère des résultats légèrement différents.

• Dans le menu Mining Model , sélectionner traiter la Structure d’exploration de données et


tous les modèles.
• Cliquer sur exécuter dans la boîte de dialogue traiter la Structure d’exploration de données –
Targeted Mailing.
• La boîte de dialogue État d’avancement du traitement s’ouvre avec les informations sur le
traitement des modèles. Le temps nécessaire au traitement des modèles varie en fonction de
votre ordinateur.

Exploration des modèles


Une fois que les modèles inclus dans votre projet sont traités, vous pouvez les explorer pour
rechercher des tendances intéressantes. Étant donné que les motifs peuvent être complexes et
difficiles en examinant simplement des nombres, l'exploration de données SQL Server fournit des
outils visuels qui vous aident à analyser les données et à comprendre les règles et les relations que les
algorithmes ont découvertes dans les données.

Vous allez examiner les résultats de vos trois modèles. Chaque type de modèle est basé sur un
algorithme différent et fournit un aperçu différent des données.

• Le modèle Decision Tree vous indique les facteurs qui influencent l'achat de vélos.
• Le modèle Clustering regroupe vos clients selon des attributs qui incluent leur comportement
d'achat de vélo et d'autres attributs sélectionnés.
• Le modèle Naive Bayes vous permet d'explorer la relation entre différents attributs.

Exploration du modèle Decision Tree


Dans l'onglet Arbre de décision, vous pouvez afficher des arbres de décision pour chaque attribut
prévisible du jeu de données.

Dans ce cas, le modèle prédit une seule colonne, Bike Buyer.

Lorsque vous affichez le modèle TM_Decision_Tree dans la visionneuse d'arbre de décision, vous
pouvez voir les attributs les plus importants à gauche du graphique. «Le plus important» signifie que
ces attributs ont la plus grande influence sur le résultat. Les attributs situés plus bas dans l’arbre (à
droite du graphique) ont moins d’effet.

Microsoft Data Mining Tutorials


Datawarehouse
Ecole des Sciences de L’Information

Microsoft Data Mining Tutorials


Datawarehouse
Ecole des Sciences de L’Information

• Faites glisser afficher le niveau jusqu'à la quatrième barre.


• Modifier la valeur de l’arrière-plan à 1.

En modifiant le arrière-plan, vous pouvez rapidement voir le nombre de cas dans chaque nœud
présentant la valeur cible de 1 pour [Bike Buyer]. Souvenez-vous que dans ce scénario particulier,
chaque cas représente un client. La valeur 1indique que le client a précédemment acheté un vélo ; la
valeur 0 indique que le client n’a pas acheté un vélo. Plus l'ombrage du nœud est foncé, plus le
pourcentage de cas dans le nœud possédant la valeur cible est élevé.

• Placer votre curseur sur le nœud intitulé tous. Une info-bulle affiche les informations
suivantes :
§ Nombre total de cas
§ Nombre de cas n'ayant pas acheté de vélo
§ Nombre de cas ayant acheté un vélo
§ Nombre de cas avec des valeurs manquantes pour [Bike Buyer]

• Cliquer sur le nœud pour Age < 51. L'histogramme s'affiche sous la forme d'une fine barre
horizontale sur le nœud et représente la distribution des clients dans cette tranche d'âge qui
ont acheté (rose) et qui n'ont pas acheté (bleu) un vélo par le passé. La visionneuse nous
indique qu'il est probable que les clients âgés de moins de 51 ne possédant aucune voiture
achètent un vélo. En approfondissant, nous découvrons que la probabilité d'acheter un vélo
augmente si le client est en fait âgé de 38 à 40 ans.

Extraire des données de cas


• Cliquer sur un nœud, puis sélectionner extraire puis colonnes de modèle uniquement.

Les détails de chaque cas d'apprentissage s'affichent au format feuille de calcul. Ces détails viennent
de la vue vTargetMail que vous avez sélectionnée comme table de cas lors de la génération de la
structure d'exploration de données.

• Cliquer sur un nœud, puis sélectionnez extraire puis colonnes de modèle et de structure.

La même feuille de calcul s'affiche avec les colonnes de structure ajoutées à la fin.

Microsoft Data Mining Tutorials


Datawarehouse
Ecole des Sciences de L’Information

Exploration du modèle Clustering


L’algorithme de Clustering regroupe des cas dans des clusters qui présentent des caractéristiques
similaires. Ces regroupements sont utiles pour l'exploration des données, l'identification d'anomalies
dans les données et la création de prédictions.

• Sélectionner le modèle TM_Clustering


• Dans la Variable d’ombrage, sélectionner Bike Buyer.

La variable par défaut est Population, mais vous pouvez le modifier à tout attribut dans le modèle,
pour découvrir quels clusters contiennent des membres qui ont les attributs souhaités.

• Sélectionner 1 dans la boîte état pour explorer les cas où un vélo a été acheté.

La densité décrit la densité de la paire d’état d’attribut sélectionnée dans la Variable d’ombrage et de
l’état. Dans cet exemple nous saurons ainsi que le cluster avec l’ombrage le plus foncé a le
pourcentage le plus élevé d’acheteurs de vélo.

• Arrêter votre souris sur le cluster avec l'ombrage le plus foncé.


• Sélectionner le cluster ayant la densité la plus élevée, cliquez sur le cluster,
sélectionner renommer le Cluster et taper Bike Buyers High pour l’identification
ultérieure.
• Recherchez le cluster qui a l'ombrage le plus clair. Cliquez sur le cluster,
sélectionnez renommer le Cluster et taper Bike Buyers Low.

Microsoft Data Mining Tutorials


Datawarehouse
Ecole des Sciences de L’Information

Onglet Profils du cluster


• Définir barres d’histogramme à 5.
• Sélectionner la colonne Bike Buyers High et faites-la glisser vers la droite de la colonne
Population.
• Sélectionner la colonne Bike Buyers Low et faites-le glisser vers la droite de la
colonne Bike Buyers High .
• Cliquer sur la colonne Bike Buyers High.

La colonne Variable est triée par ordre d’importance pour ce cluster. Faites défiler la colonne et
examinez les caractéristiques du cluster Bike Buyer High. Par exemple, elles sont plus susceptibles
d'effectuer des trajets courts domicile-travail.

Onglet Discrimination de cluster


• Dans le Cluster 1, sélectionnez Bike Buyers High.
• Dans le Cluster 2, sélectionnez Bike Buyers Low.

Certaines des différences plus significatives parmi les clients dans le Bike Buyers Low et Bike Buyers
High clusters incluent l’âge, la propriété de voiture, le nombre d’enfants et la région.

Microsoft Data Mining Tutorials


Datawarehouse
Ecole des Sciences de L’Information

Source
Microsoft Data Mining Tutorials

Microsoft Data Mining Tutorials


Datawarehouse

Vous aimerez peut-être aussi