Académique Documents
Professionnel Documents
Culture Documents
Data Mining
Dans ce TP, vous allez élaborer un scénario pour une campagne de publipostage ciblée dans laquelle
vous utilisez le machine learning pour analyser et prévoir le comportement des clients. Le TP explique
comment utiliser trois des algorithmes d’exploration de données les plus importants: le clustering, les
arbres de décision et Naive Bayes.
La société fictive, Adventure Works Cycles, est utilisée pour tous les exemples. L’entreprise souhaite
en savoir plus sur ses clients sur la base d’achats historiques, puis d’utiliser ses données historiques
pour établir des prédictions utilisables en marketing.
Notez que vous n'avez pas obligatoirement besoin d'un cube pour effectuer l'exploration de données.
Dans ce TP, vous allez utiliser le data warehouse AdventureWorksDW comme la source de données.
prédire quels clients potentiels sont plus susceptibles d’acheter un vélo dans Adventure Works Cycles,
ou créer des segments de clients de futures campagnes marketing.
• Cocher la colonne Case pour que vTargetMail soit utilisé comme table de cas, puis cliquez sur
Suivant. Vous utiliserez la table ProspectiveBuyer ultérieurement pour les tests; ignorez la
pour l'instant.
• Sur la page spécifier les données d’apprentissage, vous allez identifier au moins une colonne
prévisible, une colonne clé et une colonne d’entrée pour votre modèle. Sélectionner la case à
cocher dans la colonne prédictible dans la ligne BikeBuyer.
• Cliquer sur suggérer pour ouvrir la boîte de dialogue suggérer des colonnes associées.
• Le bouton suggérer est activé chaque fois qu’au moins un attribut prédictible a été
sélectionné. La boîte de dialogue répertorie les colonnes qui sont plus étroitement liées à la
colonne prédictible et classe les attributs en fonction de leur corrélation avec l’attribut
prédictible. Les colonnes qui contiennent une corrélation significative (confiance supérieure à
95%) sont automatiquement sélectionnées pour être incluses dans le modèle.
• Examiner les suggestions, puis cliquer sur Annuler pour ignorer les suggestions.
• Cocher la colonne clé dans la ligne CustomerKey
• Cocher la colonne entrée dans les lignes suivantes
• Age
• CommuteDistance
• EnglishEducation
• EnglishOccupation
• Gender
• GeographyKey
• HouseOwnerFlag
• MaritalStatus
• NumberCarsOwned
• NumberChildrenAtHome
• Region
• TotalChildren
• YearlyIncome
• Sur la colonne d'extrême gauche de la page, cocher la case dans les lignes suivantes.
• AddressLine1
• AddressLine2
• DateFirstPurchase
• EmailAddress
• firstName
• lastName
• Vérifier que ces lignes ne sont cochées que dans la colonne gauche. Ces colonnes seront
ajoutées à votre structure mais ne seront pas incluses dans le modèle. Toutefois, une fois le
modèle construit, elles seront disponibles pour l'extraction et le test.
• Sur la page Créer un ensemble de tests, pour le pourcentage de données à tester, laisser la
valeur par défaut de 30.
• Pour Nombre maximal d'observations dans le jeu de données de test, taper 1000.
• Cliquer sur Suivant.
Spécifier l’extraction
L'extraction peut être activée sur les modèles et sur les structures. La case à cocher dans cette boîte
de dialogue active l'extraction sur le modèle nommé. Une fois le modèle traité, vous serez en mesure
d'extraire des informations détaillées des données d'apprentissage qui ont été utilisées pour créer le
modèle.
• Clustering
• Naive Bayes
Ces deux algorithmes sont sélectionnés en raison de leur capacité à prédire une valeur discrète (c.-à-
d., un achat de vélo).
• Déploiement envoie le projet à un serveur et crée tous les objets de ce projet sur le serveur.
• Traitement remplit les objets Analysis Services objets des données à partir de sources de
données relationnelles.
Les modèles ne peuvent pas être utilisés tant qu'ils n'ont pas été déployés et traités. En outre, lorsque
vous apportez des modifications au modèle, notamment lorsque vous ajoutez de nouvelles données,
vous devez redéployer et retraiter les modèles.
NB : Lorsque vous déployez un projet et traitez la structure et les modèles, les lignes individuelles dans
votre structure de données sont assignées au jeu d'apprentissage ou au jeu de test selon une valeur
de départ numérique. Par défaut, la valeur de départ numérique est calculée selon des attributs de la
structure de données. Cependant, si vous modifiez certains aspects de votre modèle, la valeur de
départ change, ce qui génère des résultats légèrement différents.
Vous allez examiner les résultats de vos trois modèles. Chaque type de modèle est basé sur un
algorithme différent et fournit un aperçu différent des données.
• Le modèle Decision Tree vous indique les facteurs qui influencent l'achat de vélos.
• Le modèle Clustering regroupe vos clients selon des attributs qui incluent leur comportement
d'achat de vélo et d'autres attributs sélectionnés.
• Le modèle Naive Bayes vous permet d'explorer la relation entre différents attributs.
Lorsque vous affichez le modèle TM_Decision_Tree dans la visionneuse d'arbre de décision, vous
pouvez voir les attributs les plus importants à gauche du graphique. «Le plus important» signifie que
ces attributs ont la plus grande influence sur le résultat. Les attributs situés plus bas dans l’arbre (à
droite du graphique) ont moins d’effet.
En modifiant le arrière-plan, vous pouvez rapidement voir le nombre de cas dans chaque nœud
présentant la valeur cible de 1 pour [Bike Buyer]. Souvenez-vous que dans ce scénario particulier,
chaque cas représente un client. La valeur 1indique que le client a précédemment acheté un vélo ; la
valeur 0 indique que le client n’a pas acheté un vélo. Plus l'ombrage du nœud est foncé, plus le
pourcentage de cas dans le nœud possédant la valeur cible est élevé.
• Placer votre curseur sur le nœud intitulé tous. Une info-bulle affiche les informations
suivantes :
§ Nombre total de cas
§ Nombre de cas n'ayant pas acheté de vélo
§ Nombre de cas ayant acheté un vélo
§ Nombre de cas avec des valeurs manquantes pour [Bike Buyer]
• Cliquer sur le nœud pour Age < 51. L'histogramme s'affiche sous la forme d'une fine barre
horizontale sur le nœud et représente la distribution des clients dans cette tranche d'âge qui
ont acheté (rose) et qui n'ont pas acheté (bleu) un vélo par le passé. La visionneuse nous
indique qu'il est probable que les clients âgés de moins de 51 ne possédant aucune voiture
achètent un vélo. En approfondissant, nous découvrons que la probabilité d'acheter un vélo
augmente si le client est en fait âgé de 38 à 40 ans.
Les détails de chaque cas d'apprentissage s'affichent au format feuille de calcul. Ces détails viennent
de la vue vTargetMail que vous avez sélectionnée comme table de cas lors de la génération de la
structure d'exploration de données.
• Cliquer sur un nœud, puis sélectionnez extraire puis colonnes de modèle et de structure.
La même feuille de calcul s'affiche avec les colonnes de structure ajoutées à la fin.
La variable par défaut est Population, mais vous pouvez le modifier à tout attribut dans le modèle,
pour découvrir quels clusters contiennent des membres qui ont les attributs souhaités.
• Sélectionner 1 dans la boîte état pour explorer les cas où un vélo a été acheté.
La densité décrit la densité de la paire d’état d’attribut sélectionnée dans la Variable d’ombrage et de
l’état. Dans cet exemple nous saurons ainsi que le cluster avec l’ombrage le plus foncé a le
pourcentage le plus élevé d’acheteurs de vélo.
La colonne Variable est triée par ordre d’importance pour ce cluster. Faites défiler la colonne et
examinez les caractéristiques du cluster Bike Buyer High. Par exemple, elles sont plus susceptibles
d'effectuer des trajets courts domicile-travail.
Certaines des différences plus significatives parmi les clients dans le Bike Buyers Low et Bike Buyers
High clusters incluent l’âge, la propriété de voiture, le nombre d’enfants et la région.
Source
Microsoft Data Mining Tutorials