Académique Documents
Professionnel Documents
Culture Documents
Un tour dhorizon
ENSA
www.itech4you.com
ALLO
Extrait dune conversation tlphonique (relle) :
All, monsieur Kamel? Je travaille pour X et nous dsirons rencontrer tous les habitants de votre rue (sic). Quand pouvons-nous vous rencontrer pour vous parler de nos offres en matire dassurances ?
All
Le but de notre propos est de brosser par touches successives le portrait dune discipline nouvelle. Il sagit ainsi les avis couramment exprims par des utilisateurs et des fouilleurs de donnes , ainsi que les avis de la littrature.
Avant propos
Sleon une tdue de luvinersit de Cmabrigde, lodrre des ltteres dans un mot na pas dipmrotncae, la suele coshe ipmrotnate est que la pmeire et la drenire soenit la bnone palce. Le rsete puet rte dans un dsordre ttoal et vuos puoevz tujoruors lrie snas porlbme. Cest prace que le creaveu hmauin ne lit pas chuaqe lterre elle mme, mais le mot cmome un tuot. Cest dniuge, non?
Avant propos
Ne restez pas indfiniment sur la route qui ne
mne qu des endroits connus, abandonnez parfois les sentiers battus et entrez dans la fort, vous dcouvrirez certainement quelque chose que vous n'avez jamais vu, bien sur ce ne sera qu'une petite chose, mais prtez y attention, suivez la, explorez la, une dcouverte en amnera une autre, et avant mme de vous rendre compte, vous aurez mis a jour une ide intressante.
Alexander Graham Bell
Agenda
Atelier 1
Dfinition
Donnes
Information
Connaissance
D
onnes
I
formation
La donne est de l'information dshabille de sa valeur potentielle pour un agent. La donne est un fait alatoire.
dans lnonc dun problme, et qui sert dcouvrir ce qui est inconnu 2. Ce qui est admis, connu ou reconnu et qui sert de base un raisonnement de point de dpart pour une recherche ou une tude Source: Le Petit Robert
Donnes Client: Tout ce quon est en mesure de savoir sur chaque client priori
Datamining :Concept
It is a process of discovering meaningful new correlations, patterns, trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies, statistical and mathematical techniques Gartner Group, 1995 Le datamining nest pas une technologie Le datamining nest pas un outil informatique
Datamining
AU CUR DE LINTELLIGENCE ECONOMIQUE (Business intelligence)
Veille commerciale Veille stratgique
Veille concurrentielle
Veille technologique
Tirer parti dun avantage concurrentiel (dcider avant le concurrent) Raliser des conomies dchelles grce la rutilisation des mthodes Dployer les mthodes sur tous les domaines applicatifs Dvelopper les comptences, la capacit et lautonomie de rflexion et daction de lentreprise ( dcider en temps rel)
Processus de datamining
Processus (ISO 9000-1) : Transformation ajoutant
Lquation fondamentale :
Donnes
Processus
Information
Positionnement du datamining
Collecte Datawarehouse Interface S.I. Datamining Interface mtier Management dactivit Actions
Rseaux neuronaux
J. Welsh
Datamining
dtecter des niches marketing dterminer des profils de clients modliser le comportement des clients dtecter des besoins et services nouveaux dtecter des potentiels conomiques de clients dtecter et expliquer les risques dinfidlit
datamining client est un processus de management des donnes client qui opre partir des donnes lmentaires pour produire de linformation, de la connaissance en vue dune action bien dtermine vis vis des clients
Donnes
Processus
Information
Action
lettres de rclamations textmining client thmes dinsatisfaction notoire connatre pour amliorer la QS client
Donnes
Processus
Information
Action
donnes de facturation datamining client score de risque de fraude connatre pour se prvenir des fraudeurs
potentiellement infidles selon leur potentiel conomique et de mettre en place des actions marketing adaptes
encourus
composantes:
Un indicateur de risque dinfidlit par client Un indicateur de potentiel conomique par client
Indice de fidlit
Situation t Calculer un indice de fidlisation et indice de valeur conomique par client (scoring)
Situation t Dterminer les actions en fonction des indices de fidlisation et de valeur des clients
Etape 2
Prdire les clients infidles selon leur valeur conomique Exploiter les modles valuer les rsultats des actions marketing
Etape 4
Les donnes
1499 clients ayant rsili leur contrat
Exemple2
Objectif : Etude de la Q.S client au moyen des
lettres de rclamations
Text mining
clients, itratif, interactif sappuyant sur un processus de management des lettres de rclamations des clients mettant en uvre des techniques de text mining client
clients Dtecter les facteurs significatifs des rclamations Estimer pour chaque client son risque de rclamant Agir auprs des clients au regard des risques encourus
ensembles significatifs :
Un ensemble de thmes significatifs par client Un ensemble de mots cls significatifs par client
thmes significatifs
Situation t Modlisation des Thmes et des Mots cls significatifs des rclamations
Situation t Prdire les thmes en fonction des Mots cls Situation t Dterminer les actions en fonction des Thmes dinsatifaction des clients
Etape 2
Prdire les Thmes clients selon leurs Mots cls significatifs Exploiter le modle de QS Client
Etape 6
ACTION
Dcision Tableaux de bord Rapports Analyse diffre des donnes
PLAN
Enjeux
Dcision initiale
CHECK
DO
Partir du niveau de dtail le plus fin dont on dispose mme si des agrgations seront ncessaires Le data mining est un processus li un objectif prcis de lentreprise Dans la pratique, les donnes rellement disponibles seront souvent le vrai facteur limitant
Dans le cadre dune mission donne, analyser les donnes dtailles pertinentes dont on dispose pour en dduire les actions les plus rationnelles, cest--dire dont la rentabilit sera probablement la meilleure.
Lutilisation faite des connaissances permet dvaluer les risques La critre conomique permet en dfinitive de mesurer la qualit des actions. Sil nest pas accessible directement, des critres dgrads seront utilises (ex: pages vues)
La connaissance qui aura t extraite de lanalyse des donnes conduit des actions concrtes
Pr-histoire
1875 : rgression linaire de Francis Galton 1896 : formule du coefficient de corrlation de Karl Pearson 1900 : distribution du de Karl Pearson 1936 : analyse discriminante de Fisher et Mahalanobis 1941 : analyse factorielle des correspondances de Guttman 1943 : rseaux de neurones de Mc Culloch et Pitts 1944 : rgression logistique de Joseph Berkson 1958 : perceptron de Rosenblatt 1962 : analyse des correspondances de J.-P. Benzcri 1964 : arbre de dcision AID de J.P.Sonquist et J.-A.Morgan 1965 : mthode des centres mobiles de E. W. Forgy 1967 : mthode des k-means de Mac Queen 1972 : modle linaire gnralis de Nelder et Wedderburn
Histoire
1975 : algorithmes gntiques de Holland 1975 : mthode de classement DISQUAL de Gilbert Saporta 1980 : arbre de dcision CHAID de KASS 1983 : rgression PLS de Herman et Svante Wold 1984 : arbre CART de Breiman, Friedman, Olshen, Stone 1986 : perceptron multicouches de Rumelhart et McClelland 1989 : rseaux de T. Kohonen (cartes auto-adaptatives) vers 1990 : apparition du concept de data mining 1993 : arbre C4.5 de J. Ross Quinlan 1996 : bagging (Breiman) et boosting (Freund-Shapire) 1998 : support vector machines de Vladimir Vapnik 2000 : rgression logistique PLS de Michel Tenenhaus 2001 : forts alatoires de L. Breiman
dcouverte dans les BD larges de modles de donnes valides, nouveaux, utiles et comprhensibles. Itratif : ncessite plusieurs passes Interactif : lutilisateur est dans la boucle du processus Valides : valables dans le futur Nouveaux : non prvisibles Utiles : permettent lutilisateur de prendre des
dcisions Comprhensibles : prsentation simple
Abduction
Toutes les voitures ont 4 roues La Peugeot 206 a 4 roues ==> La Peugeot 206 est une voiture
Il faut cependant tre trs vigilant avec ce type de raisonnement car il peut produire des rsultats aberrants ou triviaux : Toutes les voitures ont un moteur, lAirbus 320 a un moteur lAirbus 320 est une voiture.
Dduction
Toutes les voitures ont 4 roues La Peugeot 206 est une voiture ==> La Peugeot 206 a 4 roues
Cest le type de raisonnement le plus utilis et le plus familier. Son atout majeur est quil ne laisse pas de place au doute
Schmas dinfrence
La clio a 4 roues, La Peugeot 106 a 4 roues, La BMW M3 a 4 roues, La Mercedes 190 a 4 roues ==> Toutes les voitures ont 4 roues
Gnralisation dune observation ou dun raisonnement tablis partir de cas singuliers. Utilise en Data mining (tirer une conclusion partir d une srie de faits, pas sre 100%)
Induction
Motivations (1)
Explosion des donnes
Inexploitables par les mthodes danalyse classiques Collecte de masses importantes de donnes
(Gbytes/heure)
Donnes satellitaires, gnomiques (micro-arrays, ), simulations scientifiques, etc.
Motivations (2)
Amliorer la productivit
Forte pression due la concurrence du march Brivet du cycle de vie des produits Besoin de prendre des dcisions stratgiques efficaces
Exploiter le vcu (donnes historiques) pour prdire le futur et anticiper le march individualisation des consommateurs (d-massification).
capables de supporter de gros volumes de donnes dexcuter le processus intensif dexploration htrognit des supports de stockage
Motivations (3)
Donnes apprentissage
Datamining
Vrification et Evaluation
Modles, Patterns
Source de donnes
dcouverts Analyser la connaissance (intrt) Vrifier sa validit (sur le reste de la base de donnes) Ritrer le processus si ncessaire Grer la connaissance dcouverte La mettre la disposition des dcideurs Lchanger avec dautres applications (systme expert,
) etc.
Analyste(s) de donnes
Objectifs
Dvelopper des techniques et systmes efficaces et
Limiter lintervention de lutilisateur Reprsentation simple de la connaissance Visualisation sous forme exploitable
Communauts impliques
Intelligence artificielle et apprentissage Bases de donnes Analyse de donnes (statistiques) Visualisation Recherche oprationnelle et optimisation Informatique parallle et distribue Etc.
Domaines dapplication
Prise de dcision
base sur de nouvelles connaissances Ex., impact sur le marketing Le rle et limportance du KDD et DM est de plus en plus important Mais le DM nest pas seulement dans le marketing...
Domaines dapplication
Marketing direct : population cibler (ge, sexe,
profession, habitation, rgion, ) pour un publipostage. Gestion et analyse des marchs : Ex. Grande distribution : profils des consommateurs, modle d achat, effet des priodes de solde ou de publicit, panier de la mnagre Dtection de fraudes : Tlcommunications, ... Gestion de stocks : quand commander un produit, quelle quantit demander, Analyse financire : maximiser l investissement de portefeuilles d actions.
Domaines dapplication
Gestion et analyse de risque : Assurances, Banques
(crdit accord ou non) Compagnies ariennes Bioinformatique et Gnome : ADN mining, Mdecine et pharmacie : Diagnostic : dcouvrir daprs les symptmes du
patient sa maladie Choix du mdicament le plus appropri pour gurir une maladie donn
Web mining, text mining: pour analyser les lettres
de rclamation.
Domaines dapplication et % 13% : La banque 9% : Les tlcommunications 9% : Le e-commerce 8% : La dtection des fraudes 8% : Les tudes scientifiques 7% : Le marketing direct 6% : Lassurance 6% : La distribution 5% : La biologie 5% : Lindustrie pharmaceutique
Exemple 1 - Marketing
Vous tes gestionnaire marketing dun
Exemple 1 - Marketing
Trois
mois avant contrat lexpiration du contrat, prdire les les clients qui vont quitter:
Exemple 2 - Assurances
Oh,oui! Jaime ma Ferrari!
et vous devez dfinir un paiement mensuel adapt un jeune de 18 ans qui a achet une Ferrari.
Quest ce quil faut faire ?
Exemple 2 - Assurances
Analyser
les donnes de tous les clients de la compagnie. La probabilit davoir un accident est base sur ?
Sexe du client (M/F) et lge Modle de la voiture, ge, adresse, .... etc.
Si la probabilit davoir un accident
Exemple 3: Bancaire
compagnies bancaires le scoring, pour mieux cibler les propositions de prts et viter les surendettements (et donc les mauvais payeurs).
Vous tes ltranger et quelquun a vol votre carte de crdit ou votre mobile : Utiliser les donnes historiques pour construire un modle de comportement frauduleux et utiliser le data mining pour identifier des instances similaires.
Exemple4 Tlcom
compagnies tlphoniques prdiction de lattrition (usure, churn en anglais), cest-dire le changement doprateur.
Analyser les patterns qui drivent du comportement attendu (destinataire, dure, etc.)
machines travers le web. Mais seulement 0,5% des visiteurs du site deviennent clients. Lide est de stocker les squences de click des visiteurs et danalyser les caractristiques des acheteurs pour adapter le contenu du site.
Les logs des accs Web sont analyss pour
Dcouvrir les prfrences des utilisateurs Amliorer lorganisation du site Web De manire similaire Lanalyse de tous les types dinformations sur les logs Adaptation de linterface utilisateur/service
bonne exprience de surfing!
Donnes dapprentissage
Data Mining
Tche?
Type de reprsentation ?
Modles Paterns
Les donnes
Valeurs des champs des enregistrements des tables
Les mthodes
Nous ne prsentons que certaines mthodes qui
viennent complter les outils classiques que sont : les requtes SQL, les requtes analyse croise, les outils de visualisation, la statistique descriptive et l'analyse des donnes. Les mthodes choisies qui seront dtailles dans les sections suivantes sont :
un algorithme pour la segmentation, les rgles d'association, (Knime, Clementine, Tanagra) les plus proches voisins (raisonnement partir de cas), les arbres de dcision, (Knime, Tanagra, Weka) les rseaux de neurones, les algorithmes gntiques.
Il n'existe pas de mthode suprieure toutes les autres
f(Donnes, Mthodes)
Par consquent, tout jeu de donnes et tout
Les tches du DM
Classification
Elle permet de prdire si une instance de donne
Encore
Classification
et lui attribuer une classe, la classe est un champ particulier valeurs discrtes. Des exemples de tche de classification sont :
attribuer ou non un prt un client, tablir un diagnostic, accepter ou refuser un retrait dans un distributeur, attribuer un sujet principal un article de presse, ...
Estimation
consiste estimer la valeur d'un champ partir des
caractristiques d'un objet. Le champ estimer est un champ valeurs continues. L'estimation peut tre utilise dans un but de classification. Il suffit d'attribuer une classe particulire pour un intervalle de valeurs du champ estim. Des exemples de tche d'estimation sont :
noter un candidat un prt ; cette estimation peut tre utilise pour attribuer un prt (classification), par exemple, en fixant un seuil d'attribution, estimer les revenus d'un client.
Prdiction
consiste estimer une valeur future. En gnral,
les valeurs connues sont historises. On cherche prdire la valeur future d'un champ. Cette tche est proche des prcdentes. Les mthodes de classification et d'estimation peuvent tre utilises en prdiction. Des exemples de tche de prdiction sont :
prdire les valeurs futures d'actions, prdire au vu de leurs actions passes les dparts de clients.
Clustering (Segmentation)
Partitionnement logique de la base de donnes en
Rgles dassociation
Corrlations (ou relations) entre attributs (mthode
non supervise) Applications : grande distribution, gestion des stocks, web (pages visites), etc. Exemple
BD commerciale : panier de la mnagre Articles figurant dans le mme ticket de caisse Ex : achat de riz + boisson==> achat de poisson Le client qui achte de la peinture achte un pinceau Le client qui achte un tlviseur achte un magntoscope sous 5 ans.
discrets Lestimation se rfre des valeurs continues. Estimer une valeur continue qui dcrit un objet revient classer cet objet dans un ensemble partitionn en un nombre infini de classes. Exemple :
la dure de vie d un client la probabilit de rponse un mailing
lestimation mais les objets sont classs en fonction d un comportement futur prdit On ne peut vrifier la prcision de la classification ou de lestimation quaprs coup Exemple
Prdiction des clients qui vont disparatre dans les six mois. Prdiction dun volume de vente dun produit dans les mois qui suivent.
postriori un population htrogne en classes homognes La signification des clusters forms par la mthode est dcouvrir par ailleurs. Exemples :
En fonction de critres d achats d une voiture, faire une segmentation des acheteurs En fonction des notes obtenues dans les diffrentes matires, faire une segmentation des tudiants
dcouvrir et de comprendre le processus qui est lorigine de ces donnes Il sagit souvent du dmarrage dune tude o on a peu de connaissances sur le phnomne tudi. Cette description permet denchaner sur une ou plusieurs des tches prcdentes.
clients
CRM OPERATIONNEL
CRM ANALYTIQUE
Le CRM oprationnel
Objectif
gestion des campagnes marketing Composants outils interfacs avec les applications de back-office,
les progiciels de gestion intgre (ERP), les outils de workflow, de gestion des agendas et des alertes commerciales
Le CRM analytique
Objectif fournir une vision complte et unifie du client dans lentreprise et mieux comprendre son profil et ses besoins Moyens extraction, stockage, analyse et restitution des informations pertinentes Composants data warehouse data mart analyse multidimensionnelle (OLAP) data mining outils de reporting
Mais : Quel est leur profil ? Quels autres produits les intresseront ? Quand seront-ils intresss ?
profils complexes : pas seulement des oppositions jeunes/seniors , citadins/ruraux que lon pourrait deviner en ttonnant par des statistiques descriptives, mais des combinaisons plus complexes qui ne pourraient pas tre dcouvertes par hasard.
le secteur tertiaire :
les produits se ressemblent entre tablissements le prix nest pas toujours dterminant ce sont surtout le service et la relation avec le client qui font la diffrence
surfaces
pour dterminer les produits souvent achets simultanment, et agencer les rayons et organiser les promotions en consquence
Lapptence exprime le dsir dusage ou dachat ressenti par lindividu pour un produit ou une marque. Elle peut tre notamment mesure par des questions relatives aux intentions dachats. Il est galement possible de dfinir un score dapptence en appliquant une mthode de scoring un fichier qualifi. Ce score dapptence traduit une probabilit dachat plus ou moins forte.
Marketing one-to-one
Marketing traditionnel
Client anonyme Produit standard Production en srie Publicit large diffusion Communication unilatrale Ralisation dune vente, fort taux de souscription Part de march Large cible Segmentation mtier Canaux de distribution traditionnels, dconnects Marketing orient produit
Marketing 1:1
Client individualis Produit et service personnaliss Production sur mesure Message individuel Communication interactive Fidlisation du client, faible taux dattrition Part de client Niche rentable Segmentation statistique Nouveaux canaux (plates-formes tlphoniques, Internet, mobiles), interconnects Marketing orient client
Conclusion
55%
Jattends la suite pour comprendre
12.4%
Je nai pas trop compris
10.6%
Jtais absent
22%
Jai compris et jattends la suite pour confirmer
ENSA
www.itech4you.com
Agenda
Atelier 2
Appele galement recherche d'associations, l'analyse du panier de la mnagre (APM) est un processus de dcouverte de connaissances non dirige. Cette technique permet, comme l'indique son nom, d'tudier quels articles ont tendance tre achets ensembles et lesquels seront le mieux adapts pour mettre en uvre des techniques commerciales. Bien qu'elle soit issue du secteur de la distribution, on peut nanmoins appliquer cette technique ds lors que plusieurs actions sont effectues par un mme individu. Le systme gnre des rgles d'association de forme "Si action1 ou condition alors action2". Elles peuvent se situer dans le temps : "Si action1 ou condition l'instant t1 alors action2 l'instant t2". Enfin elles sont assorties d'une mtrique de confiance. Exemples de rgles: Si achat de riz et de coca, alors achat de poisson (84%) Si maladie X et traitement Y alors gurison (97%) Si maladie X et traitement Y alors gurison dans Z annes (97%) Si achat de tlviseur alors achat de magntoscope dans les 5 ans (45%) Si condition1 et condition2 alors fraudeur (62%) Si prsence et travail alors russite l'examen (99,9%)
Illustration
Exemple
Un complexe cinmatographique a dcid de fidliser son public en lanant la carte d'abonnement au cinma dit 'illimit'. Les films vus par chaque cinphile sont enregistrs dans une base de donnes a chaque fois que le client se prsente au guichet. Elle est exploite par la suite pour comprendre les attitudes de consommation du cinma, les types de films les plus prises par le public, les heures auxquelles les gens prfrent venir voir un film, etc.
Illustration
La table D est un extrait (fictif) et donne pour chaque
cinphile identifi par un numro tid, l'ensemble des films qu'il a vus durant le mois courant. Les films concerns sont donns dans la table T. Par exemple la ligne d'identificateur tid=1 de D concerne un client ayant vu dans le mois les deux films suivants : Harry Potter et Star Wars II .
Dfinitions
Frquence:
Exemple
Dans l'exemple prcdent, on a freq(ab)= 2, vu que l'itemset ab apparat dans les transactions 1 et 5 de D.
Support:
Dfinitions
Itemset frequent
Etant donne un seuil , appel support minimum, un itemset X est dit frquent (relativement a ) dans une base de transactions D, si son support dpasse un seuil fix a priori appel support minimum et note . X est frquent ssi supp(X) Exemple Dans l'exemple prcdent, pour un support de = 40%, l'itemset cd de support gal a 3/5 = 60% est frquent. ItemSet On appelle itemset tout sous-ensemble d'items de I.
Un itemset constitue de k items sera appel un k-itemset. Pour simplfier, on crira un itemset sans les accolades et sans les virgules sparant les lments de l'ensemble. Litemset {a, b, c} est un 3-itemset not abc.
Proprit
Proprit d'antimonotonicit: Tout sous-ensemble d'un itemset frquent est un itemset frquent.
Treillis
Un ensemble ordonne (T, ) est un treillis si toute paire dlments de T possde une borne inferieure et une borne suprieure. On dsignera par la suite la borne inferieure de la paire (x,y) par (x ^ y) et la borne suprieure par (x V y).
suite
12345
1245
1345
2345
123 124
125
12
13
14
15
23
24
25
34
35
45
Algorithme Apriori
Le premier algorithme dextraction de rgles dassociation
se base essentiellement sur la proprit d'antimonotonicit existant entre les itemsets. En effet, cette proprit est utilise a chaque itration de l'algorithme Apriori afin de diminuer le nombre d'itemsets candidats considrer. Afin d'optimiser la gnration d'itemsets candidats et le calcul de leurs supports, on suppose dans Apriori que les itemsets sont ordonns par ordre lexicographique
Agrawal (R.) et Srikant (R.). Fast Algorithms for Mining Association Rules . In : Proc. 20th Int. Conf. Very Large Data Bases, VLDB, ed. par Bocca (Jorge B.), Jarke (Matthias) et Zaniolo (Carlo). pp. 487-499. Morgan Kaufmann, 1994.
d'abord. Apriori effectue chaque itration k, un passage dans la base de transactions afin de calculer le support de chaque k-itemset.
l'ensemble des k-itemsets candidats (i.e. dont on ne connat
pas encore le support dans D) sera dnot par Ck et lensemble des k-itemsets frquents de taille k par Fk.
Algorithme Apriori
Agrawal (R.) et Srikant (R.). Fast Algorithms for Mining Association Rules. In : Proc. 20th Int. Conf. Very Large Data Bases, VLDB, ed. par Bocca (Jorge B.), Jarke (Matthias) et Zaniolo (Carlo). pp. 487{499. { Morgan Kaufmann, 1994.
Algorithme Apriori
Illustrations de Apriori
L'exemple ci-dessous montre le processus d'extraction des itemsets frquents sur la base de transactions D pour un support = 0.4 correspondant 2 transactions. A la premire itration de l'algorithme, chaque item de T est un 1-itemset de C1. Un premier parcours de D permet de trouver le support de chaque 1-itemset. Tous les 1-itemsets frquents, i.e. de support suprieur ou gal 0.4 seront gards dans F1. Afin de dcouvrir les 2-itemsets frquents, Apriori effectue dans la seconde itration une jointure de F1 et F1 pour trouver l'ensemble C2 des candidats de taille 2. Seuls les 2-candidats n'ayant pas de sousensembles peu frquents sont gards. Un second parcours de D est alors effectu pour dterminer le support de chacun des 2-itemsets candidats, seuls les 2-itemsets frquents sont gards dans F2. Ainsi l'itemset ad n'ayant pas de support suffisant est supprim. Les 3-itemsets sont obtenus en combinant les itemsets de F2 deux deux, i.e. par jointure F2 et F2. Seuls les 2-itemsets ayant le mme prfixe de taille 1 sont gnrs. Par exemple les 2-itemsets ab et ac forment le candidat abc. On s'assure galement que les candidats gnrs n'ont pas de sous-ensembles peu frquents. Un troisime parcours de D est alors effectue pour dterminer les 3-itemsets frquents. De nouveau, on effectue la jointure de F3 et F3 pour trouver l'ensemble C4 des candidats de taille
Illustrations de Apriori
K=1
Illustrations de Apriori
K=2
< 0,4
K=3
< 0,4
Exercice
D
La figure reprsente le rsultat dun sondage fictif ralis auprs de touristes trangers en visite Paris. Les objets correspondent des touristes anonymes (Ti) et les attributs reprsentent les lieux visits : les bateaux mouches (BM), le centre Pompidou (CP), le muse du Louvre (LO), le muse dOrsay (MO), la cathdrale Notre Dame (ND) et la tour Eiffel (TE).
tid 1 2 3 4 5 6 7 8 9 10
Transaction BM LO MO ND BM LO MO ND BM LO MO ND TE BM ND TE BM LO MO ND TE CP LO ND ND LO ND LO ND BM CP LO MO ND
1- Reprsenter les donnes sous forme horizontale, verticale et boolenne. 2- Donner les motifs frquents avec un support de = 40%.
Rgles dassociation
trs incomplte. En particulier, si AB est un items frquent, l'expert n'a aucune information sur d'ventuels liens logiques entre A et B. Les occurrences de A sont-elles souvent associes aux occurrences de B ? L'inverse ?
Imaginons que
AB et B soient vrais dans 60% des cas, mais que A le soit dans 80%. De toute vidence, B semble avoir une influence sur A dans la mesure ou ds que B est vrai, A l'est aussi. Par contre l'inverse est plutt incertain. En outre, on ne sait rien de ce qu'il se passe lorsque A et B sont faux...
Rgles dassociation
Des exemples de rgles d'association dans le
Rgles dassociation
Les rgles d'association prennent la forme si
antcdent, alors consquence associes avec une mesure du support et du seuil de confiance de la rgle
Par exemple, un supermarch peut constater que
sur mille clients qui font les courses le vendredi soir, deux cents ont achet des PC et parmi ceuxci, cinquante ont achet des imprimantes. La rgle d'association serait si on achte des PC, alors on achte des imprimantes avec un support de 50/1000 = 5 % et un seuil de confiance de 50/200 = 25 %.
Dfinitions
Rgle d'association Soit X, un itemset et A un sous-ensemble de X. Une rgle d'association est une rgle de la forme A X-A, exprimant le fait que les items de A tendent apparatre avec ceux de X-A. A s'appelle l'antcdent de la rgle et X-A not C le consquent de la rgle. Exemple La rgle d'association a b exprime le fait que les cinphiles ayant vu <Harry Potter> tendent aussi voir <Star Wars>.
Dfinitions
Confiance La confiance d'une rgle d'association A C, note conf(A C) reprsente la proportion de transactions couvrant A qui couvrent aussi C.
Remarque : 0 conf(A C) 1.
Dfinitions
Rgle d'association solide Une rgle d'association A C est dite solide si tant donn un
support minimum , l'itemset A C est frquent et si sa confiance dpasse un seuil donn, fix a priori, appel le seuil de confiance minimum not . A C est solide ssi supp(A C) et conf(A C)
l'ensemble F des itemsets frquents trouvs en phase prcdente. Pour chaque itemset frquent l, on considre tous ses sous ensembles (tous frquents d'aprs la proprit d'antimonotonicit). A partir de ces sous ensembles frquents, on gnre toutes les rgles solides de la forme gnrale suivante : (l - C)
Remarque:
La gnration de rgles d'association est beaucoup moins
coteuse que la gnration des itemsets frquents, car il n'est plus ncessaire de faire des parcours coteux de la base de transactions.
Rgles dassociation
La recherche de rgles d'association dans un grand ensemble de donnes est un processus en deux tapes :
1.
Trouver tous les ensembles d'articles frquents : en fait tous les ensembles avec une frquence d'articles suprieure la moyenne. partir des ensembles d'articles frquents, gnrer des rgles d'association qui satisfassent les conditions de support et de seuil de confiance minimum
2.
Illustration
Reprenons l'exemple prcdent, les tableaux suivants
montrent les rgles d'association gnres pour une confiance minimum = 60%. Les rgles d'association sont gnres en considrant d'abord les itemsets frquents de taille 2, puis ceux de taille 3, etc. Les itemsets frquents de taille 2, F2 ont permis de gnrer les rgles d'association du tableau1. Dans ce cas la procdure Gen-Regle n'est pas appele vu qu'on ne peut avoir plus d'un item en consquence des rgles d'association. Les itemsets frquents de taille 3, F3, a savoir l'unique itemset bcd a permis de gnrer les rgles d'association, d'abord avec un consquent a un item figurant dans le tableau 2. Les consquences de taille d'un item trouves ayant constitue des rgles solides
Illustration
Rgles d'association 2 items et 1 item comme consquence Supp(ab)/supp(a)
tableau 1
Illustration
Rgles d'association 3
consquence
tableau 2
Rgles d'association 3
consquence
tableau 3