Vous êtes sur la page 1sur 30

Université de Tunis

Ecole Supérieure des Sciences Economiques et


Commerciales

Introduction à la fouille de données

1
Exemple introductif: demande de
crédit bancaire

• divorcé
• 5 enfants à charge
• chômeur
• compte à découvert

2
Expérience de l’entreprise:
ses clients et leur comportement

• couteuse en stockage
• inexploitée

Comment et à quelles fins utiliser cette expérience accumulée ?

Fouille de données

3
Définition de la fouille de données

La fouille de données ou l’extraction des connaissances à partir des données (ECD)


respectivement en anglais data mining (DM) ou knowledge discovery in databases (KDD)

C’est l’ensemble des méthodes et techniques destinées

➢ à l’exploration et l’analyse

➢ de (grandes) bases de données de façon automatique ou semi automatique


➢ en vue de détecter dans ces données des règles, des associations, des tendances
inconnues ou cachées, des structures particulières restituant l’essentiel de l’information
utile
➢ pour aider à la prise de décisions

Le DM est l’art d’extraire des informations ou même des connaissances à partir4 des
données
Définition de la fouille de données (suite)
Les règles à trouver sont du genre:

• Les clients ayant tel profil achètent tel type de produit

• Les clients ayant tel profil arrivent plus souvent au contentieux

• Les acheteurs de couches pour bébés dans un supermarché le samedi après 18 heures sont
souvent aussi acheteurs de bières

• Les clients ayant acquis le produit A et le produit B acquièrent plus souvent le produit C,
en même temps ou n mois plus tard

• Les clients ayant tels comportement, qui n’ont pas acheté tels produits dans tel intervalle
de temps, risquent de nous quitter pour la concurrence

On voit dans les deux derniers exemples : il nous faut un historique des données relatives à
chaque client.
5
Le DM est un élément clé de la gestion de la relation client et du marketing one-to-one
Domaines d’application du DM

6
Domaines d’application du DM (1)
Activité commerciales : grandes distribution, vente par correspondance, banque, assurance
• Segmentation de la clientèle
• Détermination du profil du consommateur (pour mieux le servir, pour augmenter sa
satisfaction, pour augmenter sa fidélité) car il est plus coûteux d’acquérir un client que
le conserver
• Analyse du panier de la ménagère
• Mise au point de stratégies de rétention de la clientèle
• Prédiction des ventes
• Détection des fraudes au niveau des banques et des assurances
• Identification des clients à risque
• Connaissance du client est encore plus utile dans le secteur tertiaire:
les produits se ressemblent entre établissements et le prix n’est pas toujours déterminant
7
ce sont surtout le service et la relation avec le client qui font la différence
Domaines d’application du DM (2)

• Activités Scientifiques :
• Diagnostic médical
• Santé publique
• Etude du génome
• Exploitation de données astronomiques

• Activités Industrielles :
• détection et diagnostic des pannes et des défauts
•Analyse des flux dans les réseaux de distribution

8
Quelques types de score

Score d’appétence → prédire l’achat d’un produit ou service

Score de (comportement) risque → prédire les impayés ou la fraude

Score d’octroi → prédire en temps réel les impayés

Score d’attrition → prédire le départ du client vers un concurrent

Remarques:

1. L'appétence exprime le désir d'usage ou d'achat ressenti par l'individu pour un produit ou une
marque ou sa probabilité d'achat.

2. L’attrition est le phénomène de perte de clientèle ou d’abonnés.


Le phénomène d’attrition est généralement mesuré par le taux d’attrition.

9
Exemples commerciaux

Vente Par Correspondance

➢ utilise depuis longtemps des scores d’appétence pour optimiser ses ciblages et en
réduire les coûts des centaines de millions de documents envoyés par an,

e-commerce

➢ personnalisation des pages du site web de l’entreprise, en fonction du profil de


chaque internaute,
➢ optimisation de la navigation sur un site web,

10
Data Mining vs informatique décisionnelle

11
Data Mining vs informatique
décisionnelle (suite)
L’informatique décisionnelle (… BI pour Business Intelligence) :
• moyens, outils et méthodes permettant de collecter, consolider, modéliser et restituer les données d'une
entreprise
• en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'une entreprise
d’avoir une vue d’ensemble de l’activité traitée.
La BI permet de :
• Sélectionner les données (par rapport à un sujet et/ou une période)
• Trier, regrouper ou répartir ces données selon certains critères
• Élaborer des calculs récapitulatifs « simples » (totaux, moyennes
conditionnelles, etc.)
• Présenter les résultats de manière synthétique (graphique et/ou tableaux de
bord) REPORTING

Le Data Mining est proche de ce cadre, mais il introduit une dimension supplémentaire qui est la modélisation
« exploratoire » (détection des liens de
cause à effet, validation de leur reproductibilité)
12
Processus de fouille de données

13
Processus de fouille de données (suite)

→ Définition des objectifs

choix ou définition
• du sujet à étudier (exemple : quel est le profil des clients ayant acheté un
produit donné)
• de la population cible (les prospects et les clients ou les clients uniquement,
tous les malades ou seulement les malades curables par traitement testé…)
• définir l’entité statistique étudiée ( la personne, le foyer réduit aux conjoints, le
foyer)
• de certains critères essentiels et en particulier le phénomène à prédire, planifier
le projet et spécifier les résultats attendus
14
Processus de fouille de données (suite)

→ Sélection des données

• Obtention des données en accord avec les objectifs que l'on s'impose.
• Ces données proviennent
• d'entrepôts de données
• bases de données relationnelles
• fichiers plats
• etc.

15
Processus de fouille de données (suite)
→ Préparation des données
Il s’agit en fait de nettoyer les données. Une fois le projet bien défini et précis, les
données doivent être les plus adaptées possibles. Il faut :
• enlever les erreurs et les doublons,
• contrôler le domaine des valeurs,
• compléter les informations manquantes
- ignorer l’observation,
- utiliser une valeur moyenne,
- utiliser la valeur moyenne pour les exemples d’une même classe,
- utiliser la régression
• coder et normaliser les données.
- agrégation (somme, moyenne)
- discrétisation (rendre discrète une variable continue)
- uniformisation d’échelle ou standardisation 16

-Construction de nouvelles variables


Processus de fouille de données (suite)
→Data mining
La fouille de données est le cœur du processus car elle permet d'extraire de l'information
des données. C'est une étape difficile à mettre en œuvre, coûteuse et dont les résultats
doivent être interprétés et relativisés. Une approche traditionnelle pour découvrir ou
expliquer un phénomène est de
1. regarder, explorer,
2. établir un modèle ou une hypothèse,
3. essayer de le contredire ou le vérifier comme en 1 ; recommencer le point 2
jusqu'à obtenir une réponse de qualité satisfaisante

17
Processus de fouille de données (suite)

→Data mining (suite)

la qualité du modèle obtenu se mesure selon les critères suivants :


•Rapide à créer ;
•rapide à utiliser ;
•compréhensible pour l'utilisateur ;
•les performances sont bonnes ; Le modèle est fiable ;
•les performances ne se dégradent pas dans le temps ;
•Il évolue facilement.

18
Processus de fouille de données (suite)

→interprétation et validation

Interpréter un modèle revient à lui trouver une explication. Les méthodes de validation
vont déprendre de la nature de la tâche et du problème considéré. Nous distinguerons deux
modes de validation : statistique et/ou par expertise.

ensemble d’apprentissage
Validation statistique par le test
ensemble de test

Construction d’un modèle sur l’ensemble d’apprentissage et test du modèle sur le jeu de
test pour lequel les résultats sont connus

19
Les classes des techniques de DM
Il existe sept classes de techniques de DM. Chaque classe est composée d’un
ensemble d’algorithmes permettant d’extraire à partir d’un grand volume de données
des relations pertinentes. Ces classes sont :

La classification

Le clustering

L’association

Les modèles séquentiels

La régression

La prévision

D’autres techniques 20

20
Les classes des techniques de DM
(suite)
La classification

permet de définir les caractéristiques de certains groupes (tels que les clients qu’a
perdu une entreprise). Ces méthodes permettent de prédire l’appartenance d’une
instance de données à des classes déjà connues. On veut par exemple savoir si la
journée de demain sera « pluvieuse » ou « ensoleillée ». Parmi les techniques de
classification on trouve les arbres de décision et les réseaux de neurones artificiels.

21
Les classes des techniques de DM
(suite)
Exemple de techniques de classification

22
Les classes des techniques de DM
(suite)

Le clustering ou la segmentation

permet l’identification de groupes d’éléments partageant certaines caractéristiques


(dans ce cas les classes ne sont pas prédéfinies). Les approches de clustering
peuvent résoudre les problèmes de segmentation. Les algorithmes de clustering
peuvent être utilisés pour l’identification des classes de clients ayant de besoins
donné.

23
Les classes des techniques de DM
(suite)
Exemple de techniques de segmentation

Algorithme des k-means

24
Les classes des techniques de DM
(suite)

Les règles d’association


identifie des relations entre les évènements qui surviennent en même temps. Les approches
d’association s’attaquent à des classes de problèmes tels que l’analyse du panier de la
ménagère. Dans ce cas on essaye de répondre à la question suivante « Quels sont les produits
qui sont achetés ensembles » quel est le degré de fiabilité de ces réponses. Dans ce cas, il y a
utilisation des méthodes statistiques.
Exemple de règle: si pizza alors coca

Les modèles séquentiels


similaire à l’association sauf que les relations ont lieu sur une période de temps (par exemple
les visites répétée au supermarché, …) 25
Les classes des techniques de DM
(suite)

La régression

utilisée pour effectuer des prédictions. La régression utilise les données pour générer une
prévision. Les techniques utilisées peuvent être linéaires ou non linéaires. L’objectif
consiste à trouver, dans un premier temps, des variables explicatives dont dépend un
phénomène donné appelé variable expliquée et ensuite à calculer les coefficients de
dépendance.

26
Les classes des techniques de DM
(suite)

observation

Droite de régression
Y= aX+b

27
Les classes des techniques de DM
(suite)

La prévision
Il s’agit là de prévoir les valeurs futures d’un phénomène sur la base de ses
valeurs antérieures (on parle de prévision de la demande). Il s’agit là d’une
autre forme d’estimation où on utilise les méthodes statistiques des séries
temporelles.
D’autres modèles
ils sont essentiellement basées sur des méthodes avancées d’intelligence
artificielle. Elles incluent le raisonnement à base de cas, la logique floue, les
algorithmes génétiques.
28
Les classes des techniques de DM
(suite)

29
Xt+1= a Xt+ b
Apprentissage supervisé vs techniques
Apprentissage non supervisé

Apprentissage non supervisé ou apprentissage automatique


La segmentation, les règles d’association sont des tâches non supervisées où la
fouille de données n’a pas un objectif à priori.
→ DM explicatif ou descriptif (on cherche plus à expliquer les relations entre les
variables sans disposer d’une variable dépendante)

Apprentissage supervisé
La classification, la prévision sont des tâches supervisées.
→ DM Prédictif (on dispose d’une variable dépendante à prédire ou à estimer )

30

Vous aimerez peut-être aussi