Vous êtes sur la page 1sur 60

Abdelouahid Lyhyaoui

lyhyaoui@gmail.com

-Data Mining- ENSAT 2020-2021


CHANGEMENT DANS L’ENVIRONEMENT
DES ENTREPRISES
 Saturation des marchés
 Nouvelles stratégies de relation entre clients et
entreprises
 Changements socio-économiques
 Apparition de nouveaux compétiteurs

 Nécessité de réévaluer les méthodes traditionnelles


de négoce et la recherche d ’une réponse aux
changement dans l ’environnement des entreprises

-Data Mining- ENSAT 2020-2021


CIBLE SUR LE CLIENT

 Quel est le profil du client?


(CONCESSION DE CRÉDIT)

 Quel profil de client cibler lors d’une campagne


de marketing ? (MARKETING SEGMENTÉ)

 Quels clients sont susceptibles de réagir à une


promotion déterminée ?

 Quel est le profil des clients de longue durée ?

-Data Mining- ENSAT 2020-2021


CIBLE SUR LA CONCURRENCE

 Prédiction de nouvelles stratégies du négoce


concurrentiel
 Prédiction des mouvements tactiques de
compétition locale
 TYPES DE PROBLÈMES
 Clustering
 Classification  Séquençage
 Estimation  Prédiction
TOUS SONT DES TRAITEMENTS DE DONNEES:

DECISION ET/OU ESTIMATION


-Data Mining- ENSAT 2020-2021
OUI/NON (COMBIEN)

• Choix d’une action (ou d’une stratégie)


d’investissement

• Détection d’une opération frauduleuse

• Prédiction du changement de devises

• Prédiction de la consommation

• Estimation des bénéfices de l’opération

• Détermination du taux d’intérêt pour un prêt donné


-Data Mining- ENSAT 2020-2021
MOTIVATION INFORMATIQUE (I)

Le développement des moyens informatiques de


stockage (bases de données) et de calcul permet le
traitement et l’analyse d’ensembles de données très
volumineux.

Le perfectionnement des interfaces offre aux


utilisateurs, statisticiens ou autres, des possibilités de
mise en œuvre très simples des outils logiciels.

-Data Mining- ENSAT 2020-2021


MOTIVATION INFORMATIQUE (II)

• Le développement de nouvelles méthodes


algorithmiques (réseaux de neurones) et outils
graphiques, conduit au développement et à la
commercialisation de logiciels intégrant un sous-
ensemble de méthodes statistiques et algorithmiques
sous la terminologie de Data Mining.

-Data Mining- ENSAT 2020-2021


PRINCIPALES APPLICATIONS DU DM :
MARKETING

• Quel profil de client cibler lors d’une campagne de


marketing ?

• Quels clients sont susceptibles de réagir à une


promotion déterminée ?

• Quel est le profil des clients de longue durée ?

• Quels produits proposer en achats groupés ?

-Data Mining- ENSAT 2020-2021


PRINCIPALES APPLICATIONS DU DM :
FINANCES
•Quel est le profil des clients non rentables ?
•Quels facteur de risque associer à un demandeur de
crédit ?
•Détection d’un usage frauduleux d’une carte de crédit ?
•Quels produits financiers proposer à quels clients ?
•Quels clients risquent de clôturer prochainement leur
compte ?
•Comment détecter une déclaration de sinistre
frauduleuse ?
•Comment détecter une faillite prochaine ?
-Data Mining- ENSAT 2020-2021
PRINCIPALES APPLICATIONS DU DM :
TÉLÉCOMMUNICATIONS

•Quels clients sont susceptibles de nous quitter ?

•Quel est le profil des clients très rentables, et des


clients pas ou peu rentables ?
•Quels produits offrir à quels clients ?
•Comment détecter si une carte a été volée en
fonction de son utilisation ?
•Quel est le profil des clients avec abonnement ?
•Quel est le profil des clients non rentables ?
-Data Mining- ENSAT 2020-2021
PRINCIPALES APPLICATIONS DU DM :
INDUSTRIE (I)
 Gestion de la chaîne d'approvisionnement

• Le SCM est l’intégration des processus


opérationnels clés depuis l’utilisateur final jusqu’aux
fournisseurs originaux de produits, de services et
d’informations qui apportent une valeur ajoutée aux
clients et aux autres parties prenantes.

-Data Mining- ENSAT 2020-2021


PRINCIPALES APPLICATIONS DU DM :
INDUSTRIE (II)

1. La gestion des flux de production


2. Le traitement des commandes
3. La gestion de la demande
4. La gestion de la relation fournisseur
5. Le développement de produits et la commercialisation
6. La gestion des retours
7. La gestion du service client
8. La gestion de la relation client
-Data Mining- ENSAT 2020-2021
PRINCIPALES APPLICATIONS DU DM :
INDUSTRIE (II)

 Robotique
• Assemblage (reconnaissance de pièces)
• Contrôle de qualité
• Véhicule autonome etc.

-Data Mining- ENSAT 2020-2021


Comment sont les problèmes de décision?

Nationalité :X1
Age :X2
Revenus :X3
Oui-Non?
....

-Data Mining- ENSAT 2020-2021


VISION ANALYTIQUE

H1
D1

Observation z “Decideur”
D0
H0
Données Décision

-Data Mining- ENSAT 2020-2021


¿Comment sont les problèmes d’estimation?

Prédiction de la bourse:

? ?

Hier Aujourd'hui Demain

-Data Mining- ENSAT 2020-2021


VISION ANALYTIQUE

x z Estimateur x
Observation

Données Estimation
Valeur à estimer

-Data Mining- ENSAT 2020-2021


Machine de décision

En général
oi
zi
F(zi) (i:indique les échantillons)

Et on force

1, si H1
oi = ci =  Entraînement supervisé
0, si H 0 (ou − 1)

En minimisant un certain coût C(o,c) qui mesure ce qui


rapproche o de c, en modifiant les paramètres de la machine w.

-Data Mining- ENSAT 2020-2021


EXEMPLE: Classification entre deux types de poissons
les Bars et les Saumons
• Prétraitement:
– Restauration de l’image prise par la
caméra
– Segmentation
• Extraction de caractéristiques:
– Pour réduire la quantité de données
(1024 x 1024 x 8 bits)
– Propriétés de l’objet qui serviront à la
classification

• Classification:
– Algorithme qui va évaluer les évidences qui lui sont
présentées et prendra une décision finale

-Data Mining- ENSAT 2020-2021


• Modèle (hypothèse): les bars sont généralement plus longs
que les saumons.
• Caractéristique: longueur
• Choix de l* :Ensemble d’entraînement, seuil l* à partir de
l’histogramme de la longueur des poissons
• l* plutôt mauvais car chevauchement trop important

-Data Mining- ENSAT 2020-2021


• Modèle (hypothèse): les bars sont généralement plus clairs
que les saumons.

• Caractéristique: luminosité

• Ensemble d’entraînement:
seuil x* à partir de
l’histogramme de La
luminescence des poissons

• x* plus satisfaisant qui minimise l’erreur (coût)


• Si les consommateurs acceptent sans trop de problèmes de
retrouver dans une boîte de bar un peu de saumon l’inverse
n’est pas vrai!
Alors…
-Data Mining- ENSAT 2020-2021
• Peut-on améliorer les
résultats avec plus
d’une
caractéristique?

• Le seuil devient une


courbe!
• Ex.: La droite qui
minimise le coût (erreur)

• Si on ajoute d’autres caractéristiques est-ce qu’on peut


encore améliorer?
• À l’infini? (malédiction de la dimensionnalité)
-Data Mining- ENSAT 2020-2021
• Pourquoi ne pas
adopter un modèle
(courbe) plus
complexe?
• Erreur = 0 sur
l’ensemble
d’entraînement

• Quelle sera l’erreur pour de nouveaux tests (poissons)?

• Généralisation

-Data Mining- ENSAT 2020-2021


• Le modèle
préférable
est peut-être un
compromis entre
les
deux précédents?

• Même s’il n’est pas le meilleur pour l’ensemble


d’entraînement?

• Comment prédire lequel se comportera le mieux en


situation réelle?

-Data Mining- ENSAT 2020-2021


• La réponse à ces questions nous sera fourni par la RF
statistique qui est basée sur la solide théorie des statistiques.
• Les réseaux de neurones sont intimement liés à la RF
statistique et peuvent être considérés comme descendants.

• La RF syntaxique est différente et basée sur des règles (ou


une grammaire) claires donc pas de floue ou de variations
aléatoires.

-Data Mining- ENSAT 2020-2021


Les différents modules d’un système de RF (1)
• Le transducteur permet d’acquérir
les données brutes.
– Camera, microphone,
capteur
– Ses caractéristique et
limitations: largeur de
bande, S/B, distorsion,
résolution, sensibilité, latence
(temps de réponse)…vont
influencer la difficulté de la RF
• La segmentation permet d’isoler les
objets à reconnaître
– par ex. les poissons présents dans
une image et ce même s’ils se
touchent ou se recouvrent
partiellement.
-Data Mining- ENSAT 2020-2021
Les différents modules d’un système de RF (2)
• La phase d’extraction des
caractéristiques consiste à calculer un
ensemble de mesures permettant de
représenter chaque classe de
façon aussi unique que possible
– Par ex. longueurs, largeurs,
luminosité,
couleur, texture, paramètre
morphologiques (angle des
nageoires,
distance entre les yeux)
– L’invariance des mesures en fonction
de la translation, de la rotation et du
changement d’échelle est souvent
souhaitable puisque ces
transformations
-Data Mining- ENSAT 2020-2021
• La classification permet d’associer une
classe à chaque objet traité
– Saumons vs. Bars
– Ajustement lorsque certaines
caractéristiques ne sont pas disponibles
– Ajustement en fonction du contexte
* Un objet sur une route
– automobile
* Un objet sur un lac
– bateau

• Enfin le post-traitement
– Minimiser le taux d’erreur
– Minimiser le risque (coût, préférence pour le saumon )
– Utilisation de plusieurs classificateurs (super-classificateur)

-Data Mining- ENSAT 2020-2021


Les étapes à suivre pour la construction d’un système de RF (1)

• Acquérir les données


– Souvent une partie importante de la
réalisation du système
– Combien?
– Imagerie médicale (éthique)

Choix des caractéristiques


– Connaissances a priori (luminosité
ou
longueur des poissons)
– Simples à extraire (segmentation)
– Invariantes
– Robustes au bruit
– Caractérisent bien chacune des classes (variance intra-classe
faible)
tout en les séparant bien (variance inter-classe élevée)
-Data Mining- ENSAT 2020-2021
Les étapes à suivre pour la construction d’un système de RF (2)

• Choix de l’algorithme de classification


– Simplicité, performance

• Entraînement du classificateur
– Apprentissage par l’exemple a
fait
ses preuves depuis 30 ans
– Non nécessaire lorsque non-
supervisé

• Évaluation des performances


– Une, deux ou plusieurs caractéristiques?
– Généralisation adéquate ou « overfitting »
-Data Mining- ENSAT 2020-2021
EXEMPLE

Entreprise : banque

Activité : prêts hypothécaires

Problème : accepter ou refuser une demande de crédit ?

Solution actuelle : évaluation de la solvabilité du client sur base de


critères définis par des gestionnaires expérimentés

-Data Mining- ENSAT 2020-2021


SOLUTION : DATA MINING

Analyser les données historiques : solvabilité observée


lors des anciens crédits

crédits modèle demandes


anciens de crédit

pour prévoir la solvabilité des demandeurs de crédit

-Data Mining- ENSAT 2020-2021


DONNÉES HISTORIQUES

montant_c tx_crédit profession état_civil revenus solvabilité

1000000 9.5% enseignant M 980000 O

2000000 7.4% employé M 1080000 N


2500000 8.1% ouvrier C 1200000 O
2200000 5.3% cadre M 1600000 O
3000000 8.1% ouvrier M 1500000 N
1900000 6.1% prof.libér. D 2100000 O
4200000 6.9% cadre M 1800000 O

-Data Mining- ENSAT 2020-2021


APPLICATION DU MODÈLE
AUX NOUVELLES DONNÉES

montant_c tx_crédit profession état_civil revenus solvabilité

2100000 7.2% employé C 1200000


1900000 7.4% employé M 1170000
3300000 6.9% prof.lib. C 1900000
1700000 7.00% cadre M 2050000
3100000 7.3% ouvrier M 1200000
2400000 6.9% fonction. M 1100000
4000000 7.1% cadre M 1900000

-Data Mining- ENSAT 2020-2021


DATA MINING (FOUILLE DE DONNÉES)

Définition

Le Data Mining combine les techniques


d’intelligence artificielle, d’analyse statistique,
de base de données et celles de la visualisation
graphique en vue d’obtenir de l’information
qui n’est pas explicitement représentée dans
les données et susceptible d’être plus
profitable que les données de départ.

-Data Mining- ENSAT 2020-2021


QU’ ENGLOBE LE CONCEPT DE DATA MINING?

 Applications:
•Segmentation du marché
•Rétention de clients •Détection de fraude
 Opérations
•Classification et prédiction
•Clustering •Analyse d’associations

 Techniques et algorithmes
•Réseaux de neurones artificielles
•Arbre de décision •Analyse clustering

-Data Mining- ENSAT 2020-2021


ETAPES DE DATA MINING
 Détermination de l ’objectif

 Préparation des données

•Sélection des données


• Pré-traitement des données
• Transformation des données

 Application des modèles prédictifs

 Analyse des résultats et assimilation des


connaissances

-Data Mining- ENSAT 2020-2021


DIAGRAMME DE FLUX GÉNÉRAL

Données Sélection Nettoyage Emmagasinement

BASE

Information Traitement Codage Pré-traitement

Interprétation Application Evaluation

Réinterprétation

CONAISSANCES
-Data Mining- ENSAT 2020-2021
L’organisation du Flux d’informations et les acteurs

-Data Mining- ENSAT 2020-2021


TÉCHNIQUES ET ALGORITHMES DU
DATA MINING
(Modèles Prédictifs)

-Data Mining- ENSAT 2020-2021


ARBRES DE DECISION

On part de l’ensemble des échantillons et on les divise


pour le test
noeud
r1
1 (test 1)
r2
terminal noeud (test 2)
1 r1 2
r2
(classe 1)
terminal terminal
2 3
(classe 2) (classe 1)

-Data Mining- ENSAT 2020-2021


ARBRES DE DECISION (EXEMPLE)

Versements mens.
<1230 >=1230
solde moy. j. bon : 79%
mauvais : 21%
>420 <160
160-420
bon : 94% bon :58% nbre chèques sans prov.
mauvais : 6% mauvais : 42% >1
0-1

bon : 55% bon :21%


mauvais : 45% mauvais : 79%

-Data Mining- ENSAT 2020-2021


ARBRES DE DECISION

•Sont efficaces en temps d’exécution

•Offre une méthode intuitive pour l’analyse des résultats

•Mais tendent à se fragmenter

•Mauvaise généralisation ( surtout avec des variables


continues)
•Difficultés concernant les versions adaptatives

-Data Mining- ENSAT 2020-2021


REGLES

Se construisent (analogiquement) des règles type

si X∧(Y∨Z) ═► alors C

Problèmes

•Elles sont de construction difficile


•Mauvaise généralisation
•Difficultés concernant les versions
adaptatives

-Data Mining- ENSAT 2020-2021


RÉSEAUX DE NEURONES

Une des possibles systèmes de décision et d’estimation

Exemple MLP : Perceptron multi-couches

Sont : th
•Puissants +
•Versatiles th th
•Distribués robustes + +
Mais sont :

•d’entraînement difficile et lent


•Et difficiles à analyser z

-Data Mining- ENSAT 2020-2021


LES RÉSEAUX DE NEURONES

•Ne requièrent pas d’hypothèses « a priori »

•Extraient l’information présente dans les données

•Rapprochent de façon efficace les optima

•Peuvent aisément s’actualiser et s’améliorer

•Ne se saturent pas avec des données massives

-Data Mining- ENSAT 2020-2021


LES RÉSEAUX DE NEURONES

Mais nécessitent un modèle conceptuel professionnel

• SONT DIFICILES D ’INTERPRETER

En tout cas :

•Vaut-il mieux vendre ou comprendre totalement les


ventes ?
•Vaut-il mieux retenir ou comprendre totalement les
abonnés ?

-Data Mining- ENSAT 2020-2021


APLICATIONES DU DATA
MINING

-Data Mining- ENSAT 2020-2021


SEGMENTATION DE CLIENTS
 L’évolution actuelle du marché exige le passage du
marketing de masses à celui dirigé aux groupes de
clients.
 La segmentation du marché consiste en une division
du marché en groupes de clients intéressés par les
mêmes produits

 Divers critères sont possibles pour réaliser la


segmentation :
• Géographique
• Démographique

-Data Mining- ENSAT 2020-2021


Exemple

L’entreprise “Safeway” est une des grandes chaînes


de ventes de produits dans le UK.
 Facture 7 billonnes de £ chaque année

 Possède 70.000 employés

 Opère a travers 500 magasins

 Son rang de produits est de l’ordre de 250.

 Elle augmente continuellement le nombre de magasins.

-Data Mining- ENSAT 2020-2021


Un des domaines d’intérêt dans l’entreprise est la
segmentation des clients. L’information reçue des
différents groupes de clients est utilisée pour
diriger les promotions selon les nécessités de
chaque groupe.

 Intérêt particulier pour les jeunes familles.

 L’entreprise envois chaque année12 millions de


courriers.

 Le département TI a construit une base de donnée


qui reçoit 8 millions de transactions par semaine.

-Data Mining- ENSAT 2020-2021


Bénéfices

 La structure du département de Marketing se base


sur les résultats de data mining.

 Le data mining permet à l’entreprise de mieux


identifier les clients.

Le data mining utilise l’information relative aux


compagnes de marketing antérieures pour une
optimisation dans la gestion des compagnes.

-Data Mining- ENSAT 2020-2021


“CREDIT SCORING”
Base de données des clients d’une entité financière

268 Clients non solvables


 340 Clients solvables
608 registres de clients

les attributs pour la classification

-  solde actuel -  les dernières fiches de paie


-  ensemble des crédits -  revenu du prêt
-  délai du prêt -  l’état civil
-  l’âge

-Data Mining- ENSAT 2020-2021


RÉSULTATS

NON SOLV. SOLV.

AUTRE 80,3% 89,2%

MLP 88,5% 96,9%

-Data Mining- ENSAT 2020-2021


“CROSS-SELLING” (Ventes Croisées)
 vendre à son propre client s’avère 5 à 10 fois moins
coûteux que le faire à un nouveau client
Diriger la vente de nouveaux produits ou services à
ses propres clients

En se basant sur les services acquis par le client :

- Comment peut-on identifier lequel des autres services


pouvant intéresser le client ?

- Parmi ces clients, lesquels sont les meilleurs candidats


pour acheter un produit donné ?

-Data Mining- ENSAT 2020-2021


Exemple « Mellon bank Corporation » EU

 Cette banque se pose le problème d’assurer une


vente croisée efficace de ses services à ses propres
clients

-Data Mining- ENSAT 2020-2021


Etapes à suivre
Préparation des données
 Multitude de sources de données (historiques
bancaires, données démographiques, donnée de la
propriété etc.
 Manque (trous) d’information dans les données
 Nécessité de restructurer certaines des données
 Sensibilité de certaines variables sélectionnées
Mining:
 Utilisation de modèles prédictifs (réseaux RBF)

-Data Mining- ENSAT 2020-2021


(40000 cas)

Reste de clients
(250000 cas)
Clients ayant demandé un
prêt hypothécaire

-Data Mining- ENSAT 2020-2021


avec Data mining
Sans Data mining

Nombre d ’annonces envoyées par courrier

-Data Mining- ENSAT 2020-2021


CONCLUSIONS

• Il y a des outils suffisamment puissants


pour obtenir une information fiable et de
valeur
• Il faut vouloir (et savoir) l’utiliser.

-Data Mining- ENSAT 2020-2021

Vous aimerez peut-être aussi