Vous êtes sur la page 1sur 38

DATA MINING

EL HARRAK Mohammad
FS Tétouan, UAE
harrakmed@gmail,com

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
PLAN
 Panorama du data mining
 Déroulement d’une étude de data mining
 Exploration et la préparation des données
 Utilisation des données commerciales
 Logiciels de statistique et data mining
 Aperçu sur les techniques de data mining
 Analyse factorielle
 Réseaux de neurones
 Techniques de classification automatique
 Recherche d’associations
 Techniques de classement et de prédiction
 Application du data mining : le scoring
 Facteurs de succès d’un projet de data mining
 Text mining
 Web mining

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
PLAN
 Panorama du data mining
 Déroulement d’une étude de data mining
 Exploration et la préparation des données
 Utilisation des données commerciales
 Logiciels de statistique et data mining
 Aperçu sur les techniques de data mining
 Analyse factorielle
 Réseaux de neurones
 Techniques de classification automatique
 Recherche d’associations
 Techniques de classement et de prédiction
 Application du data mining : le scoring
 Facteurs de succès d’un projet de data mining
 Text mining
 Web mining

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Qu’est-ce que le data mining ?

Le Data Mining est une composante essentielle des technologies Big

Panorama du data Mining


Data et des techniques d’analyse de données volumineuses. Il s’agit là de la
source des Big Data Analytics, des analyses prédictives et de l’exploitation des
données.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Qu’est-ce que le data mining ?

Forage de données, explorations de données ou fouilles de données, ce sont les

Panorama du data Mining


traductions possibles du data mining en Français.
En règle générale, le terme Data Mining désigne l’analyse de données depuis
différentes perspectives et le fait de transformer ces données en informations
utiles, en établissant des relations entre les données ou en repérant des
patterns.
Ces informations peuvent ensuite être utilisées par les entreprises pour
augmenter un chiffre d’affaires ou pour réduire des coûts. Elles peuvent
également servir à mieux comprendre une clientèle afin d’établir de meilleures
stratégies marketing.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Qu’est ce qu’un data mining ?

Les logiciels Data Mining font partie des outils analytiques utilisés pour l’analyse

Panorama du data Mining


de données. Ils permettent aux utilisateurs d’analyser des données sous
différents angles, de les catégoriser, et de résumer les relations identifiées.
Techniquement, le Data Mining est le procédé permettant de trouver des
corrélations ou des patterns entre de nombreuses bases de données
relationnelles.
Le Data Mining repose sur des algorithmes complexes et sophistiqués
permettant de segmenter les données et d’évaluer les probabilités futures. Le
Data Mining est également surnommé Knowledge Discovery in Data (Data mining
traduction ? La découverte de savoir dans les données).

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Une évolution technologique naturelle

Le terme Data Mining est relativement récent, mais la technologie ne l’est pas.
Depuis des années, les entreprises utilisent de puissants ordinateurs pour traiter les

Panorama du data Mining


larges volumes de données accumulés par les scanners des supermarchés et pour
analyser les rapports de recherches sur les marchés.
De même, les innovations continuelles dans les domaines du calcul informatique,
du stockage, et des logiciels statistiques augmentent fortement la précision des
analyses et dirigent la réduction des coûts.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Données, informations et savoir dans le Data Mining

 Données

Panorama du data Mining


Les données sont des faits, des nombres, ou des textes pouvant être traités par un
ordinateur. Aujourd’hui, les entreprises accumulent de vastes quantités de données
sous différents formats, dans différentes quantités de données. Parmi ces données, on
distingue :
 Les données opérationnelles ou transactionnelles telles que les données de ventes,
de coûts, d’inventaire, de tickets de caisse ou de comptabilité.
 Les données non opérationnelles, telles que les ventes industrielles, les données
prévisionnelles, les données macro-économiques.
 Les métadonnées, à savoir les données concernant les données elles-mêmes, telles
que les définitions d’un dictionnaire de données.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Données, informations et savoir dans le Data Mining

 Informations

Panorama du data Mining


Les patterns, associations et relations entre toutes ces données permettent
d’obtenir des informations. Par exemple, l’analyse des données de transaction
d’un point de vente permet de recueillir des informations sur les produits qui se
vendent, et à quel moment ont lieu ces ventes.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Données, informations et savoir dans le Data Mining

 Savoir

Panorama du data Mining


Les informations peuvent être converties en savoir à propos de patterns
historiques ou des tendances futures.
Par exemple, l’information sur les ventes au détail d’un supermarché peut être
analysée dans le cadre d’efforts promotionnels, pour acquérir un savoir au sujet des
comportements d’acheteurs. Ainsi, un producteur ou un retailler peut déterminer
quels produits doivent faire l’objet d’une promotion à l’aide du Data Mining.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Qu’est ce que un Data Warehouse ?

Un data warehouse (DW) est une base de données construite par copie et

Panorama du data Mining


réorganisation de multiples sources (dont principalement le système transactionnel de
l'entreprise), afin de servir de source de données à des applications décisionnelles :
 il agrège de nombreuses données de l'entreprise (intégration) ;
 il mémorise les données dans le temps (historisation) ;
 il les organise pour faciliter les requêtes de prise de décision (optimisation).

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Qu’est ce que un Data Warehouse ?

Les importantes avancées en termes de collecte de données, de puissance de calcul, de


transmission de données, et de capacités de stockage permettent aux entreprises

Panorama du data Mining


d’intégrer bases de données au sein de Data Warehouses.
Le Data Warehousing est le procédé de centraliser la gestion et la recherche de
données.
Grâce à une Data Warehouse, les entreprises peuvent diviser les données en segments
d’utilisateurs précis, afin de les analyser en détail. Les analystes peuvent également
commencer par le type de données qu’ils souhaitent utiliser puis créer une warehouse à
partir de ces données.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Qu’est ce que un Data Warehouse ?

Tout comme le Data Mining, le terme de Data Warehousing est relativement

Panorama du data Mining


nouveau, tandis que le concept en lui-même existe depuis des années. Le Data
Warehousing représente une vision idéale d’un répertoire central de données
maintenu en permanence. Cette centralisation est nécessaire pour maximiser l’accès
des utilisateurs et l’analyse.
Grâce aux grandes avancées technologiques, cette vision utopique est devenue une
réalité pour beaucoup d’entreprises. De même, les avancées dans le domaine des
logiciels analytiques permettent aux utilisateurs d’accéder librement aux données.
C’est sur ces logiciels analytiques que repose le Data Mining.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Les méthodes de Data Mining

On dénombre cinq variétés du Data Mining :


 Association: chercher des patterns au sein desquelles un événement est lié à un

Panorama du data Mining


autre événement.
 Analyse de séquence: chercher des patterns au sein desquelles un événement
mène à un autre événement plus tardif.
 Classification : chercher de nouvelles patterns, quitte à changer la façon dont les
données sont organisées.
 Clustering: trouver et documenter visuellement des groupes de faits
précédemment inconnus.
 Prédiction: découvrir des patterns de données pouvant mener à des prédictions
raisonnables sur le futur. Ce type de data mining est aussi connu sous le
nom d’analyse prédictive.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

À quoi sert le Data Mining dans le marketing ?

Le Data Mining est actuellement principalement utilisé par les entreprises


focalisées sur les consommateurs, dans les secteurs du retail, de la finance, de la

Panorama du data Mining


communication, ou du data mining marketing.
Les techniques de Data Mining sont également utilisées dans différents secteurs
de recherche, tels que les mathématiques, la cybernétique ou la génétique.
Le Web Mining, utilisé dans le domaine de la gestion de relation client, vise à
identifier des patterns de comportement des utilisateurs au sein des vastes quantités de
données rassemblées par un site web.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❶ The Beer store

Panorama du data Mining


À titre d’exemple, une chaîne d’épiceries du Midwest s’est servie des logiciels de Data
Mining d’Oracle pour analyser les modèles d’achats locaux. L’enseigne à découvert que,
lorsque les hommes achètent des couches le jeudi et le samedi, ils ont également
tendance à s’acheter des bières.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❶ The Beer store

Panorama du data Mining


Une analyse approfondie a également démontré que ces clients font habituellement leurs
courses hebdomadaires le samedi. Le jeudi, ils se contentent d’acheter quelques articles
seulement. La chaîne en a conclu que les clients achètent leurs bières pour qu’elles soient
prêtes pour le weekend.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❶ The Beer store

Panorama du data Mining


Cette nouvelle information découverte a pu être utilisée de différentes façons pour
augmenter le chiffre d’affaires. Par exemple, le rayon bière a été déplacé plus près du
rayon couches. De même, le retailer s’est assuré que les bières et les couches ne seraient
plus soldées le jeudi.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❷ Blockbuster

Panorama du data Mining


Blockbuster Entertainment mine sa base de données historique de location de vidéos
pour recommander des films à des clients individuels. De même, American Express peut
suggérer des produits à ses clients en se basant sur leurs dépenses mensuelles.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❸ WALMRT DATA

Le géant WalMart se place en précurseur du Data Mining massif pour transformer ses

Panorama du data Mining


relations avec les fournisseurs.

WalMart collecte des données transactionnelles depuis 2900 boutiques dans 6 pays
différents, et transmet ces données en continu vers sa Data Warehouse 7,5 terabyte
fournie par Teradata.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❸ WALMRT DATA

Plus de 3500 fournisseurs de WalMart peuvent accéder aux données relatives à leurs

Panorama du data Mining


produits et effectuer des analyses de données.
Ces fournisseurs utilisent les données pour identifier les patterns d’achat des clients à
l’échelle du magasin. Ils utilisent l’information pour gérer les inventaires des magasins
locaux et identifier de nouvelles opportunités. En 1995, les ordinateurs de WalMart ont
traité près d’un million de requêtes de données complexes.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❹ NBA

Panorama du data Mining


La National Basketball Association (NBA) explore une utilisation du Data Mining pouvant
être utilisé en conjonction avec l’enregistrement d’images en provenance de matchs de
basket. Le logiciel Advanced Scout permet d’analyser les mouvements des joueurs, pour
aider leurs coaches à orchestrer des stratégies.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❹ NBA
Par exemple, une analyse du match entre les New York Knicks et les Cleveland Cavaliers le

Panorama du data Mining


6 janvier 1995 révèle que John Williams a marqué quatre paniers quand Mark Price était
en défense. Cette pattern a pu être décelée par Advanced Scout, au même titre que la
différence avec le pourcentage de précision moyen des Cavaliers pendant le match, élevé
à 49,30%. En utilisant l’horloge universelle de la NBA, un coach peut automatiquement
visionner les clips vidéo de chaque tir effectué par Williams quand Price était en défense,
sans avoir à visionner des heures de capture vidéo.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❺ La startup Digi.me
Les entreprises surveillent ce que les consommateurs postent, aiment, partagent sur les

Panorama du data Mining


réseaux sociaux, les appareils qu’ils utilisent, les cartes de crédit avec lesquelles ils
dépensent, les villes où ils sont situés.

Les entreprises et les gouvernements peuvent aisément utiliser les données


personnelles pour leur business sans demander le consentement des usagers.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❺ La startup Digi.me

Cette startup fournit aux consommateurs des outils leur permettant de se réapproprier

Panorama du data Mining


leur empreinte numérique, de collecter et de partager des informations directement avec
les entreprises selon leurs propres conditions.

La technologie développée par Digi.me permet aux utilisateurs de télécharger leurs


données et de les stocker sur internet.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❼Inde: Empêcher l’évasion fiscale avec le Data Mining

En Inde, le gouvernement est décidé à utiliser le data mining pour empêcher l’évasion

Panorama du data Mining


fiscale. En effet, l’Inde est profondément affectée par ce fléau. Pour y remédier, le
département des taxes va utiliser la technologie pour faciliter le paiement des taxes
pour les citoyens honnêtes, et pour compliquer la tâche aux malhonnêtes. On ignore
pour l’instant de quelle façon le data mining sera utilisé, mais davantage de détails
devraient être dévoilés dans les mois à venir.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Exemples concrets de l’utilisation du Data Mining

❽Recruter les meilleurs employés

Panorama du data Mining


Les professionnels du recrutement utilisent de plus en plus les outils de data mining pour
localiser et identifier les employés les plus intéressants pour leur entreprise

En Irlande par exemple, les entreprises collectent les données en ligne sur les candidats
pour dénicher les meilleurs talents. Les données permettent par exemple de déterminer
le niveau de productivité et de satisfaction d’un candidat.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Comment fonctionne le Data Mining ?

Les technologies informatiques ont évolué de manière à ce que les systèmes


transactionnels et les systèmes analytiques soient séparés.

Panorama du data Mining


Le Data Mining assure la jonction entre les deux

Les logiciels de Data Mining analysent les relations et les patterns des données de
transactions stockées en se basant sur des requêtes d’utilisateurs.
Plusieurs types de logiciels analytiques sont disponibles : statistiques, Machine
Learning, et réseaux neuronaux.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Comment fonctionne le Data Mining ?

on dénombre quatre types de relations :


Classes: Associations:
Les données stockées Les données peuvent

Panorama du data Mining


sont utilisées pour être minées pour
localiser les données en identifier des
groupes prédéterminés. associations.

Clusters:
Patterns séquentielles:
Les données sont
Les données sont
regroupées par rapport
minées pour anticiper
à des relations
les patterns de
logiques ou aux
comportements et les
préférences des
tendances.
clients.
Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Comment fonctionne le Data Mining ?

Le Data Mining repose sur quatre éléments majeurs


:

Panorama du data Mining


L’extraction, la transformation, et le chargement de données transactionnelles sur le
système de Data Warehouse.

Le stockage et la gestion de données dans un système de base de données


multidimensionnel.

Fournir l’accès aux données aux analystes de business et aux professionnels des
technologies informatiques.

Analyser les données grâce à un logiciel applicatif.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Comment fonctionne le Data Mining ?

Différents niveaux d’analyse sont disponibles :

Les réseaux de neurones artificiels: Des modèles prédictifs non linéaires qui apprennent par

Panorama du data Mining


l’entraînement et s’apparentent à des réseaux neuronaux biologiques dans leur structure.

Algorithmes génétiques: Les techniques d’optimisation utilisent des procédés tels que la
combinaison génétique, la mutation, et la sélection naturelle dans un design basé sur les
concepts de l’évolution naturelle.

Les arbres décisionnels: Ces structures en forme d’arbres représentent des ensembles de
décisions.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Comment fonctionne le Data Mining ?

Différents niveaux d’analyse sont disponibles :

Panorama du data Mining


La méthode du voisin le plus proche: Cette technique classifie chaque enregistrement d’un
ensemble de données en se basant sur une combinaison des classes du k, similaire à un
ensemble de données historique.

L’induction de règle: L’extraction de règles « si-alors » depuis les données, basées sur des
signifiances statistiques.

Data visualization: L’interprétation visuelle de relations complexes dans les données


multidimensionnelles. Les outils graphiques sont utilisés pour illustrer les relations de
données

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Comment fonctionne le Data Mining ?

Le processus de Data Mining se décompose en 5 étapes.

① Collection des données par les entreprises et les chargent dans les Data

Panorama du data Mining


Warehouses.
② Stockage et gestion des données, sur des serveurs physiques ou sur le Cloud.

③ Les Business analysts, les équipes de management et les professionnels de


l’informatique accèdent à ces données et déterminent comment ils souhaitent les
organiser.

④ Le logiciel applicatif permet de trier les données en se basant sur les résultats
utilisateurs.
⑤ L’utilisateur final présente les données sous un format facile à partager comme un
graphique ou un tableau.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Comment fonctionne le Data Mining ?

Les 3 propriétés principales du Data Mining

Panorama du data Mining


❶ La découverte automatique de patterns

❷ La prédiction de résultats probables

❸ La création d’informations exploitables

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Comment fonctionne le Data Mining ?

Quelle infrastructure technologique est requise ?

Panorama du data Mining


 La taille de la base de données:
Plus le nombre de données à traiter et à maintenir est important, plus un système puissant
est requis.

 La complexité des requêtes:


Plus les requêtes sont complexes et nombreuses, plus un système puissant est requis.

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Comment fonctionne le Data Mining ?

Les logiciels Data Mining

Panorama du data Mining


Il existe de nombreux logiciels de statistiques et de Datamining. Il y a des gratuits et des
payants, mono-utilisateur et en architecture: clients-serveur.

Logiciels commerciaux
Clémentine SPSS d'IBM, SAS logo horiz.svg ,DATA maestro™ de PEPITe ,
Statisca Data Miner StatSoft,XL Miner, ORACLE, Intelligent Miner IBM Statisca
Data Miner
Logiciels libres

KNIME ,TANAGRA, ORANGE, WEKA

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
 Panorama du data mining

Comment fonctionne le Data Mining ?

Les logiciels par spécialités

Panorama du data Mining


Arbre de décision
Réseaux de neurones
Alice, édité par Isoft
Startminer, édité par Grimmersoft
KnowKnowledgeSEEKET, édité par Angoss
Predict, édité par Neuralware
CART, édité par Salford systems
NeuroOne, édité par Nétral
Microsoft Analysis Services, édité par
4Thought, édité par Cognos
Microsoft

Associations
Wizwhy, édité par Wizsoft

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021
PLAN
 Panorama du data mining
 Déroulement d’une étude de data mining
 Exploration et la préparation des données
 Utilisation des données commerciales
 Logiciels de statistique et data mining
 Aperçu sur les techniques de data mining
 Analyse factorielle
 Réseaux de neurones
 Techniques de classification automatique
 Recherche d’associations
 Techniques de classement et de prédiction
 Application du data mining : le scoring
 Facteurs de succès d’un projet de data mining
 Text mining
 Web mining

Master Spécialisé Management des Systèmes d’information DATA MINING Année Universitaire 2020/2021

Vous aimerez peut-être aussi