Vous êtes sur la page 1sur 17

COURS DE DATA MINING

Mme DRIDI AMANI


2023-2024
1
chapitre 1 :Introduction au Data Mining

Plan
1. Qu’est-ce que le DATA MINING
2. Pourquoi le Data Mining(Motivations)
3. Objectifs et outils
4. Le processus de découverte de connaissances(KDD)
5. Cycle de vie d’un projet de Data Mining
6. Statistique vs Data Mining
7. Machine Learning vs Data Mining
8. Domaines d’application

2
Qu’est-ce que le DATA MINING
● Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement
utiles) à partir de grandes bases de données. C’est analyser les données pour trouver des patrons cachés en
utilisant des moyens automatiques.
● Processus inductif, itératif et interactif de découverte dans les BD larges de modèles de données valides,
nouveaux, utiles et compréhensibles.
➢ Itératif: nécessite plusieurs passese
➢ Interactif: utilisateur est dans la boucle du processus
➢ Valides: valables dans le futur
➢ Utiles: permettent à l’utilisateur de prendre des décisions
➢ Nouveaux: non prévisibles
➢ Compréhensibles: présentation simple

3
4
=> Data Mining se considère comme un processus le plus automatique possible, qui part de

données élémentaires disponibles dans un Data Warehouse à la décision. L’objectif principale

de Data Mining c’est de créer un processus automatique qui a comme point de départ les

données y comme finalité l’aide à la prise des décisions.

5
Pourquoi le Data Mining (Motivations)
le Data Mining est né de:

● Explosion des données :


★ Masse importante de données (millions de milliards d’instances) : elle double tous les 20 mois.(BD très larges ).
★ Données multi-dimensionnelles (milliers d’attributs).
★ Inexploitables par les méthodes d’analyse classiques.
★ Collecte de masses importantes de données (Gbytes/heure).
★ Besoin de traitement en temps réel de ces données.

6
● Améliorer la productivité :
★ Forte pression due à la concurrence du marché.
★ Brièveté du cycle de vie des produits.
★ Besoin de prendre des décisions stratégiques efficaces.
● Croissance en puissance/coût des machines capables:
★ De supporter de gros volumes de données.

★ D’exécuter le processus intensif d’exploration .


★ Hétérogénéité des supports de stockage.

7
Objectifs et outils
Le Data Mining cherche des structures de deux types : modèles et patterns:
Patterns:
● Les "patterns" dans le contexte du data mining se réfèrent généralement aux structures ou aux relations récurrentes,
significatives ou intéressantes dans les données.
● L'objectif de l'identification de ces structures est de révéler des informations cachées, des comportements intéressants
ou des motifs récurrents dans les données. Ces structures peuvent être utilisées pour la prise de décision, la
segmentation de la clientèle, la détection de fraudes, etc.
● Outils: classification, visualisation par réduction de dimension (ACP, AFC etc.), règles d’association.

Modèles:
● Ces structures incluent des modèles mathématiques ou statistiques qui capturent les relations sous-jacentes dans
les données. Les exemples de structures de modélisation comprennent les régressions, les arbres de décision, les
réseaux de neurones, les SVM (Support Vector Machines), les modèles bayésiens, etc.
● L'objectif de l'identification de ces structures est de construire des modèles prédictifs ou des modèles descriptifs
qui peuvent être utilisés pour faire des prédictions sur de nouvelles données ou pour mieux comprendre les
relations entre les variables dans un ensemble de données.

8
● Descriptives : consiste à trouver les caractéristiques générales relatives aux données
fouillées (Résumé/synthèse, Clustering, Règles d’association).
● Prédictives : Consiste à utiliser certaines variables pour prédire les valeurs futures inconnues
de la même variable ou d’autres variables (Séries temporelles, Régression,Classification).

9
Des outils ou un process?
Le DM est souvent présenté comme un ensemble intégré d’outils
permettant entre autres de comparer plusieurs techniques sur les mêmes
données.
Mais le DM est bien plus qu’une boîte à outils:
Données Information Connaissance
prétraitements analyse

10
Le processus de découverte de connaissances(KDD)
Data mining : coeur de KDD(Knowledge Data Discovery).

11
Cycle de vie d’un projet de Data Mining
1. Comprendre l’application:

*Connaissances nécessaires et buts de l’application

2. Sélectionner un échantillon de données :

*Choisir une méthode d’échantillonnage

3. Nettoyage et prétraitement des données (jusqu’à 60% du travail !):

*supprimer le «bruit» : données superflues,données manquantes, etc.

4. Réduction et transformation des données:

*Trouver les caractéristiques utiles, dimensionnalité/réduction des variables )

12
5. Choix des fonctionnalités data mining :
*synthèse, classification, régression, association, clustering
6. Appliquer les techniques de fouille de données :
*Choisir le bon algorithme
*recherche de motifs (patterns) intéressants
7. Visualiser, évaluer et interpréter les modèles découverts:
*Analyser la connaissance (intérêt)
*Vérifier sa validité (sur le reste de la base de donnéesƒ
*Réitérer le processus si nécessaire
8. Gérer la connaissance découverte :
*La mettre à la disposition des décideurs
* L’échanger avec d’autres applications (système expert, ...

13
14
Statistique vs Data mining
❖ En statistique :

* Quelques centaines d’individus

* Quelques variables

* Fortes hypothèses sur les lois statistiques

* Importance accordée au calcul

* Échantillon aléatoire.

❖ En Data mining :

* Des millions d’individus

* Des centaines de variables

* Données recueillies sans étude préalable

* Nécessité de calculs rapides

15
Data Mining vs Machine Learning
❖ Data Mining :
❖ Objectif principal : L'objectif principal du data mining est d'explorer les données pour découvrir des tendances, des motifs, des
structures et des informations utiles. Il s'agit souvent de trouver des informations cachées ou non évidentes dans les données.
❖ Méthodes : Les techniques de data mining incluent l'identification de motifs (patterns) tels que les règles d'association, les
clusters, les séquences, la détection d'anomalies, etc. Ces techniques ne nécessitent pas nécessairement la construction de
modèles prédictifs.
❖ Applications : Le data mining est utilisé pour la segmentation de la clientèle, la détection de fraudes, l'analyse de marché, la
recommandation de produits, l'exploration de données de grande taille, etc. Il est souvent utilisé lorsque l'objectif principal est
l'exploration et la découverte d'informations.
❖ Machine Learning :
❖ Objectif principal : L'objectif principal du machine learning est de développer des modèles prédictifs ou des algorithmes qui
peuvent effectuer des tâches spécifiques sans être explicitement programmés. Il s'agit de construire des modèles qui
apprennent à partir des données.
❖ Méthodes : Le machine learning utilise des algorithmes d'apprentissage supervisé (classification, régression), d'apprentissage
non supervisé (clustering, réduction de dimension), et d'autres techniques pour construire des modèles à partir des données.
❖ Applications : Le machine learning est utilisé pour la classification d'images, la prédiction de prix, la recommandation de films,
la reconnaissance vocale, la conduite autonome, la détection de spam, etc. Il est souvent utilisé lorsque l'objectif est de faire
des prédictions ou de prendre des décisions automatiquement.

16
Domaines d’application

17

Vous aimerez peut-être aussi