Vous êtes sur la page 1sur 34

Analyse et Fouille des données

Elaboré par Mme Emna HKIRI


Emna.hkiri@gmail.com

2020-2021

1
Data/des données

90% 80% 20%


des données du des données sont des données peuvent être
monde a été créé au non structurées. gérées par les bases de
cours des 3 dernières données traditionnelles
années

2
Data Mining ?
• Forage de données, explorations de données ou fouilles de données, ce sont les traductions possibles
du data mining.
• En règle générale, le terme Data Mining désigne l’analyse de données depuis différentes perspectives et le
fait de transformer ces données en informations utiles, en établissant des relations entre les données.

90% 80% 20%


des données du des données sont des données peuvent être
monde a été créé au non structurées. gérées par les bases de
cours des trois données traditionnelles
dernières années

5
5

Introduction à la fouille de données


a. Pourquoi la Fouille de donnée?
b. Métaphore
c. Evolution des sciences
d. Qu’est ce que la fouille de données?
e. Des données aux connaissances
f. Exemples d’application concrètes
g. Les données
h. Fonctionnalités du Data Mining
i. Confluence de plusieurs Disciplines
j. Logiciels libres

3
Introduction
Motivation: Le besoin crée l’invention

Problème de l’explosion de données

Les outils de collecte automatique des données et les bases de données conduisent à d’énormes masses de
données stockées dans des entrepôts

- Entrepôts du Web

- Réseaux sociaux et hébergement de documents :

- e-commerce Achats dans les supermarchés

- Transactions de cartes bancaires

Introduction
Motivation: Le besoin crée l’invention

Problème de l’explosion de données


• Les données sont collectées et stockées rapidement (GB/heures)
- Télescopes,
- Puces à ADN générant des expressions de gènes,
-Simulations générant de téra-octets de données.
• Submergés par les données, manque de connaissance !

4
Introduction
Motivation: Le besoin crée l’invention

Avant de parler connaissez-vous les préfixes ?

Introduction
Motivation: Le besoin crée l’invention

10

5
Introduction
Motivation: Le besoin crée l’invention

Problème de l’explosion de données: Développement des TICs

11

Introduction
Motivation: Le besoin crée l’invention

Problème de l’explosion de données: Développement des TICs

12

6
Introduction
Motivation: Le besoin crée l’invention

Métaphore

•Trop de données...
– Paradoxe : trop données mais pas assez d’informations

• Difficulté d’accès à l’information…


– Trop de données tue …l’information

• Trop de pistes à explorer

13

Introduction
Motivation: Le besoin crée l’invention

Problème de l’explosion de données: Développement des TICs

14

7
Evolution des sciences

• Avant 1600 : science empirique


• 1600-1950 : science théorique
• Années 50 - Années 90 : «Computational science»
- Depuis plus de 50 ans, beaucoup de disciplines se sont développées
- Simulation : trouver des modèles proches de la réalité
• 1990 - Aujourd’hui : «data science»
- Données omniprésentes
- capacité à gérer et stocker des volumes gigantesques.
- Internet
Solution: Data warehousing et data mining est devenu un challenge majeur !!!

15

Evolution de la technologie des bases de données

•1970… : Bases de données relationnelles


•1980… : modèles de données avancé
1990 : entrepôts de données, …
Entrepôts
de
données
!!!

16

8
Data warehouse
O Data warehouse est un entrepôt de données d’une entreprise qui contient quelques données opérationnelles,
données agrégées (agrégations), données historiques, données évolutives et possiblement des données externe à
l’entreprise qui ont une relation avec l’activité de l’entreprise.
O Ces données sont stockées dans une ou plusieurs base de données relationnelle et sont accessibles par toutes
les applications orientées aide à la décision.
Data Warehouse est usuellement le point de départ de Data Mining.
O Data Warehouse et Data Mining sont des parties du processus KDD.

17

Pourquoi maintenant?

Limites de l’approche humaine & Techniques


traditionnelles ne sont pas adaptées

Solutions et compétences en Fouille


récentes disponibles fournir de meilleurs
services, s’adapter aux clients

Les données sont produites


électroniquement et archivées

Le contexte est ultra-concurrentiel : Industriels,


médicaux, marketing, etc. – Plateformes de calculs
disponibles à bas prix

18

9
Fouille de données: Définition
Ce qu’est le Data Mining

• Terme récent (1990) représentant un mélange d’idées et d’outils provenant de la Statistique, l’Intelligence
Artificielle et l’Informatique.
• La définition exacte reste peu claire et les terminologies associées au Data-Mining sont encore floues.
Une définition suivant un critère égocentré :
Le data-mining est un processus de découverte de règle, relations, corrélations et/ou dépendances à
travers une grande quantité de données, grâce à des méthodes statistiques, mathématiques et de
reconnaissances de formes.
Autres définitions :
•Data mining : Un processus d’extractions automatique d’informations prédictives à partir de grandes bases
de données.
19

Fouille de données: Définition

• Data mining :
– Extraction d’informations intéressantes (implicites, et potentiellement utiles)
à partir de grandes bases de données.

• Le datamining est l’ensemble des:


– Algorithmes et méthodes
• Destinés à l’exploration et l’analyse
• De grandes quantités de données
• En vue de détecter des règles, des tendances inconnues ou cachées, des structures particulières
restituant de façon concise l’essentiel de l’information utile
• … pour l’aide à la décision

20

10
Fouille de données: Définition

• Autres appellations:

Fouilles de Données / business intelligence,

ECD/ (KDD (Knowledge Discovery from Databases

Analyse de données/patterns,

21

Fouille de données: les raisons du développement


pourquoi ça s’est développé ?
• Intérêt économique
• Technologie de l’information : faible coût de stockage de données, saisie automatique de transaction
(code bar, click, données de localisation GPS, internet) •

• Augmentation de la puissance de calculs des ordinateurs

Extraire de la connaissance à partir de grandes bases


de données devient possible

22

11
BD VS DATA MINING

23

Data Mining Vs Statistique


O En statistique :
O Quelques centaines d’individus
O Quelques variables
O Fortes hypothèses sur les lois statistiques
O Importance accordée au calcul Data Mining
O Échantillon aléatoire. Vs Statistique

O En Data mining
O Des millions d’individus
O Des centaines de variables
O Données recueillies sans étude préalable
O Nécessité de calculs rapides
O Corpus d’apprentissage.

24

12
A quoi sert?
Services financiers Marketing
–Attrition (churn) –Gestion de la relation client (CRM)
–Détection de fraudes –Optimisation de campagnes marketing
–Identification opportunités de ventes –Ventes croisées

Télécommunications Assurances, Secteur public


–Fidélisation (anti-churn) –Indiquer les anomalies des comptes
–Ventes croisées –Réduire le coût d’investissement d’activité suspecte
–Détection de la fraudes

Grande Distribution Sciences de la vie


–Fidélisation –Trouver les facteurs de diagnostic typiques
–Ventes croisées d’une maladie
–Analyses de panier –Alignement gênes & protéïnes
–Détection de fraudes –Identifier les capacités d’interaction de
médicaments
Internet Autre
–Personnalisation des pub affichées –Rech. d’info (web ou document)
–Optimisation des sites web –Recherche par similarité (images…)
–Profilage et Recommendation –Analyse spatiale…

25

Application
O Gestion et analyse commerciales
O Analyse clientèle ou CRM analytique (gestion de la relation client) :
O Qui sont mes clients ? Pourquoi sont-ils mes clients ? Comment les conserver ou les faire revenir ?
O Marketing ciblé, actions commerciales, vente croisée :
O Où placer ce produit dans les rayons ? Comment cibler plus précisément le mailing concernant ce produit ?

O Analyse du risque
O Prédiction, fidélisation des clients, contrôle qualité, compétitivité
O Détection des fraudes, analyse des incidents

O Autres applications
O Gestion, indexation et classification de documents, du web et de la navigation sur Internet.
O Moteurs de recherche intelligents

26

13
Application
O Mieux connaître le client
→ Pour mieux le servir
→ Pour augmenter sa satisfaction
→ Pour augmenter sa fidélité
(+ coûteux d’acquérir un client que le conserver)

O Data mining pour savoir :


O Quel client restera fidèle et qui partira?
O Quels produits proposer à quels clients?
O Qu’est-ce qui détermine qu’une personne répondra à une offre donnée?
O Quel est le prochain produit ou service qu’un client particulier désirera?
O Usage du web – marketing et ventes sur internet
O Découverte des préférences des clients, optimisation du site, etc.

27

Applications
• L’analyse d’une BD de transactions d’un supermarché permet d’étudier le comportement des clients :
– réorganiser les rayons/ segmentation du marché
– Ajuster les promotions
– Associations/co-relations entre ventes de produits
• L’analyse de données médicales :
– Support pour la recherche
• L’analyse de données financières :
– Prédire l’évolution des actions
– Organismes de crédit (dresser des profils de clients)
• Domaine d’astronomie
• Autres Applications
– Text mining : emails, documents Web.
– des algorithmes de data mining pour réorganiser leurs sites WEB afin de faciliter la navigation.

28

14
La fouille de données : autres domaines

□ publicité ciblée sur internet


□ identification des prospects les plus susceptibles de devenir clients
□ reconnaissance faciale dans une image
□ calcul de la rentabilité des clients
29 / 79
□ évaluer le risque d’un client (credit scoring)
□ détection de fraudes bancaires
□ analyse automatique de contenus textuels (text mining)
□ reconnaissance de la parole
□ calcul de score de réachat
□ prévision de consommation d’électricité
□ prévision de traffic routier
□ tester l’efficacité d’un traitement médical
...

Applications KDD: services de transport

30

15
Applications KDD : Commerce électronique

31

Applications KDD : Marketing


[Piatetsky-Shapiro et al 2000]

• Customer
• But : partitionner les consommateurs par rapport à leurs achats
• Motivation :
- product packages
- établir une nouvelle politique tarifaire

• Problème : 50% des clients de Dell achètent leurs machines à travers le site Web. Mais seulement 0.5% des
visiteurs du site deviennent clients.

• Solution : Stocker les séquences de clicks des visiteurs, analyser les caractéristiques des acheteurs et lors de
la visite d’un client potentiel, adapter le contenu du site pour maximiser la probabilité d’un achat.

32

16
Applications KDD : puces ADN

33

Récap: Qu'est-ce que le data Mining?

O Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et


potentiellement utiles) à partir de grandes bases de données.

O C’est un processus non élémentaire de recherche de relations, corrélations, dépendances, associations,


modèles, structures, tendances, classes (clusters), segments, lesquelles sont obtenues de grande quantité de
données (généralement stockées sur des bases de données (relationnelles ou no)).

O Cette recherche est effectuée à l’aide des méthodes mathématiques, statistiques ou algorithmiques

Data Mining: Le cœur du


processus d’extraction de
connaissances.
34

17
Le processus KDD : Knowledge Discovery from Databases

▶ Bases de données relationnelles.


▶ Entrepôt de données
▶ Base de données transactionnelles. Data Mining:
. Le cœur
▶ Données de type document du processus
▶ Données sous forme de graphe d’extraction de
▶ Base de données multimédia connaissances
35

Etapes du processus KDD


– Comprendre le domaine d’application (focus)
– Création d’un ensemble de données (sélection)
– Nettoyage et pré-traitement des données (peut prendre 60% de l’effort)
– Choix des fonctionnalités du data mining
• classification, association, clustering, …
– Choix de(s) l’algorithme(s) d’extraction
– Datamining : Recherche des motifs (patterns) intéressants.
– Evaluation des Patterns et présentation
• visualisation, transformation, suppression des patterns redondants, etc.
– Utilisation de la connaissance extraite

36

18
Le processus KDD

1-«Focussing»
• Comprendre l’application
• Définir l’objectif KDD
• Ex. : Etablir des «profils de consommateurs»
• Acquisition des données
• Ex. : Bases de données des factures
• Gestion des données
• Système de fichiers ou SGBD ?
• Sélection des données pertinentes
Ex. : considérer les 100 000 clients les plus importants et tous leurs appels sur l’année 2019

37

Le processus KDD

2- « Pré-traitement »

• Intégration des données à partir de différentes sources


• Conversion des noms d’attributs (CNo  CustomerNumber)
• Utilisation de la connaissance du domaine

• «Complétion»
• Le cas des valeurs manquantes
le cas du bruits
• Le pré-traitement des
données est souvent la tâche
la plus coûteuse dans le
processus KDD!

38

19
Le processus KDD

3-Transformation
Discrétisation des attributs numériques
• Indépendamment de la tâche de fouille de données
• Ex. : partitionner le domaine des attributs en des intervalles de même longueur.
• Spécifique de la tâche de fouille de données
• Partitionner en des intervalles qui maximisent le gain d’information par rapport à la classe
• Agrégation d’un ensembles d’attributs
• Ex. : à partir d’appels
• nb d’appels par jour, semaine...
•Généralisation des données
•Normalisation des données
39

Le processus KDD

4-Fouille de données

• l’application d’algorithmes efficaces qui identifient les motifs contenus dans une base de données
• Ensemble de techniques d'exploration des données permettant d'extraire d'une base de données des
connaissances sous la forme de modèles de description afin de :
-décrire le comportement actuel des données et/ou
- prédire le comportement futur des données
• Les différentes tâches de fouille :

• Autres tâches : régression, détection d’outlier, etc

40

20
Le processus KDD

4-Fouille de données
• Applications
• Clustering
- Segmentation, structuration d’un ensemble de documents «web», découvertes de communautés
• Classification :
- prédiction de la fonction d’une protéine, accorder un crédit, interpréter des images en astronomie, etc.
• Règles d’association :
- mise en rayon, promotion, améliorer la structure d’un site web ...

41

Le processus KDD
visualisation
5- Evaluation appropriée
• Présentation des motifs découverts avec une visualisation appropriée
• Evaluation des motifs par l’utilisateur
• Si l’évaluation n’est pas satisfaisante, alors relancer la fouille avec :
• des paramètres différents
• d’autres méthodes
• d’autres données
• Si l’évaluation est positive :
• Intégrer les connaissances découvertes dans une base de connaissance
• Utiliser ces connaissances dans les futures processus KDD

42

21
Data Mining: Données, information, connaissance

43

Data Mining: Données, information, connaissance

Exemple: Tester le pourcentage des clients qui consultent leurs comptes bancaires sur le web

Données?
Information?
Connaissance?

44

22
Les données
 Dans le domaine de la gestion et de la finance, de très nombreuses données (informations), de types très variés, peuvent être
relevées: C’est pour ces besoins
que sont mis en œuvre
• nombre de ventes par mois d’un commercial,
les outils d’analyse de
• prix d’achat d’une matière première au cours du temps, données
• bénéfices d’une société sur plusieurs exercices,
• préférences d’achat de consommateurs,
• avis de clients sur des produits à commercialiser,
• indicateurs de performance de plusieurs entreprises, à un instant T ou au cours du temps...
 Les données brutes sont en général peu aisées d’interprétation directe: ce sont de "gros" tableaux remplis de "chiffres"....

45

Les données
Les données Quelles données ?
Population: groupe ou ensemble d’individus que l’on analyse.
Sondage: étude d’une partie seulement d’une population appelée échantillon.
Variables: ensemble de caractéristiques d’une population
— quantitatives : nombres sur lesquels les opérations usuelles (somme, moyenne,...) ont un sens ; elles peuvent
être discrètes ou continues;
— qualitatives : appartenance à une catégorie donnée ; elles peuvent être nominales ou ordinales quand les
catégories sont ordonnées
- Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les données ex : les modalité de
notes sont {0, 1, 2, · · · , 20} les modalités de couleur sont {bleu,vert,noir,...}

46

23
Les données
Les données: tableau individu*variables

47

Les données: tableau individu*variables


Les données ? Les données peuvent être vues comme une collection d’objets (enregistrements) et leurs attributs.
▶ Un attribut est une propriété et ou une caractéristique de l’objet.
▶ Un ensemble d’attributs décrit un objet.

Attribut - valeur
▶ La valeur d’un attribut est un nombre ou un symbole.
▶ Ne pas confondre attribut et valeur

48

24
Les données: tableau individu*variables

Exemple1: la température en France

Contexte température moyenne mois par mois dans 25 villes de


France.

Les données
brutes sont
difficiles à
interpréter.

49

Les données: tableau individu*variables

50

25
But et méthode de l’analyse de données

Le but de l’analyse de données est de


- de synthétiser, structurer l’information contenue dans des données multidimensionnelles (n individus, p variables).
Trois groupes de méthodes :
- Méthode de régression linéaire: prédire la valeur future d’un attribut en fonction d’autres attributs.
- Méthodes de segmentation : former des groupes homogènes à l’intérieur d’une population.
- Méthodes factorielles : réduire le nombre de variables en les résumant par un petit nombre de composantes
synthétiques.

ACP

51

Les données : exemples concrets

• Sciences de la vie
- médecine : patients et maladies
- génomique : gènes, patients,
• Marketing
-fichiers clients
-traces d’usage (site web, communication mobile)
-Achats
• Industrie
- senseurs : température, vibration

52

26
Outils utilisés

Statistiques élémentaires
on calcule des moyennes, variances corrélations...
Statistiques inférentielles
on utilisera quelques tests statistiques.
Matrices les tableaux de données
sont vus comme des matrices : opérations élémentaires, vecteurs propres...
Espaces métriques
les données sont aussi vues comme des nuages de points en grande dimension : produits scalaires,

53

Fonctionnalités du Data Mining


On distingue deux grandes familles de tâches réalisées en datamining

Description : consiste à trouver les caractéristiques générales relatives aux données fouillées
Prédiction : consiste à faire de l’inférence à partir des données actuelles pour prédire des évolutions
futures

54

27
Fonctionnalités du Data Mining

55

Fonctionnalités du Data Mining


Techniques descriptives

• Regroupement (ou segmentation, ou clustering)

• Recherche d’associations, de corrélations

• Recherche de séquences similaires

56

28
Fonctionnalités du Data Mining
Techniques prédictives

• Vise à extrapoler de nouvelles informations à partir d’informations déjà présentes

• Il y a une variable cible à prédire

57

Fonctionnalités du Data Mining

Prédiction

Exemple : va-t-on faire du kite-surf ?

Va-t-on jouer s’il y a du soleil, beaucoup d’humidité et pas de vent ?


58

29
Fonctionnalités du Data Mining
Techniques prédictives
Classification

– Arbres de décision

– Classification bayésienne

– Réseaux neuronaux

– Méthodes SVM (support vector machine)

– Régression

– …

59

Fonctionnalités du Data Mining


Remarques:
Extraction de connaissances
Un déroulement non linéaire
▶ On constate souvent à l’étape de validation que :
▶ les performances obtenues sont insuffisantes.
▶ les utilisateurs du domaine jugent l’information inexploitable.
▶ ...
▶ Il faut donc :
▶ Choisir une autre méthode de fouille.
▶ Remettre en cause l’étape de transformation.
▶ Enrichir les données
▶ Dans un projet d’ECD, le temps passé à l’étape de fouille de données ne représente souvent que 40% du temps.

60

30
Un exemple de découverte d'information et de connaissance

• Un éditeur vend 5 sortes de magazines : sport, voiture, maison, musique et BD


• Il souhaite mieux étudier ses clients pour découvrir de nouveaux marchés où vendre plus de magazines à
ses clients habituels
Quelques questions qu'il peut se poser :
Q1 : Combien de personnes ont pris un abonnement à un magazine de sport cette année ?
Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que l'année dernière ?
Q3 : Est-ce que les acheteurs de magazines de BD sont aussi amateurs de sport ?
Q4 : Quelles sont les caractéristiques principales de mes lecteurs de magazines de voiture ?
Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les diminuer ?
Questions de natures différentes mettant en jeu des processus différents

61

Un exemple de découverte d'information et de connaissance

Q1 : Combien de personnes ont pris un abonnement à un magazine de sport cette année ?

- réalisable en SQL à partir des données opérationnelles sous réserve d'indexations suffisantes des tables concernées
- seule difficulté : ne pas pénaliser le serveur transactionnel par des requêtes trop longues

Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que l'année dernière ?
-nécessite de conserver toutes les dates de souscription même pour les abonnements résiliés
- l'utilisateur devrait poser de nombreuses requêtes

62

31
Un exemple de découverte d'information et de connaissance

Q3 : Est-ce que les acheteurs de magazines de BD sont aussi amateurs de sport ?

réponse formulée par une valeur estimant la probabilité que la règle soit vraie
• en général des outils statistiques sont utilisés
• cette question peut être généralisée, on pourrait ainsi :
- chercher des associations fréquentes entre acheteurs de magazine pour effectuer des actions promotionnelles
- introduire une composante temporelle pour chercher si le fait d'être lecteur d'un magazine implique d'être, plus tard,
lecteur d'un autre magazine

63

Un exemple de découverte d'information et de connaissance

Q4 : Quelles sont les caractéristiques principales de mes lecteurs de magazines de voiture ?

question beaucoup plus ouverte : il s’agit de trouver une règle


c'est pour ce type de question que sont mis en œuvre des outils de fouille de données

Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les diminuer ?

question ouverte : Il faut disposer d'indicateurs comme : durées d'abonnement, délais de paiement, ...
• question avec une forte composante temporelle et nécessite des données historiques

64

32
Data Mining: Confluence de plusieurs Disciplines

IA Statistique

Data Mining Visualisation


Apprentissage

Autres
Reconnaissance des formes Disciplines

65

Logiciels libres

- R: https://cran.r-project.org/bin/windows/base/
-Weka ;
- RapidMiner ;
- Orange ;
- SIPINA/Tanagra.

66

33
Questions
???

67

34

Vous aimerez peut-être aussi