Vous êtes sur la page 1sur 11

Analyse et Fouille de Données

Introduction Générale
Dr. Mouna Chebbah

2021-2022
Introduction
Introduction
Le data mining est l’ensemble des :
algorithmes et méthodes destinés à l’exploration et l’analyse de
(souvent) grandes bases de données informatiques en vue de détecter
dans ces données des règles, des associations, des tendances
inconnues (non fixées a priori), des structures particulières restituant
de façon concise l’essentiel de l’information utile pour l’aide à la
décision
Data Mining Vs Statistiques
Descriptives
Les techniques de data mining sont bien plus complexes que de
simples statistiques descriptives :
!outils de l’intelligence artificielle (ex: réseaux de neurones)
!algorithmes sophistiqués (algorithmes génétiques, analyse
relationnelle, etc.)
!théorie de l’information (arbres de décision)
!beaucoup d’analyse des données « traditionnelle » (analyse
factorielle, classification, analyse discriminante, etc.)
Data Mining Vs Statistiques
Descriptives
Statistique : Analyse des données :
!quelques centaines d’individus
!quelques dizaines de milliers
!quelques variables recueillies avec
un protocole spécial d’individus
(échantillonnage, plan !quelques dizaines de variables
d’expérience...)
!fortes hypothèses sur les lois !construction des tableaux «
statistiques suivies Individus x Variables »
!les modèles sont issus de la théorie
et confrontés aux données !importance du calcul et de la
!méthodes probabilistes et représentation visuelle
statistiques
Data Mining/ Fouille de données
! plusieurs millions d’individus
! plusieurs centaines de variables
! nombreuses variables non numériques, parfois textuelles
! données recueillies avant l’étude, et souvent à d’autres fins
! données imparfaites, avec des erreurs de saisie, de codification, des valeurs manquantes, aberrantes
! population constamment évolutive (difficulté d’échantillonner)
! nécessité de calculs rapides, parfois en temps réel
! l’optimum mathématique n’est pas toujours le but, mais le modèle le plus facile à appréhender par des
utilisateurs non statisticiens
! faibles hypothèses sur les lois statistiques suivies
! les modèles sont issus des données et on en tire des éléments théoriques
! méthodes statistiques, d’intelligence artificielle et de théorie de l’apprentissage (« machine learning »)
! utilisation en entreprise
Data Mining/ Fouille de données
Modèles
!Le DM ne traite pas d’estimation et de tests de modèles pré-spécifiés,
mais de la découverte de modèles à l’aide d’un processus de recherche
algorithmique d’exploration de modèles: linéaires ou non, explicites ou
implicites: réseaux de neurones, arbres de décision, SVM, régression
logistique, réseaux bayesiens.…

!Les modèles ne sont pas issus d’une théorie mais de l’exploration des
données.
Fouille de données:
A quoi sert?
!publicité ciblée sur internet
!identification des prospects les plus susceptibles de devenir clients
!reconnaissance faciale dans une image
!calcul de la rentabilité des clients
!évaluer le risque d’un client (credit scoring)
!détection de fraudes bancaires
!analyse automatique de contenus textuels (text mining)
!reconnaissance de la parole
!prévision de consommation d’électricité
!prévision de trafic routier
!tester l’efficacité d’un traitement médical
Fouille de données:
Domaine d’application
Web Domaine bancaire
Navigation Web Carte de crédit
!historique de la navigation !tous les achats sont enregistrés
!ciblage/marketing !détection des
!optimisation des sites / du Traffic fraudes/comportement risque
!... !ciblage
!accord de prêt
!...
Fouille de données
Fouille de données / data mining:
! Ensemble d’approches statistiques permettant d’extraire de l’information
de grands jeux de données dans une perspective d’aide à la décision.
!« Le Data Mining est une étape dans le processus d’extraction des
connaissances, qui consiste à appliquer des algorithmes d’analyse des
données »
Fouille de données
Fouille de données / data mining:
! Ensemble d’approches statistiques permettant d’extraire de l’information
de grands jeux de données dans une perspective d’aide à la décision.
Les étapes du data mining:

Vous aimerez peut-être aussi