Chap.01 Intro 18-19 1

Data Mining
(Fouille de données, exploration de données, )
Ali BERRICHI,
ali.berrichi@gmail.com, ali.berrichi@univ-boumerdes.dz
Bureau: Bloc 5, N° 206 ou bien LIMOSE N° 03
Département d’informatique, Faculté des Sciences, UMBBoumerdes.
Présentation
1. Le programme
2. Quelques Références et sites web
- Data Mining et Statistique Décisionnelle, Éditions Technip,
2005, 3ème édition 2010.
- Data Mining: Concepts and Techniques, Jiawei Han
Micheline Kamber, 2006.
•http://www-users.cs.umn.edu/~kumar/
•http://www.lifl.fr/~talbi/Cours-Data-Mining.pdf
•http://www.kdnuggets.com/
•http://data.mining.free.fr/
3. Organisation du cours: 1 cours (1h30) + 1 TD ou Exposés (1h30)
4. Evaluation: 1 ou 2 CC (Ecrit et/ou sous forme d’exposé)
[2]
Chapitre 1.
Introduction générale
3
1. Motivation (Pourquoi le Data Mining) ?
 Grande quantité de données sont collectés ou

générées :
 Banques, télécoms, supermarchés, d’autres
transactions commerciales, etc.)
 Scientific data : astronomie, Biologie, climat, etc.
 Web, Texte, Image, e-commere, etc.

10 dernières minutes : généré plus de données que depuis la préhistoire à 2003.
Eric Schmidt (Excecutive Chairman at Google)
Ces Données sont une source potentielle

d’informations utiles.
4
1. Motivation (Pourquoi le Data Mining) ?
 L’information utile est ``cachée ’’ dans le
volume des données.
 N’est pas immédiatement évidente
 Les analystes (humains) auraient besoin de beaucoup de
temps pour analyser les données.
 Données inexploitables par les méthodes d’analyse
classiques !
 La plupart des données n’est jamais analysé du tout.
Le Data mining peut aider à la découverte de modèles ou

patterns (connaissances) cachés dans les données pour l’aide à
la décision.
5
2. Quelques (Définitions) du Data Mining
• DEFINITION 1: Extraction non triviale d’informations implicites,
inconnues auparavant et potentiellement utiles, à partir des données.
• DEFINITION 2: L’ensemble des algorithmes et méthodes … destinés à

l’exploration et l’analyse … de grandes bases de données
informatiques… en vue de détecter dans ces données des règles
d’association, des tendances inconnues (à priori), des structures
particulières restituant de façon concise l’ensemble de l’information
utile … pour l’aide à la décision.
• DEFINITION 3: Processus inductif, itératif et interactif de découverte

dans les bases de données larges de modèles de données valides,
nouveaux, utiles et compréhensibles.
Inductif: Généralisation d’une règle (observation) ou d’un raisonnement établi à partir de
cas singuliers.
Itératif : nécessite plusieurs passes .
Interactif : l’utilisateur est dans la boucle du processus.
Valides: valables dans le futur.
Nouveaux : non prévisibles.
Utiles : permettent à l’utilisateur de prendre des décisions.
Compréhensibles : présentation simple
6
3. Qu’est ce qui n’est pas Data Mining ?
 Ce qui n'est pas Data Mining  Ce qui est Data Mining
- Prédire les abonnés d’un
- Rechercher des numéros de opérateur de téléphonie mobile
téléphone dans l'annuaire. susceptibles de changer
d’opérateur.
- Trouver des pages Web
particulières par un moteur de -Regrouper les documents
recherche via une requête. similaires retournés par un
moteur de recherche en fonction
- Combien de clients ont acheté de leur contexte.
tel produit pendant telle période
- Quel est le Profil des clients ?
Tâches liées au domaine de Quels autres produits les
« recherche d’informations » (qui intéresseront ? Quand seront-ils
sont des techniques traditionnelles intéressés ? quels sont les
d’indexation pour organiser et
produits qui se vendent
rechercher des informations
ensemble ?
7
4. Exemples de Domaines d’Applications :
• Marketing direct: population à cibler (âge, sexe,
profession, habitation, région, …) pour un
publipostage.
• Gestion et analyse des marchés : Ex. Grande
distribution : profils des consommateurs,
modèle d’achat, effet des périodes de solde ou
de publicité, «panier de la ménagère»
• Détection de fraudes: Télécommunications, ...
• Analyse des réseaux sociaux.
8
4. Exemples de Domaines d’Applications :
• Gestion et analyse de risque: Assurances,

Banques (crédit accordé ou non)
• Bioinformatique et Génome: ADN mining,
…
• Médecine et pharmacie:
o Diagnostic : découvrir d’après les symptômes
du patient sa maladie
o Choix du médicament le plus approprié pour
guérir une maladie donnée
• Web mining, text mining, etc.
9
5. Origines du data Mining
. L’Énormité des données
. La Haute dimensionnalité des données
. La nature hétérogène et distribuée de données Challenges (défis)
Les Techniques traditionnelles ne conviennent pas.
Intelligence artificielle
Statistique (ADD), Apprentissage Automatique,
Data Mining Reconnaissance de formes
DataBase
Systems
10
5. Origines du data Mining
Challenges (défis)
BIG 5V
DATA Volume Vélocité Véracité Variété Valeur
Formation d’ingénieur + Stage + SQL + Métriques + Langages de
DATA programmation + Communication
SCIENCE
DEEP Réseaux de Neurones à plusieurs couche

LEARNING
11
OBAMA ADMINISTRATION UNVEILS “BIG DATA” INITIATIVE:
ANNOUNCES $200 MILLION IN NEW R&D INVESTMENTS
Aiming to make the most of the fast-growing volume of digital data, the Obama
Administration today announced a “Big Data Research and Development
Initiative.” By improving our ability to extract knowledge and insights from large
and complex collections of digital data, the initiative promises to help solve
some the Nation’s most pressing challenges.
To launch the initiative, six Federal departments and agencies today
announced more than $200 million in new commitments that, together,
promise to greatly improve the tools and techniques needed to access, organize,
and glean discoveries from huge volumes of digital data.
“In the same way that past Federal investments in information-technology R&D
led to dramatic advances in supercomputing and the creation of the Internet, the
initiative we are launching today promises to transform our ability to use Big Data
for scientific discovery, environmental and biomedical research, education, and
national security,” said Dr. John P. Holdren, Assistant to the President and Director
of the White House Office of Science and Technology Policy.
Unveil = Dévoiler. Glean = Obtenir, découvrir , extraire.
12
6. Le processus de data mining
• Data Mining = Partie intégrante de KDD (Knowledge
Discovery in Databases)
• KDD = L'ensemble du processus de conversion des
données brutes en informations utiles (Figure ci-dessous)
Feature selection
Dimensionality reduction
Normalization Visualization
Etc. Pattern interpretation
Processus KDD
13
• Les données d’entrée (Input Data):

- fichiers plats, feuilles de calcul, tables relationnelles,
- référentiels de données centralisés ou bien distribuées (sites
multiples).
14
• Le prétraitement : transformer les données brutes d’entrée en

un format approprié pour une analyse ultérieure.
Les étapes incluent:
─ la fusion des données provenant de sources multiples,
─ le nettoyage des données : supprimer les erreurs, les
observations dupliquées, données manquantes, etc.
─ sélectionner les enregistrements et les attributs (données
d’apprentissage)
N.B: Prétraitement = Phase la plus laborieuse (time consuming).
15
• Post-traitement :
- Par exemple, dans les applications industrielles, les idées
offertes par les résultats de DM peuvent être intégrées avec
les outils de gestion (de campagne de promotion).
– Un exemple de post traitement : la visualisation (qui

permet aux analystes d’explorer les données et les
résultats de DM de différents points de vue.
– Les méthodes de statistiques.
16
6. Processus (Simplifié) du data mining
Format, Type ? Technique ?
1 2 3 Tâche ?
1
2
Données DATA MINING
3 d’apprentissage Type de
représentation ?
Modèles,
Patterns
17

Chap.01 Intro 18-19 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap.01 Intro 18-19 1

Transféré par

Droits d'auteur :

Formats disponibles

Data Mining

(Fouille de données, exploration de données, )

3. Organisation du cours: 1 cours (1h30) + 1 TD ou Exposés (1h30)

4. Evaluation: 1 ou 2 CC (Ecrit et/ou sous forme d’exposé)

 Grande quantité de données sont collectés ou

 Web, Texte, Image, e-commere, etc.

Ces Données sont une source potentielle

Le Data mining peut aider à la découverte de modèles ou

• DEFINITION 2: L’ensemble des algorithmes et méthodes … destinés à

• DEFINITION 3: Processus inductif, itératif et interactif de découverte

• Gestion et analyse de risque: Assurances,

Data Mining Reconnaissance de formes

DEEP Réseaux de Neurones à plusieurs couche

• Les données d’entrée (Input Data):

• Le prétraitement : transformer les données brutes d’entrée en

– Un exemple de post traitement : la visualisation (qui

Vous aimerez peut-être aussi