Académique Documents
Professionnel Documents
Culture Documents
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Ricco Rakotomalala
• ricco.rakotomalala@univ-lyon2.fr
• http://chirouble.univ-lyon2.fr/~ricco/cours/
Publications, ressources, liens, logiciels, …
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Plan
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
Une démarche plus qu’une théorie !
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Exemple introductif : demande de crédit bancaire
• divorcé
• 5 enfants à charge
• chômeur en fin de droit
• compte à découvert
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Expérience de l’entreprise : ses clients et leur comportement
• coûteuse en stockage
• inexploitée
• Graphes d'Induction
• Réseaux de neurones • Tests statistiques
• Echantillonnage
• Analyse discriminante • Re-échantillonnage
• Préparation des données
• Régression logistique
• Visualisation des données
Déploiement
Exploitation
Définition : Processus non-trivial d ’identification de structures inconnues, valides et
potentiellement exploitables dans les bases de données (Fayyad, 1996)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication
Vous ne pouvez pas travailler seul.
Travailler en synergie avec l’expert
du domaine est primordial !
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
Émergence de l’ECD : domaines d’applications
Services financiers
• consentements de prêts automatisés, support à la décision de crédit
• détection des fraudes
Grande distribution
• profils de consommateurs et modèles d’achats
• constitution des rayonnages
• marketing ciblé
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Est-ce vraiment nouveau ?
Définition :
Processus non-trivial d ’identification de structures inconnues, valides
et potentiellement exploitables dans les bases de données (Fayyad,
1996)
1. Model selection
2. Model fitting
3. Model validation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
(1) Sources de données
(2) Techniques utilisées
(3) Multiplicité des supports
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
Spécificités du Data Mining
Sources de données
• valoriser les fichiers de l’entreprise
• construire des entrepôts
• modifier le schéma organisationnel
Techniques utilisées
• Intégrer des techniques d’origines diverses
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
Les sources de données
Stockage
• orientation analyse
• historisées
• non-volatiles
Production
• orientation service
(ventes, comptabilité,
marketing…)
• volatiles
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
L’organisation du flux d’informations et les acteurs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
Systèmes de gestion et systèmes décisionnels
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
Data Mining vs. Informatique Décisionnelle (Business Intelligence)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16
Spécificités du Data Mining
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
Techniques utilisées selon leur « origine »
Analyse de données
Statistiques (Statistique exploratoire)
Description factorielle
Théorie de l’estimation, tests
Discrimination
Économétrie
Clustering
Maximum de vraisemblance et moindres carrés
Méthodes géométriques, probabilités
Régression logistique, …
ACP, ACM, Analyse discriminante, CAH, …
Informatique Informatique
(Intelligence artificielle) (Base de données)
Apprentissage symbolique Exploration des bases de données
Reconnaissance de formes
Volumétrie
Une étape de l’intelligence artificielle Règles d’association, motifs fréquents, …
Réseaux de neurones, algorithmes génétiques…
• capacité d ’apprentissage
(universel)
• structuration / classement
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
Techniques en provenance des BD
If MARITAL_ST is Divorced
and LOAN_LENGT = 4.00
Then
GUARANTEE is No
Rule's probability: 0.966
The rule exists in 28 records.
A = B + 2.00
where: A = FAMILY_COU
B = CHILDREN
Accuracy level : 0.96
The rule exists in 397 records.
• traitement « omnibus »
• connaissance interprétable
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20
Spécificités du Data Mining
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21
Élargir les supports
Rôle fondamental de la
préparation des données
Prédiction
Structuration
Description
Association
Les applications
Filtrage automatique des e-mails (spams, terrorisme,...)
Reconnaissance de la langue à une centrale téléphonique
Détection des images pornographiques sur le web
Analyse des mammographies
Etc.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22
Data Mining vs. Big data (1/3) - http://fr.wikipedia.org/wiki/Big_data
DEFINITION
Les big data, littéralement les grosses données, est une expression
anglophone utilisée pour désigner des ensembles de données qui
deviennent tellement volumineux qu'ils en deviennent difficiles à
travailler avec des outils classiques de gestion de base de données ou
de gestion de l'information.
de calcul distribué.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
Data Mining vs. Big Data (2/3) – Les 3 « V »
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
Data Mining vs. Big Data (3/3)
(Wikipédia) ...la maturation du sujet fait apparaitre un autre critère plus
fondamental de différence d’avec le Business Intelligence et concernant
Big data vs. BI ?
les données et leur utilisation :
Business Intelligence : utilisation de statistique descriptive [reporting,
tableaux de bord,…], sur des données à forte densité en information afin
de mesurer des phénomènes, détecter des tendances… ;
Big Data : utilisation de statistique inférentielle, sur des données à
faible densité en information dont le grand volume permet d’inférer des
lois (régressions….) donnant dès lors (avec les limites de l’inférence) au
big data des capacités prédictives [modélisation, analyse prédictive,…].
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26
Ciblage de clientèle par publipostage (1/2)
Banque française
les non-abonnés dans ces groupes seront (certainement ?) sensibles à une offre ciblée
(hypothèse : s’ils ne sont pas abonnés, c’est qu’ils n’ont pas reçu l’information)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27
Ciblage de clientèle par publipostage (2/2)
0.8
Cumulative % of "rare"
Optimal
0.6 BLS-10000
BLS-500
0.4 BLS-300
BgS-10000
BgS-2000
0.2
Probabilité Random
de Pourc. Ind. Pourc. Ciblés
Individu souscrire cumul Cumul Pourc. Ciblés 0
4 0.95 10% 19% 0.19 0 0.2 0.4 0.6 0.8 1
9 0.9 20% 37% 0.18 Cumulative % of the population
10 0.8 30% 53% 0.16
6 0.65 40% 66% 0.13
3 0.6 50% 78% 0.12
7 0.5 60% 88% 0.1
2 0.35 70% 95% 0.07
5 0.25 80% 100% 0.05
8 0 90% 100% 0
1 0 100% 100% 0
5.00
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
Text Mining – Catégorisation de nouvelles (1/3)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29
Text Mining – Catégorisation de nouvelles (2/3)
Mots clés Phrase Les Chercheurs Qui Cherchent On En Trouve Mais Trouvent Cherche
1 1 1 1 1 1 1 1 0 0 0
• lemmatisation
2 1 1 1 0 1 1 0 1 1 1
• stopwords
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30
Text Mining – Catégorisation de nouvelles (3/3)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
Quelle méthode utiliser par rapport :
• aux objectifs de l’étude ?
• aux données disponibles ?
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
Tableau de données
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33
Types de variables
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34
Distinguer les types de variables
0 , si x a = x b
Nominale : d AB =
1, si x a ≠ x b
+ 1, si x a > x b
Ordinale : d AB = 0 , si x a = x b
− 1, si x < x
a b
Continue : d AB = x a − x b
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 35
Qualitatives vers continues
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 36
Continues vers ordinales
Discrétisation
par expert
automatique non-contextuelle
automatique contextuelle
age age
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 37
Continues vers continues
Standardisation
centrage ex : taille = 2m20, taille = 0m50 au dessus de la moyenne
réduction ex : taille = 0m50 ou taille = 50cm au dessus de la moyenne
Transformation distributionnelle
78
24
72
22
66
20
60
18
54
16
48
14
42
x 2 = ln( x1 )
12
36
10
30
8
24
6
18
4
12
2
6
0
0 <= -3 (-2.5;-2] (-1.5;-1] (-.5;0] (.5;1] (1.5;2] (2.5;3]
<= 0 (0;2] (2;4] (4;6] (6;8] (8;10] (10;12] (12;14] > 14 (-3;-2.5] (-2;-1.5] (-1;-.5] (0;.5] (1;1.5] (2;2.5] >3
Var Orig. Var Transf.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 38
Typologie des méthodes selon les objectifs
Description : Structuration :
trouver un résumé des Faire ressurgir des groupes « naturels »
données qui soit plus intelligible qui représentent des entités particulières
• statistique descriptive • classification (clustering, apprentissage non-
• analyse factorielle supervisé)
Explication :
Association :
Prédire les valeurs d’un attribut (endogène)
Trouver les ensembles de descripteurs
à partir d’autres attributs (exogènes)
qui sont le plus corrélés
• régression
• règles d’assocation
• apprentissage supervisé
Ex : rayonnage de magasins, les personnes
Ex : prédire la qualité d’un client (rembourse
qui achètent du poivre achètent également du
ou non son crédit) en fonction de ses caractéristiques
sel
(revenus, statut marital, nombre d’enfants, etc.)
Explication
Endogène continue
Endogène continue Exogènes discrètes
Exogènes continues
Analyse de variance
Régression
Endogène discrète
Exogènes quelconques
Apprentissage supervisé
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 40
(1) Logiciels
(2) Ouvrages et ressources en ligne
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 41
Logiciels de DATA MINING – Fonctionnalités
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 42
Logiciels de DATA MINING – Les logiciels disponibles
Commerciaux
SPAD
SAS Enterprise miner
• Simplicité du pilotage (filière - diagramme)
SPSS Clementine • Techniques variées
• Déploiement
STATISTICA Data Miner • Outils de « reporting »
IBM Intelligent Miner
RAPIDMINER (*)
KNIME (*)
Universitaires
R (*)
TANAGRA • Spécifique à certaines techniques
• Techniques référencées - publiées
SIPINA v2.5 & Recherche • Outils de validation
WEKA (*)
ORANGE
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 43
Conclusion
La démarche DATA MINING
Pas de miracle si :
Les objectifs sont mal définis
Les données disponibles ne conviennent pas
Les données sont mal « préparées »
On n’utilise pas les techniques appropriées
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 44
Bibliographie : pratique du Data Mining
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 45
Bibliographique : compréhension des méthodes
• « Data Mining : Practical machine learning tools and techniques with Java
implementations », I. Witten and E. Frank, Morgan Kaufman Pub., 2000.
Très général et complet, logiciel libre accès, technique
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 46
Ressources en ligne
• http://www.kdnuggets.com
« Le » portail du DATA MINING, avec toute l’actualité du domaine
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 47