1. Introduction
Les données brutes, malgré leurs quantités qui augmentent de manière exponentielle,
. Le plus important, en fait ce sont les connaissances pour
lesquelles nous sommes tous assoiffés. Elles sont obtenues par la compréhension de ces
données. Mais plus nous avons de données plus ce processus devient difficile. De nos jours,
les changements de notre environnement sont dénotés par des capteurs qui sont devenus de
plus en plus nombreux. Par conséquent, la compréhension de ces données est très importante,
comme Piatestky-Shapiro a dit par, « as long as the world keeps producing data of all kinds at
an ever increasing rate, the demand for data mining will continue to grow ». D'où le
datamining devient une nécessité [10].
2. Définition de datamining
[12].
Une autre définition a été proposée par Michel Jambu, CNET, France Telecom, qui dit
décisions et de mettr
[13].
8
3. Les méthodes et techniques du datamining
Data mining
Approche Approche
descriptive prédictive
3.1.Approche descriptive
Non seulement, elles sont très vastes et composées de nombreux formats différents, mais
[14].
[14] :
9
Cette technique utilise des méthodes graphiques pour la clarté (analyse exploratoire des
données).
La segmentation : -à-dire des sous-ensembles) de
n
variables de créer des sous-ensembles disjoints de données. La segmentation définit
:
o Algorithme à priori.
o Algorithme du GRI (induction de règles généralisées).
3.2.Approche prédictive
L'analyse prédictive, est comme son nom l'indique une technique qui va essayer de
prévoir une évolution des événements en se basant sur l'exploitation de données stockés dans
la base de données [14].
[14] :
La classification : est une estimation qui travaille sur une variable cible catégorielle.
On parle de la classification car chaque valeur possible pour la variable cible va
définir une classe (ou type, ou catégorie) de données. Les méthodes les plus utilisées
dans la classification sont :
o Graphiques et nuages de points.
o Méthode des k plus proches voisins.
o Arbres de décision.
o Réseau de neurones.
11
compréhension de domaine d'application, les connaissances préalables pertinentes et les
objectifs de l'utilisateur final.
L'acronyme SEMMA [16] [17] signifie Sample, Explore, Modify, Model, Assess et
fait référence au processus de mener un projet DM. Le SAS (Statistical Analysis System)
Institute envisage un cycle en 5 étapes pour le processus :
Échantillonner : cette étape consiste à échantillonner les données en extrayant une
partie d'un ensemble de données suffisamment grand pour contenir les informations
importantes, mais suffisamment petites pour être manipulées rapidement.
Explorer : cette étape consiste à l'exploration des données en recherchant des
tendances et des anomalies imprévues afin de mieux comprendre et avoir des idées.
Modifier : cette étape consiste à modifier les données en créant, sélectionnant et
transformant les variables.
Modéliser : cette étape consiste à modéliser les données en utilisant un modèle de
datamining pour prédit de manière fiable le résultat souhaité.
Évaluer : cette étape consiste à évaluer les données en déterminant l'utilité et la
fiabilité des résultats du model de datamining et estimer son bon fonctionnement.
12
4.3.La méthode CRISP-DM
CRISP-DM signifie CRoss-Industry Standard Process for Data Mining [16] [17] . Il
consiste en un cycle qui comprend six étapes :
Comprendre le métier : cette phase initiale se concentre sur les objectifs et les
exigences du projet dans une perspective commerciale. Puis la conversion de ces
connaissances en des définitions du problème datamining et plan préliminaire conçu
pour atteindre les objectifs.
Comprendre les données : commence par une première collecte de données et se
poursuit par des activités afin de se familiariser avec les données, pour identifier les
problèmes de qualité des données, pour découvrir les premiers aperçus des données.
Préparation des données : la phase de préparation des données couvre toutes les
activités pour construire l'ensemble de données final à partir des données brutes
initiales.
Modélisation : dans cette phase, diverses modèles et techniques sont sélectionnés et
appliqués afin de choisir le bon modèle.
Évaluation : le ou les modèles obtenus sont évalués de manière plus approfondie et les
étapes exécutées pour le modèle sont revu pour être certain qu'il atteint correctement
les objectifs de l'entreprise.
Déploiement : création du modèle n'est généralement pas la fin du projet. Même si
aissances
acquises devront être organisées et présentées de manière que le client puisse les
utiliser.
13
CRISP-DM est extrêmement complet et documenté. Toutes ses étapes sont dûment
organisées, structurées et définis, ce qui permet de comprendre ou de réviser facilement un
projet.
Pour synthétiser cette section, nous proposons une étude comparative entre les
différents processus et les méthodologies présentés. Comme le tableau ci-dessous le montre, il
y a plusieurs caractéristiques communes entre les processus. La plupart des processus suivent
.
14
5. Le prétraitement de données
Les valeurs manquantes sont l'un des problèmes les plus courants dans le nettoyage
manquantes il faut en distinguer les causes, surtout si elles ne sont pas le simple fruit du
hasard. Une typologie a été développée qui les répartissant en 3 catégories [20]:
trop importante, ignorer les cas avec des données manquantes ne biaisera pas
.
MAR (Missing at random) : Le cas des données MCAR est peu courant. Il signifie
que la manque de données est liée à certaines des données observées.
MNAR (Missing not at random) : La donnée est manquante de façon non aléatoire
(MNAR). Un exemple répandu est le cas où des personnes avec un revenu important
refusent de le dévoiler.
Comme le schéma [18] [19] suivant montre, Il existe deux approches pour résoudre le
problème des valeurs manquantes, approche par imputation et approche par suppression.
15
Valeur manquante
Imputation Suppression
Suppression par
Série temporelle Générale Suppression par ligne Suppression par paire
colonne
Ajustement
saisonnier + Interpolation linéaire
interpolation
Cette approche consiste à remplacer la valeur manquante par une qui est déduite par
des méthodes et algorithmes prédéfinis.
16
des valeurs non manquantes dans une colonne, puis en remplaçant les valeurs
manquantes dans chaque colonne séparément et indépendamment des autres. Il
ne peut être utilisé qu'avec des données numériques.
o Des modèles de régression peuvent être construits pour prédire les valeurs
manquantes. La variable avec des données manquantes est utilisée comme
variable cible. Les variables avec des données complètes sont utilisés pour
générer l'équation de régression ; l'équation est ensuite utilisée pour prédire les
valeurs manquantes pour les cas incomplets.
o
fois les valeurs manquantes afin de combiner les résultats pour diminuer
Une valeur aberrante est une observation qui s'écarte tellement des autres
observations, qu'elle éveille les soupçons,
[21].
Les valeurs aberrantes peuvent être de deux types : univariées et multivariées. Des
valeurs aberrantes univariées peuvent être trouvées en examinant un seul espace de variable.
Des valeurs aberrantes multivariées peuvent être trouvées dans un espace à n-dimensions (de
n variables). Regarder les distributions dans des espaces à n dimensions peut être très difficile
pour le cerveau humain, c'est pourquoi nous devons former un modèle pour le faire pour nous
[22] [23].
Les valeurs aberrantes peuvent également se présenter sous différentes formes, selon
l'environnement : points aberrants ponctuels, aberrants contextuels ou aberrants collectifs. Les
points aberrants ponctuels sont des points de données uniques qui se trouvent loin du reste de
la distribution. Les valeurs aberrantes contextuelles peuvent être du bruit dans les données,
comme les symboles de ponctuation lors de l'analyse de texte ou le signal de bruit de fond lors
de la reconnaissance vocale. Les valeurs aberrantes collectives peuvent être des sous-
ensembles de nouveautés dans des données telles qu'un signal qui peut indiquer la découverte
de nouveaux phénomènes [22] [23].
17
Boite à moustache :
Dans la statistique descriptive, une boîte à moustaches est une méthode pour
représenter graphiquement des groupes de données numériques à travers leurs quartiles. Les
valeurs aberrantes peuvent être tracées sous forme de points individuels [22] [23].
La définition ci-dessus suggère que s'il y a une valeur aberrante, elle sera tracée
comme un point dans le diagramme à boîte, mais d'autres populations seront regroupées et
affichées sous forme de boîtes.
Nuage de points :
Un nuage de points est un type de graphique ou de diagramme mathématique utilisant
des coordonnées cartésiennes pour afficher les valeurs de généralement deux variables pour
un ensemble de données [22] [23].
En regardant le graphique ci-dessus, on peut dire que la plupart des points de données
se trouvent en bas à gauche, mais il y a des points qui sont loin de la population comme le
coin supérieur droit donc le nuage des points peut être utilisé pour déterminer les points
aberrants visuellement.
18
La cote z :
Est une métrique qui indique le nombre d'écart-type d'un point de données par rapport
à la moyenne de l'échantillon, en supposa elle suit une distribution gaussienne. Très
souvent, les points de données ne sont pas décrits par une distribution gaussienne, ce
problème peut être résolu en appliquant des transformations c'est-à-dire normaliser les
données [22] [23].
Après le calcul de la cote z pour chaque point de l'ensemble de données, un seuil doit
être spécifié pour définir les points aberrants.
En supprimant les points de données qui dépassent le seuil choisi, on est en train de
classer les données en valeurs aberrantes et non en valeurs aberrantes.
Isolation Forest :
isoler les anomalies qui sont à la fois peu nombreuses et différentes dans l'espace des
variables [22] [23].
19
Minimum Covariance Determinant :
Si les variables d'entrée ont une distribution gaussienne, des méthodes statistiques
simples peuvent être utilisées pour détecter les valeurs aberrantes. Par exemple, si le jeu de
données à deux variables d'entrée et que les deux sont gaussiennes, alors l'espace d'entités
forme une gaussienne multidimensionnelle et cette distribution peut être utilisée pour
identifier des valeurs éloignées de la distribution [22] [23].
Cette approche peut être généralisée en utilisant une hypersphère (ellipsoïde) qui
couvre les données normales, et les données qui ne correspondent pas à cette forme sont
One-Class SVM :
L'algorithme SVM développé initialement pour la classification binaire peut être
utilisé pour la classification à une classe.
Lors de la modélisation d'une classe, l'algorithme capture la densité de la classe
majoritaire et classe les exemples sur les extrêmes comme des valeurs aberrantes. Cette
modification de SVM est appelée One Class SVM [22] [23].
Cette technique prétraite les attributs pour supprimer celles qui ne sont probablement
pas utile pour le modèle. Elle n'utilise absolument pas d'algorithme d'apprentissage. Ces
méthodes permettent la génération de sous-
caractéristique et la variable de réponse, et filtrer les attributs qui tombent en dessous d'un
seuil. Les techniques de filtrage sont beaucoup moins chères que la méthode enveloppante
décrites ci-après, mais elles ne prennent pas en compte le modèle employé. Par conséquent,
ils peuvent ne pas être en mesure de sélectionner les bonnes fonctionnalités pour le modèle.
Il est préférable de préfiltrer de manière conservatrice, afin de ne pas éliminer des attributs
utiles avant même qu'elles ne parviennent à l'étape de création du modèle [24] [25].
20
5.3.2. La méthode enveloppante
Cette technique est très coûteuse, mais elle permet d essayer plusieurs sous-ensembles
non informatives en elles-mêmes mais utiles lorsqu elles sont combinées. La méthode
enveloppante traite le modèle sous la forme d une boîte noire qui fournit un score à chaque
sous- -à- availle sur
la totalité des individus avec différents sous-
-ensemble
induisant le classifieur le plus précis est sélectionné [24] [25].
:
Cette méthode teste toutes les combinaisons possibles des attributs c'est-à-dire si on a
n attributs, on doit tester combinaisons. Pour
le modèle. A la fin, on choisit le sous-
21
Backward Stepwise Selection (Recursive Feature Elimination):
Ces méthodes effectuent la sélection des attributs pendant la création du modèle. Par
exemple, un arbre de décision effectue de manière inhérente la sélection des attributs car il
utre exemple est le
régularisateur qui peut être ajouté à l'objectif d'entraînement de tout modèle linéaire. Le
régularisateur encourage les modèles qui utilisent quelques attributs plutôt que beaucoup
e contrainte de rareté sur le modèle. Les
méthodes ne sont pas aussi puissantes que les méthodes enveloppantes, mais ils sont loin
d'être aussi chères. Par rapport au filtrage, les méthodes intégrées sélectionnent des
fonctionnalités spécifiques au modèle. En ce sens, les méthodes intégrées parviennent à un
équilibre entre les dépenses de calcul et la qualité des résultats [24] [25].
Dans un p
classe majoritaire sont largement supérieures en nombre à celles de la classe minoritaire. Tous
ce à
négliger la classe minoritaire, qui est dans la majorité des cas la plus intéressante, à cause de
22
cette disproportion. Le déséquilibre des classes
de la variable cible est beaucoup moins représentée que les autres, ce qui perturbe les
[26].
Le traitement des classes déséquilibrées est un problème qui survient fréquemment
dans le datamining. En général, de nombreuses méthodes ont été proposées pour équilibrer les
classes. Les techniques les plus utilisées pour gérer ce problème sont développée dans cette
section. Le schéma suivant [26] illustre les méthodes disponibles qui sont classées en trois
types. Il s'agit notamment des méthodes qui agissent au niveau de prétraitement de données,
au niveau algorithmique et des méthodes hybrides.
Ces méthodes sont souvent appelées méthodes externes car elles tentent d'équilibrer
les données en réduisant les échantillons de classe majoritaire ou en supprimant
respectivement l'échantillonnage de la classe minoritaire connu sous le nom de sous-
échantillonnage et de sur-échantillonnage [26].
Le sous-échantillonnage :
Le sous-échantillonnage est un moyen pour rééquilibrer les jeux de données en
23
Le sur-échantillonnage :
-échantillonnage, le sur-échantillonnage consiste à augmenter le
dupliquer aléatoirement les individus, mais cette solution risque de ralentir les algorithmes en
ajoutant des individus, tout en fournissant des modèles incapables de généraliser (risque de
sur-apprentissage). Pour éviter ces problèmes plusieurs méthodes ont été proposées :
[27] est une technique qui permet de générer des individus artificiels
dans la classe minoritaire. Une autre technique de sur-échantillonnage [28] qui traite surtout le
problème des cas rares et le déséquilibre intra-
classe sont regroupés dans des sous-
regroupements sont détectés par une technique de classification non supervisée, puis les sous-
regroupements sont sur-échantillonnés indépendamment pour que chacun, quel que soit sa
.
:
ssage sensible aux coûts est une autre stratégie algorithmique. Le principe
des algorithmes appartenant à cette catégorie consiste à fixer des coûts inégaux sur les
Metacost [31] une approche qui
e aux coûts.
Approche ensemble :
[32].
Le boosting : est un algorithme itératif qui consiste à affecter des poids différents aux
individus. Après chaque itération le poids sur les individus mal classés augmente et
celui sur les individus classés correctement diminue. Les erreurs étant souvent
24
concentrées
est le tirage aléatoire avec remise sur un échantillon de taille N. Les classifieurs ainsi
-
échantillonnage avec sous-
proches de sur-
échantillonnage et la diminution des échantillons de la classe majoritaire par les approches de
sous-échantillonnage pour équilibrer la répartition des classes. Par exemple Peng et Yao
proposent une approche hybride appelée AdaOUBoost (Adaptive Over-sampling and Under-
sampling Boost). Cette approche permet de sur-échantillonner les instances positives de la
-échantillonner les instances négatives
de la classe majoritaire pour former des sous classifieurs différents et de combiner ces sous
classifieurs en fonction de leur précision pour créer un classifieur fort, qui vise à utiliser
La matrice de confusion est une matrice qui mesure la qualité d'un classifieur. Chaque
ligne correspond à une classe réelle, chaque colonne correspond à une classe estimée. La
cellule ligne L, colonne C contient le nombre d'éléments de la classe réelle L qui ont été
estimés comme appartenant à la classe C [33].
Un des intérêts de la matrice de confusion est qu'elle montre rapidement si un
classifieur parvient à classifier correctement.
25
Figure 13 La matrice de confusion.
globale :
Correspond à la proportion d'observations mal classées, qui dépend du ratio entre la
trace de la matrice de confusion (c'est-à-dire la somme des coefficients diagonaux, donc le
nombre de mauvaise prédictions), et la somme de tous les coefficients (autrement dit le
nombre total de prédictions) [33].
26
La précision :
Elle mesure combien d'observations prédites comme positives sont en réalité positives
[33].
Le F-mesure :
La précision et le rappel ne pe
classificateur puisque les bonnes performances dans l'un de s
nécessairement les bonnes performances de l'autre. Pour cette raison, le F-mesure, une
combinaison populaire est couramment utilisée comme une seule métrique pour évaluer les
performances du classificateur. La mesure F est définie comme la moyenne harmonique de
précision et de rappel [33].
La courbe ROC :
Il s'agit d'un graphe qui visualise le compromis entre le taux de vrai positif (TPR) et le
taux de faux positif (FPR). Pour chaque seuil, on calcule le TPR et le FPR et les place le
graphe [33].
Bien sûr, le TPR plus élevé et le FPR inférieur sont meilleurs pour chaque seuil et
donc les classificateurs qui ont des courbes plus en haut à gauche sont les meilleurs.
27
Figure 14 La courbe ROC.
:
Afin d'obtenir un nombre qui nous indique la qualité de notre courbe, nous pouvons
calculer l'aire sous la courbe ROC, ou le score ROC AUC. Plus votre courbe est en haut à
gauche, plus la surface est élevée et donc le score ROC AUC plus élevé [33].
Du point de vue de l'interprétation, il est plus utile car il nous indique que cette métrique
montre à quel point les prédictions de votre modèle sont bonnes.
7. Démarche de validation
Le but de l'évaluation est d'estimer au mieux les performances d'un classifieur sur de
nouvelles données, c'est-à-dire lorsque le classifieur sera utilisé en pratique.
L'évaluation doit donc reposer sur une démarche permettant de capturer la capacité du
classifieur à à de nouvelles données. C'est pourquoi, plutôt que d'utiliser un seul et
même jeu de données pour la phase d'apprentissage et la phase d'évaluation, on préfère, via
des techniques d'échantillonnage, construire et évaluer un classifieur sur des données
indépendantes tirées d'une même population. On parle alors d'évaluation par validation
croisée, dont les deux principales variantes sont :
La validation croisée simple
La K-validation croisée
Cette démarche convient lorsque l'on travaille avec peu de données. Elle consiste
simplement à découper les données en deux échantillons, A pour l'apprentissage du modèle et
E pour l'évaluation, respectant la distribution de la variable de classe. Typiquement, on fait en
28
classifieur à partir des observations dans A, puis on construit la matrice de confusion en
prédisant la classe de chaque observation dans E [33].
7.2.K-Validation croisée
Lorsque l'erreur mesurée sur les données d'évaluation est trop élevée, il est important
d'essayer de déterminer l'origine du problème, afin de savoir comment la faire diminuer. Un
diagnostic possible se base sur la décomposition de l'erreur en biais / variance. Celui-ci repose
sur la comparaison de l'erreur mesurée sur les données d'apprentissage et les données
d'évaluation.
Biais :
Si l'erreur est aussi élevée sur les données d'apprentissage que sur les données
d'évaluation, alors on peut supposer un problème de biais trop élevé. Cela signifie que le
modèle est victime de sous-apprentissage [33].
Pour palier un problème de biais élevé, on peut tenter d'incorporer des descripteurs
supplémentaires ou bien changer de type de modèle.
Variance :
Si l'erreur est significativement moins élevée sur les données d'apprentissage que sur
les données d'évaluation, alors on peut supposer un problème de variance trop élevée. Cela
signifie que le modèle est victime de sur-apprentissage [33].
Pour palier un problème de variance élevée, on peut tenter de collecter plus d'individus ou
bien tenter de réduire le nombre de variables.
29
8. Conclusion
Le datamining e
entreprises de se concentrer sur les informations les plus importantes dans leurs bases de
données. Les outils du datamining peuvent prédire les futurs tendances et actions, permettant
de prendre les bonnes décisions. Dans ce chapitre nous avons vu les méthodes de conception
des modèles de datamining et les différents algorithmes qui existent pour chaque étape du
processus de création. Dans le chapitre suivant nous allons voir comment ces méthodes sont
utilisées pour
servirons également dans le développement de la solution finale.
30