Vous êtes sur la page 1sur 23

Chapitre 2 : Le datamining

1. Introduction

Les données brutes, malgré leurs quantités qui augmentent de manière exponentielle,
. Le plus important, en fait ce sont les connaissances pour
lesquelles nous sommes tous assoiffés. Elles sont obtenues par la compréhension de ces
données. Mais plus nous avons de données plus ce processus devient difficile. De nos jours,
les changements de notre environnement sont dénotés par des capteurs qui sont devenus de
plus en plus nombreux. Par conséquent, la compréhension de ces données est très importante,
comme Piatestky-Shapiro a dit par, « as long as the world keeps producing data of all kinds at
an ever increasing rate, the demand for data mining will continue to grow ». D'où le
datamining devient une nécessité [10].

2. Définition de datamining

Le Datamining consiste à explorer les données ; C'est un outil d'exploration des


données décisionnelles.

de données, prospection de données ou encore extraction de connaissances à partir de

quantités de données, par des algorithmes.


Le groupe Gartner, une entreprise américaine de conseil et de recherche dans le
domaine des techniques avancées, définit le datamining comme le procédé qui consiste à
découvrir des corrélations nouvelles et utiles, des régularités et des tendances en explorant de
grands volumes iques, ou
issues de la reconnaissance de formes [11].
Cependant

[12].
Une autre définition a été proposée par Michel Jambu, CNET, France Telecom, qui dit

décisions et de mettr
[13].

8
3. Les méthodes et techniques du datamining

Comme montre le schéma suivant, on distingue deux grandes catégories de techniques


dans le datamining : les techniques descriptives et les techniques prédictives [14].

Data mining

Approche Approche
descriptive prédictive

Représentation Segmentation Association Classification Estimation

Figure 2 les méthodes du le datamining [14]

3.1.Approche descriptive

ées mais cachées par le volume


s de variable
cible à prédire. En datamining, le descriptif permet de répondre à la question « pourquoi »
[14].

Non seulement, elles sont très vastes et composées de nombreux formats différents, mais

[14].

- apporte les outils qui permettent de


mettre au grand jour la connaissance fondamentale et actionnable qui se trouve dans les bases
de données.

[14] :

La représentation : consiste à mettre au jour


o Pour une variable donnée : la répartition de ses valeurs (tri, histogramme,
moyenne, minimum, maximum, etc.).
o Pour deux ou trois variables données : des liens entre les répartitions des
« tendances ».

9
Cette technique utilise des méthodes graphiques pour la clarté (analyse exploratoire des
données).
La segmentation : -à-dire des sous-ensembles) de
n
variables de créer des sous-ensembles disjoints de données. La segmentation définit

Les méthodes utilisées sont :


o Classification hiérarchique
o Classification des K-moyennes

variable cible. Toutes les variables peuvent à la fois être

:
o Algorithme à priori.
o Algorithme du GRI (induction de règles généralisées).

3.2.Approche prédictive

L'analyse prédictive, est comme son nom l'indique une technique qui va essayer de
prévoir une évolution des événements en se basant sur l'exploitation de données stockés dans
la base de données [14].

En effet, l'observation et l'historisation des événements peuvent permettre de prédire


une suite logique. Le meilleur exemple est celui des prévisions météorologiques qui se base
sur des études des évolutions météorologiques passées. En marketing, l'objectif est par
exemple de déterminer les profils d'individus présentant une probabilité importante d'achat ou
encore de prévoir à partir de quel moment un client deviendra infidèle [14].

[14] :

La classification : est une estimation qui travaille sur une variable cible catégorielle.
On parle de la classification car chaque valeur possible pour la variable cible va
définir une classe (ou type, ou catégorie) de données. Les méthodes les plus utilisées
dans la classification sont :
o Graphiques et nuages de points.
o Méthode des k plus proches voisins.
o Arbres de décision.
o Réseau de neurones.

: consiste à définir le lien entre un ensemble de prédicteurs et une


-à-dire dont
les valeurs sont connues tant pour les prédicteurs que pour la variable cible. Ensuite,
on peut déduire une variable cible inconnue de la connaissance des prédicteurs. À la
différence de la classification qui travaille sur une variable cible catégorielle,
10
méthodes :
o L
intervalle de confiance, estimation de points.
o Les réseaux de neurones

4. Les méthodes de conception des modèles du datamining

4.1.La méthode KDD

Le processus KDD [15]


-
échantillonnage et transformation requis de la base de données. Il y a cinq étapes dans le
processus KDD, présentées dans la figure ci-dessous :

La sélection : cette étape consiste à créer un ensemble de données cible ou à sous-

connaissance doit être effectuée.


Le prétraitement : cette étape consiste à nettoyer et prétraiter les données cibles afin
d'obtenir des données cohérentes.
La transformation : cette étape consiste à transformer les données par la réduction de
dimensionnalité ou autres méthodes.
La fouille des données (datamining) : cette étape consiste à l
plusieurs techniques (réseaux de neurones, réseaux bayésiens, arbres de décision, etc.)
pour extraire des patterns représentationnels.
: cette étape consiste en l'interprétation et l'évaluation de
modèle de datamining.

Figure 3 Les étapes de la méthode KDD [15]

Le processus KDD est interactif et itératif, impliquant de nombreuses étapes avec de


nombreuses décisions prises par l'utilisateur. Le processus KDD est précédé par une phase de

11
compréhension de domaine d'application, les connaissances préalables pertinentes et les
objectifs de l'utilisateur final.

4.2.La méthode SEMMA

L'acronyme SEMMA [16] [17] signifie Sample, Explore, Modify, Model, Assess et
fait référence au processus de mener un projet DM. Le SAS (Statistical Analysis System)
Institute envisage un cycle en 5 étapes pour le processus :
Échantillonner : cette étape consiste à échantillonner les données en extrayant une
partie d'un ensemble de données suffisamment grand pour contenir les informations
importantes, mais suffisamment petites pour être manipulées rapidement.
Explorer : cette étape consiste à l'exploration des données en recherchant des
tendances et des anomalies imprévues afin de mieux comprendre et avoir des idées.
Modifier : cette étape consiste à modifier les données en créant, sélectionnant et
transformant les variables.
Modéliser : cette étape consiste à modéliser les données en utilisant un modèle de
datamining pour prédit de manière fiable le résultat souhaité.
Évaluer : cette étape consiste à évaluer les données en déterminant l'utilité et la
fiabilité des résultats du model de datamining et estimer son bon fonctionnement.

Figure 4 Les étapes de la méthode SEMMA [16] [17]

Le processus SEMMA offre une bonne compréhension de processus datamining,


permettant un développement et une maintenance organisés et adéquats des projets DM. Il
confère ainsi une structure pour sa conception, sa création et son évolution, contribuant à
présenter des solutions aux problèmes des entreprises ainsi que de trouver des objectifs
commerciaux de DM.

12
4.3.La méthode CRISP-DM

CRISP-DM signifie CRoss-Industry Standard Process for Data Mining [16] [17] . Il
consiste en un cycle qui comprend six étapes :
Comprendre le métier : cette phase initiale se concentre sur les objectifs et les
exigences du projet dans une perspective commerciale. Puis la conversion de ces
connaissances en des définitions du problème datamining et plan préliminaire conçu
pour atteindre les objectifs.
Comprendre les données : commence par une première collecte de données et se
poursuit par des activités afin de se familiariser avec les données, pour identifier les
problèmes de qualité des données, pour découvrir les premiers aperçus des données.
Préparation des données : la phase de préparation des données couvre toutes les
activités pour construire l'ensemble de données final à partir des données brutes
initiales.
Modélisation : dans cette phase, diverses modèles et techniques sont sélectionnés et
appliqués afin de choisir le bon modèle.
Évaluation : le ou les modèles obtenus sont évalués de manière plus approfondie et les
étapes exécutées pour le modèle sont revu pour être certain qu'il atteint correctement
les objectifs de l'entreprise.
Déploiement : création du modèle n'est généralement pas la fin du projet. Même si
aissances
acquises devront être organisées et présentées de manière que le client puisse les
utiliser.

Figure 5 Les étapes de la méthode CRISP-DM [16] [17].

13
CRISP-DM est extrêmement complet et documenté. Toutes ses étapes sont dûment
organisées, structurées et définis, ce qui permet de comprendre ou de réviser facilement un
projet.

4.4.Une étude comparative entre les méthodes de conception des modèles du


datamining

Pour synthétiser cette section, nous proposons une étude comparative entre les
différents processus et les méthodologies présentés. Comme le tableau ci-dessous le montre, il
y a plusieurs caractéristiques communes entre les processus. La plupart des processus suivent
.

Les processus KDD SEMMA CRISP-DM


de datamining
Nombre des 7 5 6
étapes
Nom des Pre kdd / La comprehension du
phases business (Business
understanding)
Sélection et la création Echantillon des La compréhension
données (Sample) des données (Data
Prétraitement et le Exploitation des understanding)
nettoyage des données données (Explore)
Transformation des Modifier (Modify) La préparation des
données données (Data
preprocessing)
Exploration de données Modélisation La modèlisation
(Datamining) (Model) (Modeling)
Interprétation/Evaluation Evaluation Evaluation
(Assessment)
Post kdd / (Déploiement)
Deployment
Tableau 1 Une comparaison entre les méthodes de conception des modèles du datamining.

Mais comme nous le savons, la plupart des chercheurs et experts en exploration de


données suivent le modèle de processus KDD car il est plus complet et précis. En revanche
CRISP-DM et SEMMA sont principalement axés sur l'entreprise, en particulier SEMMA qui
est utilisé par l'entreprise SAS (Statistical Analysis System) et intégré avec leur logiciel.
Cependant, l'étude montre que CRISP-
que nous avons choisi d utiliser CRISP-DM.

14
5. Le prétraitement de données

5.1.Traitement des données manquantes

Les valeurs manquantes sont l'un des problèmes les plus courants dans le nettoyage

manquantes il faut en distinguer les causes, surtout si elles ne sont pas le simple fruit du
hasard. Une typologie a été développée qui les répartissant en 3 catégories [20]:

MCAR (missing completely at random) : -à-dire


manquante de façon complètement aléatoire. Par exemple : si chaque participant à un
sondage décide de répondre à la question du revenu en lançant un dé et en refusant de

trop importante, ignorer les cas avec des données manquantes ne biaisera pas
.

MAR (Missing at random) : Le cas des données MCAR est peu courant. Il signifie
que la manque de données est liée à certaines des données observées.

MNAR (Missing not at random) : La donnée est manquante de façon non aléatoire
(MNAR). Un exemple répandu est le cas où des personnes avec un revenu important
refusent de le dévoiler.
Comme le schéma [18] [19] suivant montre, Il existe deux approches pour résoudre le
problème des valeurs manquantes, approche par imputation et approche par suppression.

15
Valeur manquante

Imputation Suppression

Suppression par
Série temporelle Générale Suppression par ligne Suppression par paire
colonne

Données avec Moyenne, médiane,


Données avec
tendance et mode, régression
tendance et sans
saisonnalité linéaire, imputation
saisonnalité
multiple

Ajustement
saisonnier + Interpolation linéaire
interpolation

Figure 6 Les techniques de traitement des données manquantes [18] [19].

5.1.1. Approche par suppression

: consiste à ne considérer que les individus


pour lesquels toutes les données sont disponibles, i.e. en supprimant les lignes
comportant des valeurs manquantes. Cette méthode risque de supprimer trop de
[18] [19].
La suppression par paire (pairwise) :
est possible de faire de la suppression par paire [18] [19].
Suppression des variables : on peut supprimer des variables si les données manquent
de plus de 60% d'observations, mais uniquement si cette variable est insignifiante.
Cela dit, l'imputation est toujours un choix préféré par rapport à la suppression de
variables [18] [19].

5.1.2. Approche par imputation

Cette approche consiste à remplacer la valeur manquante par une qui est déduite par
des méthodes et algorithmes prédéfinis.

Méthodes générales [18] [19]:


o La moyenne, la médiane et le mode sont les techniques d'imputation les plus
courantes, les plus rapides et les plus élémentaires utilisées pour les données
manquantes. Cela fonctionne en calculant la moyenne, la médiane ou le mode

16
des valeurs non manquantes dans une colonne, puis en remplaçant les valeurs
manquantes dans chaque colonne séparément et indépendamment des autres. Il
ne peut être utilisé qu'avec des données numériques.
o Des modèles de régression peuvent être construits pour prédire les valeurs
manquantes. La variable avec des données manquantes est utilisée comme
variable cible. Les variables avec des données complètes sont utilisés pour
générer l'équation de régression ; l'équation est ensuite utilisée pour prédire les
valeurs manquantes pour les cas incomplets.
o
fois les valeurs manquantes afin de combiner les résultats pour diminuer

Méthodes de série temporelle [18] [19]


o Dernière valeur observée en avant (LOVF) ou prochaine valeur observée en
arrière (NOVB) : Ceci peut être utilisé pour des observations répétées d'une
valeur commune dans une variable. L'hypothèse serait soit la réponse aurait été
constituée de la dernière valeur ou de la valeur suivante.
o Interpolation linéaire : pour les données d'une série chronologique lorsqu'une
tendance linéaire est observée, cette technique peut être utilisée pour imputer
les données manquantes. Ceci peut être utilisé lorsqu'aucune saisonnalité n'est
observée dans les données.
o Saisonnalité et interpolation : Il s'agit d'une technique avancée lorsque la
saisonnalité et la tendance sont observées dans les données.

5.2.Traitement des valeurs aberrantes

Une valeur aberrante est une observation qui s'écarte tellement des autres
observations, qu'elle éveille les soupçons,
[21].
Les valeurs aberrantes peuvent être de deux types : univariées et multivariées. Des
valeurs aberrantes univariées peuvent être trouvées en examinant un seul espace de variable.
Des valeurs aberrantes multivariées peuvent être trouvées dans un espace à n-dimensions (de
n variables). Regarder les distributions dans des espaces à n dimensions peut être très difficile
pour le cerveau humain, c'est pourquoi nous devons former un modèle pour le faire pour nous
[22] [23].
Les valeurs aberrantes peuvent également se présenter sous différentes formes, selon
l'environnement : points aberrants ponctuels, aberrants contextuels ou aberrants collectifs. Les
points aberrants ponctuels sont des points de données uniques qui se trouvent loin du reste de
la distribution. Les valeurs aberrantes contextuelles peuvent être du bruit dans les données,
comme les symboles de ponctuation lors de l'analyse de texte ou le signal de bruit de fond lors
de la reconnaissance vocale. Les valeurs aberrantes collectives peuvent être des sous-
ensembles de nouveautés dans des données telles qu'un signal qui peut indiquer la découverte
de nouveaux phénomènes [22] [23].

17
Boite à moustache :
Dans la statistique descriptive, une boîte à moustaches est une méthode pour
représenter graphiquement des groupes de données numériques à travers leurs quartiles. Les
valeurs aberrantes peuvent être tracées sous forme de points individuels [22] [23].

La définition ci-dessus suggère que s'il y a une valeur aberrante, elle sera tracée
comme un point dans le diagramme à boîte, mais d'autres populations seront regroupées et
affichées sous forme de boîtes.

Figure 7 Boite à moustache

Nuage de points :
Un nuage de points est un type de graphique ou de diagramme mathématique utilisant
des coordonnées cartésiennes pour afficher les valeurs de généralement deux variables pour
un ensemble de données [22] [23].

Figure 8 Nuage des points

En regardant le graphique ci-dessus, on peut dire que la plupart des points de données
se trouvent en bas à gauche, mais il y a des points qui sont loin de la population comme le
coin supérieur droit donc le nuage des points peut être utilisé pour déterminer les points
aberrants visuellement.

18
La cote z :
Est une métrique qui indique le nombre d'écart-type d'un point de données par rapport
à la moyenne de l'échantillon, en supposa elle suit une distribution gaussienne. Très
souvent, les points de données ne sont pas décrits par une distribution gaussienne, ce
problème peut être résolu en appliquant des transformations c'est-à-dire normaliser les
données [22] [23].

Après avoir effectué les transformations appropriées, la cote z de tout point de


données peut être calculée avec l'expression suivante :

Après le calcul de la cote z pour chaque point de l'ensemble de données, un seuil doit
être spécifié pour définir les points aberrants.

Figure 9 La cote z, la distribution normale

En supprimant les points de données qui dépassent le seuil choisi, on est en train de
classer les données en valeurs aberrantes et non en valeurs aberrantes.

Isolation Forest :

isoler les anomalies qui sont à la fois peu nombreuses et différentes dans l'espace des
variables [22] [23].

point la donnée en question est

19
Minimum Covariance Determinant :
Si les variables d'entrée ont une distribution gaussienne, des méthodes statistiques
simples peuvent être utilisées pour détecter les valeurs aberrantes. Par exemple, si le jeu de
données à deux variables d'entrée et que les deux sont gaussiennes, alors l'espace d'entités
forme une gaussienne multidimensionnelle et cette distribution peut être utilisée pour
identifier des valeurs éloignées de la distribution [22] [23].
Cette approche peut être généralisée en utilisant une hypersphère (ellipsoïde) qui
couvre les données normales, et les données qui ne correspondent pas à cette forme sont

connue sous le nom de Minimum Covariance Determinant.

One-Class SVM :
L'algorithme SVM développé initialement pour la classification binaire peut être
utilisé pour la classification à une classe.
Lors de la modélisation d'une classe, l'algorithme capture la densité de la classe
majoritaire et classe les exemples sur les extrêmes comme des valeurs aberrantes. Cette
modification de SVM est appelée One Class SVM [22] [23].

5.3.La sélection des attributs

La sélection de variables permet de « sélectionner » un sous-ensemble de variables


considérées comme pertinentes. Les données d'entrée sont constituées par l'ensemble initial de
variables qui forment l'espace de représentation et l'ensemble des données d'apprentissage du
problème étudié [24] [25].

5.3.1. La méthode filtre

Cette technique prétraite les attributs pour supprimer celles qui ne sont probablement
pas utile pour le modèle. Elle n'utilise absolument pas d'algorithme d'apprentissage. Ces
méthodes permettent la génération de sous-

caractéristique et la variable de réponse, et filtrer les attributs qui tombent en dessous d'un
seuil. Les techniques de filtrage sont beaucoup moins chères que la méthode enveloppante
décrites ci-après, mais elles ne prennent pas en compte le modèle employé. Par conséquent,
ils peuvent ne pas être en mesure de sélectionner les bonnes fonctionnalités pour le modèle.
Il est préférable de préfiltrer de manière conservatrice, afin de ne pas éliminer des attributs
utiles avant même qu'elles ne parviennent à l'étape de création du modèle [24] [25].

20
5.3.2. La méthode enveloppante

Cette technique est très coûteuse, mais elle permet d essayer plusieurs sous-ensembles

non informatives en elles-mêmes mais utiles lorsqu elles sont combinées. La méthode
enveloppante traite le modèle sous la forme d une boîte noire qui fournit un score à chaque
sous- -à- availle sur
la totalité des individus avec différents sous-
-ensemble
induisant le classifieur le plus précis est sélectionné [24] [25].

:
Cette méthode teste toutes les combinaisons possibles des attributs c'est-à-dire si on a
n attributs, on doit tester combinaisons. Pour
le modèle. A la fin, on choisit le sous-

seulement 10 attributs, on doit tester sous-ensembles autrement dit on doit


entrainer 1024 modèles [24] [25].

Forward stepwise selection :


Cette méthode démarre avec un nombre nul (0)

suivantes. Cette opération est répétée le meilleur sous-ensemble de k-

modèle . Lorsque n= 10, le nombre total de modèle sera 56 ce qui réduit la


puissance de calcul [24] [25].

Figure 10 Forward stepwise selection [24] [25]

21
Backward Stepwise Selection (Recursive Feature Elimination):

arrête quand on atteint le nombre des attributs souhaités [24] [25].

Figure 11 Backward Stepwise Selection [24] [25]

5.3.3 La méthode intégrée

Ces méthodes effectuent la sélection des attributs pendant la création du modèle. Par
exemple, un arbre de décision effectue de manière inhérente la sélection des attributs car il
utre exemple est le
régularisateur qui peut être ajouté à l'objectif d'entraînement de tout modèle linéaire. Le
régularisateur encourage les modèles qui utilisent quelques attributs plutôt que beaucoup
e contrainte de rareté sur le modèle. Les
méthodes ne sont pas aussi puissantes que les méthodes enveloppantes, mais ils sont loin
d'être aussi chères. Par rapport au filtrage, les méthodes intégrées sélectionnent des
fonctionnalités spécifiques au modèle. En ce sens, les méthodes intégrées parviennent à un
équilibre entre les dépenses de calcul et la qualité des résultats [24] [25].

5.4.Traitement des classes déséquilibrées

Dans un p
classe majoritaire sont largement supérieures en nombre à celles de la classe minoritaire. Tous
ce à
négliger la classe minoritaire, qui est dans la majorité des cas la plus intéressante, à cause de

22
cette disproportion. Le déséquilibre des classes
de la variable cible est beaucoup moins représentée que les autres, ce qui perturbe les
[26].
Le traitement des classes déséquilibrées est un problème qui survient fréquemment
dans le datamining. En général, de nombreuses méthodes ont été proposées pour équilibrer les
classes. Les techniques les plus utilisées pour gérer ce problème sont développée dans cette
section. Le schéma suivant [26] illustre les méthodes disponibles qui sont classées en trois
types. Il s'agit notamment des méthodes qui agissent au niveau de prétraitement de données,
au niveau algorithmique et des méthodes hybrides.

Figure 12 Les méthodes de traitement des classes déséquilibrées [26]

5.4.1. Méthodes au niveau de prétraitement de données

Ces méthodes sont souvent appelées méthodes externes car elles tentent d'équilibrer
les données en réduisant les échantillons de classe majoritaire ou en supprimant
respectivement l'échantillonnage de la classe minoritaire connu sous le nom de sous-
échantillonnage et de sur-échantillonnage [26].

Le sous-échantillonnage :
Le sous-échantillonnage est un moyen pour rééquilibrer les jeux de données en

très simple, le sous-échantillonnage aléatoire, qui consiste à supprimer aléatoirement du jeu


e des individus appartenant à la classe majoritaire, de manière à équilibrer le

individus importants pour le concept de la classe majoritaire [26].

23
Le sur-échantillonnage :
-échantillonnage, le sur-échantillonnage consiste à augmenter le

dupliquer aléatoirement les individus, mais cette solution risque de ralentir les algorithmes en
ajoutant des individus, tout en fournissant des modèles incapables de généraliser (risque de
sur-apprentissage). Pour éviter ces problèmes plusieurs méthodes ont été proposées :
[27] est une technique qui permet de générer des individus artificiels
dans la classe minoritaire. Une autre technique de sur-échantillonnage [28] qui traite surtout le
problème des cas rares et le déséquilibre intra-
classe sont regroupés dans des sous-
regroupements sont détectés par une technique de classification non supervisée, puis les sous-
regroupements sont sur-échantillonnés indépendamment pour que chacun, quel que soit sa
.

5.4.2. Méthodes algorithmiques

Ces méthodes sont souvent appelées


nouvel

lorsque les données sont très déséquilibrées [29].


Plusieurs travaux ont été proposés dans cette famille citant le travail de Kubat [30] qui

en remarquant que si la classe est rare

:
ssage sensible aux coûts est une autre stratégie algorithmique. Le principe
des algorithmes appartenant à cette catégorie consiste à fixer des coûts inégaux sur les
Metacost [31] une approche qui

e aux coûts.

Approche ensemble :

[32].
Le boosting : est un algorithme itératif qui consiste à affecter des poids différents aux
individus. Après chaque itération le poids sur les individus mal classés augmente et
celui sur les individus classés correctement diminue. Les erreurs étant souvent

24
concentrées

individus appartenant à la classe minoritaire [32].

Le Bagging (Bootstrap aggregating) : est basée sur un processus stochastique qui


consiste à construire un ensemble de classifieurs diversifié. Chaque classifieur est

est le tirage aléatoire avec remise sur un échantillon de taille N. Les classifieurs ainsi

décision est connu sous le nom de forêt aléatoire [32].

5.3.4. Méthodes hybrides

-
échantillonnage avec sous-
proches de sur-
échantillonnage et la diminution des échantillons de la classe majoritaire par les approches de
sous-échantillonnage pour équilibrer la répartition des classes. Par exemple Peng et Yao
proposent une approche hybride appelée AdaOUBoost (Adaptive Over-sampling and Under-
sampling Boost). Cette approche permet de sur-échantillonner les instances positives de la
-échantillonner les instances négatives
de la classe majoritaire pour former des sous classifieurs différents et de combiner ces sous
classifieurs en fonction de leur précision pour créer un classifieur fort, qui vise à utiliser

classification des jeux de données déséquilibrées [26].

6. Les mesures de performance

6.1. La matrice de confusion

La matrice de confusion est une matrice qui mesure la qualité d'un classifieur. Chaque
ligne correspond à une classe réelle, chaque colonne correspond à une classe estimée. La
cellule ligne L, colonne C contient le nombre d'éléments de la classe réelle L qui ont été
estimés comme appartenant à la classe C [33].
Un des intérêts de la matrice de confusion est qu'elle montre rapidement si un
classifieur parvient à classifier correctement.

25
Figure 13 La matrice de confusion.

Le taux de succès global, accuracy :


Correspond à la proportion d'observations bien classées, qui dépend du ratio entre la
trace de la matrice de confusion (c'est-à-dire la somme des coefficients diagonaux, donc le
nombre de bonnes prédictions), et la somme de tous les coefficients (autrement dit le nombre
total de prédictions) [33].

globale :
Correspond à la proportion d'observations mal classées, qui dépend du ratio entre la
trace de la matrice de confusion (c'est-à-dire la somme des coefficients diagonaux, donc le
nombre de mauvaise prédictions), et la somme de tous les coefficients (autrement dit le
nombre total de prédictions) [33].

Le taux de vrais positifs, sensitivité, recall, rappel ("True positive rate") :


Il mesure le nombre d'observations parmi toutes les observations positives que nous
avons classées comme positives [33].

Le taux de vrais négatifs, spécificité ("True negative rate") :


Il mesure le nombre d'observations sur toutes les observations négatives que nous
avons classées comme négatives [33].

26
La précision :
Elle mesure combien d'observations prédites comme positives sont en réalité positives
[33].

Le F-mesure :
La précision et le rappel ne pe
classificateur puisque les bonnes performances dans l'un de s
nécessairement les bonnes performances de l'autre. Pour cette raison, le F-mesure, une
combinaison populaire est couramment utilisée comme une seule métrique pour évaluer les
performances du classificateur. La mesure F est définie comme la moyenne harmonique de
précision et de rappel [33].

Une valeur proche de 1 implique qu'une meilleure combinaison de précision et de


rappel est obtenue par le classificateur.

La courbe ROC :
Il s'agit d'un graphe qui visualise le compromis entre le taux de vrai positif (TPR) et le
taux de faux positif (FPR). Pour chaque seuil, on calcule le TPR et le FPR et les place le
graphe [33].
Bien sûr, le TPR plus élevé et le FPR inférieur sont meilleurs pour chaque seuil et
donc les classificateurs qui ont des courbes plus en haut à gauche sont les meilleurs.

27
Figure 14 La courbe ROC.

:
Afin d'obtenir un nombre qui nous indique la qualité de notre courbe, nous pouvons
calculer l'aire sous la courbe ROC, ou le score ROC AUC. Plus votre courbe est en haut à
gauche, plus la surface est élevée et donc le score ROC AUC plus élevé [33].
Du point de vue de l'interprétation, il est plus utile car il nous indique que cette métrique
montre à quel point les prédictions de votre modèle sont bonnes.

7. Démarche de validation

Le but de l'évaluation est d'estimer au mieux les performances d'un classifieur sur de
nouvelles données, c'est-à-dire lorsque le classifieur sera utilisé en pratique.
L'évaluation doit donc reposer sur une démarche permettant de capturer la capacité du
classifieur à à de nouvelles données. C'est pourquoi, plutôt que d'utiliser un seul et
même jeu de données pour la phase d'apprentissage et la phase d'évaluation, on préfère, via
des techniques d'échantillonnage, construire et évaluer un classifieur sur des données
indépendantes tirées d'une même population. On parle alors d'évaluation par validation
croisée, dont les deux principales variantes sont :
La validation croisée simple
La K-validation croisée

7.1.Validation croisée simple

Cette démarche convient lorsque l'on travaille avec peu de données. Elle consiste
simplement à découper les données en deux échantillons, A pour l'apprentissage du modèle et
E pour l'évaluation, respectant la distribution de la variable de classe. Typiquement, on fait en

28
classifieur à partir des observations dans A, puis on construit la matrice de confusion en
prédisant la classe de chaque observation dans E [33].

7.2.K-Validation croisée

La K-validation croisée [33] est la démarche la plus recommandée, à condition d'avoir


suffisamment de données pour pouvoir l'appliquer. Dans un premier temps, ayant choisi une
valeur pour k (typiquement, on prend k=10), on partitionne les données en morceaux de
même taille ( ). Ensuite, on construit k classifieurs, chacun à partir des
observations issues d'un morceau , i . Enfin, on construit pour chaque classifieur
une matrice de confusion sur la base des observations issues des k-1 autres morceaux
( ). On obtient la matrice M ainsi :

7.2.1. Diagnostic biais / variance

Lorsque l'erreur mesurée sur les données d'évaluation est trop élevée, il est important
d'essayer de déterminer l'origine du problème, afin de savoir comment la faire diminuer. Un
diagnostic possible se base sur la décomposition de l'erreur en biais / variance. Celui-ci repose
sur la comparaison de l'erreur mesurée sur les données d'apprentissage et les données
d'évaluation.

Biais :
Si l'erreur est aussi élevée sur les données d'apprentissage que sur les données
d'évaluation, alors on peut supposer un problème de biais trop élevé. Cela signifie que le
modèle est victime de sous-apprentissage [33].
Pour palier un problème de biais élevé, on peut tenter d'incorporer des descripteurs
supplémentaires ou bien changer de type de modèle.
Variance :
Si l'erreur est significativement moins élevée sur les données d'apprentissage que sur
les données d'évaluation, alors on peut supposer un problème de variance trop élevée. Cela
signifie que le modèle est victime de sur-apprentissage [33].
Pour palier un problème de variance élevée, on peut tenter de collecter plus d'individus ou
bien tenter de réduire le nombre de variables.

29
8. Conclusion

Le datamining e

entreprises de se concentrer sur les informations les plus importantes dans leurs bases de
données. Les outils du datamining peuvent prédire les futurs tendances et actions, permettant
de prendre les bonnes décisions. Dans ce chapitre nous avons vu les méthodes de conception
des modèles de datamining et les différents algorithmes qui existent pour chaque étape du
processus de création. Dans le chapitre suivant nous allons voir comment ces méthodes sont
utilisées pour
servirons également dans le développement de la solution finale.

30

Vous aimerez peut-être aussi