Vous êtes sur la page 1sur 47

Big Data & Data Mining

Partie III- Data Mining

Mme Karima Ben Slimane


IHEC de Sousse
2021-2022

1
1. Introduction Références
Partie III

Data Mining • Berry, M. J., & Linoff, G. S. (2004). Data mining techniques: for marketing,
sales, and customer relationship management. John Wiley & Sons.
(Fouille de • Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical
Données) learning: data mining, inference, and prediction. Springer Science & Business
Media.
• Zighed & Rakotomalala, « Extraction des Connaissances à partir des Données
(ECD) », in Techniques de l’Ingénieur, 2002.

2
1. Introduction
Partie III Définition du Data Mining

Data Mining « Le data mining est un procédé d’exploration et d’analyse de grandes


quantités de données dans le but de découvrir des phénomènes et des
règles significatives. »
1. Introduction « Le data mining est un outil qui permet de produire de la
2. Etape 1- Prétraitement connaissance, soit dans un but informatif, soit dans un but d’aide à la
3. Etape 2 – Fouille de décision »
données
▪ Le Data Mining est l’un des maillons de la chaîne de traitement pour
4. Etape 3 - Validation la découverte des connaissances à partir des données.
▪ Connaissance sous forme de modèles:
• décrire le comportement actuel des données et/ou
• prédire le comportement futur des données

3
1. Introduction
Partie III

Data Mining ▪ Le data mining ne se limite pas au traitement des données


structurées;
1. Introduction
2. Etape 1- Prétraitement ▪ aborder les corpus en langage naturel => text mining,
3. Etape 2 – Fouille de
données ▪ les images => image mining
4. Etape 3 - Validation
▪ le son => sound mining

▪ la vidéo => on parle alors plus généralement de multimedia mining.

4
1. Introduction KDD et Data Mining
Partie III
KDD: knowledge discovery in data bases
Data Mining ECD: extraction des connaissances à partir des données

Etape 1 – Pré-traitement des données


1. Introduction
Nettoyage, Intégration, Sélection et Transformation
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
Etape 2 – Fouille des données
données
4. Etape 3 - Validation Approches traditionnelles d’exploration, Classification,
Estimation, prédiction et segmentation, association

Etape 3 – Validation

Type et méthodes de validation

5
1. Introduction
Etape 1
Partie III
Pré-traitement des données

Data Mining
Le prétraitement des données représente 80% du temps total dans un
1. Introduction
projet de découverte d’information
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation
1. Préparation des données
2. Nettoyage des données
3. Transformations

6
1. Introduction
Partie III 1. Préparation des données

- Les données issues des entrepôts ne sont pas nécessairement toutes


Data Mining exploitables par des techniques de fouille de données.
- La plus part des techniques que nous utilisons ne traitent que des tableaux
1. Introduction de données numériques rangées sous forme lignes/colonnes.
2. Etape 1- Prétraitement - Les données acquises depuis l’entrepôt peuvent être de types différents
3. Etape 2 – Fouille de (textes de longueur variables, des images, des enregistrements quantitatifs
données ou des séquences vidéo.)
4. Etape 3 - Validation - La préparation consiste à homogénéiser les données et à les disposer en
tableau lignes/colonne.
 il s’agit presque toujours de la structure la mieux adaptée à l’exploitation
des données.

7
1. Introduction
Partie III 1. Préparation des données

Data Mining

1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation - Lignes: les enregistrements (clients)
- Colonnes: champs ou attributs

8
1. Introduction
2. Nettoyage des données
▪ Doublons, erreurs de saisie

▪ Doublons: donner plus d’importance aux valeurs répétées.


▪ Erreurs de saisie: peuvent être à l’origine d’un doublon non détecté.
• Doublon absolu : Plusieurs lignes qui ont les mêmes valeurs pour chaque colonne.
• Doublon relatif : Le cas le plus typique ce sont les lignes identiques sauf pour la colonne “id”.
• Quasi doublon : concerne les lignes qui sont presque identiques. La différence entre les lignes peut être une simple faute
de frappe (double espace au lieu d’un seul) ou des différences entre majuscule et minuscule.

=> Bémol et Bémolle


9
1. Introduction
Partie III 2. Nettoyage des données

▪ Valeurs aberrantes
Data Mining

1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation
La date d’abonnement des client 23130 et 31435 (11/11/1111)
 une erreur de saisie ou encore à une valeur de remplacement par défaut
d'une valeur manquante

10
1. Introduction
Partie III 2. Nettoyage des données

▪ Informations manquantes
Data Mining

1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation

11
2. Nettoyage des données
Partie III
Informations manquantes

Data Mining ▪ Ignorer la valeur en question ou la ligne entière

on perd de l’information lorsque le pourcentage de valeurs manquantes est élevé


1. Introduction
2. Etape 1- Prétraitement ▪ Remplacer la valeur manquante par la moyenne, la médiane ou le mode
3. Etape 2 – Fouille de
données ▪ Utiliser la moyenne pour la même classe (une meilleure approche)
4. Etape 3 - Validation
▪ Utiliser la valeur la plus probable (déduire le salaire à partir de l’âge et de la

profession).

▪ Utiliser des méthodes d’induction comme la régression ou les réseaux de neurones

12
1. Introduction

Partie III 2. Nettoyage des données

Erichissement
Ajout de nouveaux champs en conservant en général le même nombre
Data Mining d'enregistrements.
▪ Le même identifiant afin de fusionner des bases différentes
▪ Sources hétérogènes (problèmes de format de données apparaissent, des
1. Introduction conversions sont souvent nécessaires).
2. Etape 1- Prétraitement ▪ L'introduction de nouvelles valeurs manquantes ou aberrantes et une nouvelle
3. Etape 2 – Fouille de phase de nettoyage peut être nécessaire
données
4. Etape 3 - Validation

13
1. Introduction

Partie III 3. Transformation

Transformer un attribut A en une autre variable A’ qui soit plus approprié (selon les
Data Mining objectifs de l’étude)

Regroupements :
1. Introduction
2. Etape 1- Prétraitement • Certains attributs prennent un très grand nombre de valeurs discrètes
3. Etape 2 – Fouille de regrouper et ainsi obtenir un nombre de valeurs réduit
données
4. Etape 3 - Validation Dans l'exemple, nous regroupons les adresses par le code postal

14
1. Introduction

Partie III 3. Transformation

Transformation des attributs catégoriels :


Data Mining ▪ Les attributs catégoriels prennent leurs valeurs (souvent textuelles) dans un
ensemble fini donné :
1. Introduction
2. Etape 1- Prétraitement C'est le cas de la colonne magazine qui peut prendre les valeurs :
3. Etape 2 – Fouille de Sport, BD, Voiture, Maison, Musique.
données
4. Etape 3 - Validation ▪ 2 représentations sont possibles pour ces données :

• une représentation verticale

• une représentation horizontale ou éclatée.

15
1. Introduction
3. Transformation
Partie III
Représentation horizontale ou éclatée :

Data Mining

1. Introduction
Représentation horizontale
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation

La représentation horizontale est plus adaptée à la fouille de données

16
1. Introduction
3. Transformation
Partie III
Changements de type :
Pour certaines manipulations, comme des calculs de distance, des calculs de
Data Mining moyenne, il est préférable de modifier les types de certains attributs.
date de naissance et date d'abonnement ne permettent pas d'effectuer des
comparaisons, des différences => on peut les convertir en âge ou en durée.
1. Introduction
Uniformisation d'échelle :
2. Etape 1- Prétraitement
Certains algorithmes, comme la méthode des plus proches voisins, sont basés sur des
3. Etape 2 – Fouille de calculs de distance entre enregistrements :
données
▪ Des variations d'échelle selon les attributs sont autant de perturbations possibles
4. Etape 3 - Validation pour ces algorithmes.
• Pour le champ « Revenus » : centaines d'euros => convertir les revenus en les
divisant par mille.
=> L'intervalle de valeurs est alors dans la même échelle que les dates de
naissance et les durées d'abonnement.

17
1. Introduction
3. Transformation
Partie III
Mise à l'échelle
Data Mining 𝑥𝑖 − min(𝑥𝑖 )
• 𝑍𝑖 = entre 0 et 1
max(𝑥𝑖 )− min(𝑥𝑖 )

1. Introduction 𝑥𝑖
2. Etape 1- Prétraitement
• 𝑍𝑖 = « indexation d'une variable ».
𝑚
3. Etape 2 – Fouille de
𝑥𝑖 −𝑚
données • 𝑍𝑖 = standardisation ou « conversion en z-scores ».
𝜎
4. Etape 3 - Validation

18
1. Introduction
3. Transformation
Partie III

Data Mining

1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
4. Etape 3 - Validation

19
3. Transformation
Partie III
La pondération
Data Mining ▪ En pratique, on utilise souvent une pondération des attributs

▪ Le but de la pondération est de coder l'information selon laquelle une variable est
1. Introduction
2. Etape 1- Prétraitement plus (ou moins) importante que d'autres
3. Etape 2 – Fouille de ▪ Si nous pensons par exemple que deux familles avec le même revenu ont plus en
données
4. Etape 3 - Validation commun que deux familles qui ont des maisons de même superficie, et que nous
voulons que cela soit pris en compte lors du regroupement; nous pouvons biaiser
volontairement le résultat du regroupement en multipliant le champ revenu par un
poids plus élevé que celui de la superficie.

20
3. Transformation
Partie III
Construction de nouveaux agrégats
Data Mining ▪ Dans certains cas des agrégats d’attributs sont très importants pour la tâche
d’analyse.
▪ Un agrégat d’attribut est un nouvel attribut obtenu selon une transformation
1. Introduction précise.
2. Etape 1- Prétraitement Exemples
3. Etape 2 – Fouille de ▪ Le prix au mètre-carré d’un appartement, défini par le rapport entre le prix de
données l’appartement et la surface totale de l’appartement,
4. Etape 3 - Validation ▪ Si on dispose des dépenses de chaque client sur des intervalles de temps
consécutifs.
 nouvelles variables capables de capter les tendances des données à travers
des différences
 des ratios entre les montants de dépenses de périodes contiguës.

21
Fouille de données
Partie III

Data Mining

1. Introduction
2. Etape 1- Prétraitement
1. Les méthodes de visualisation et de description
3. Etape 2 – Fouille de
données
2. Les méthodes de segmentation et d’association
4. Etape 3 - Validation
3. Les méthodes de classification et de prédiction

22
Visualisation et de Description
Partie III
▪ L’objectif de ces méthodes est de permettre à l’analyste d’avoir une compréhension
synthétique de l’ensemble de ses données.
Data Mining ▪ Il s’agit donc principalement d’outils de synthèse d’information.

1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
- Visualisation et description
- Clustering et association
- Classification er prédiction
1. Etape 3 - Validation

23
Visualisation et de Description
Partie III
▪ Box-plot
Data Mining

1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
- Visualisation et description
- Clustering et association
- Classification er prédiction
1. Etape 3 - Validation

24
Visualisation et de Description
Partie III
▪ Nuage de points
• Il s’agit là d’une description bidimensionnelle.
Data Mining
• Elle permet de visualiser, entre autre, si un lien existe ou pas entre ces deux
facteurs.
1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
- Visualisation et description
- Clustering et association
- Classification er prédiction
1. Etape 3 - Validation

Source: Zighed & Rokatomalala (2002) 25


Visualisation et de Description
Partie III
▪ L’analyse des données multidimensionnelles

Data Mining

1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
- Visualisation et description
- Clustering et association
- Classification er prédiction
1. Etape 3 - Validation

Source: Zighed & Rokatomalala (2002)


26
Automatiser les informations sur un ensemble de données Processus de calcul consistant à découvrir
- Représenter des relation entre les variables d'entrée des modèles à partir des Big Data.
- Data mining pour découvrir des modèles cachés Utilise différents algorithme de Machine
Learning

Activité humaine
nécessaire pour extraire
de la connaissance à partir
des données Data Data Data Data
Science Analysis Analytics Mining

Traite des données


structurées et non structurée
Nettoyage, préparation et analyse des données
Qu’est ce que le Machine Learning (ML)? Apprentissage Automatique

Méthodes d’exploitation de
Le ML est multidisciplinaire:
données par des algorithmes
▪ Analyse statistique;
▪ Intelligence Artificielle (AI)
▪Business Intelligence (BI)
▪ Technologies de l’Information (IT)

Les algorithmes de ML vont apprendre sur


un jeu de données qu’on appelle
« ensemble d’apprentissage » ou
« collection d’enregistrements ».
Objectif : Prédire ou classifier
Apprentissage Supervisé vs Apprentissage Non Supervisé
Partie III

Data Mining Les données sont étiquetées


Apprentissage on connaît
supervisé les variables cibles
1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
- Visualisation et description
- Clustering et association Pas d’étiquetage
- Classification er prédiction
Apprentissage préalable
non supervisé des données
1. Etape 3 - Validation
Apprentissage Supervisé vs Apprentissage Non Supervisé
Partie III

Data Mining

1. Introduction
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
- Visualisation et description
- Clustering et association
- Classification er prédiction
1. Etape 3 - Validation
Régression, Classification, Clustering et Règles d’association ?
Partie III
Prédire la valeur future d’un
Régression attribut en fonction d’autres
attributs
Data Mining Apprentissage
supervisé
1. Introduction Examiner les caractéristiques
Classification d’un élément et lui attribuer
2. Etape 1- une classe.
Prétraitement
3. Etape 2 – Fouille de
données Règles Analyser les relations entre
- Visualisation et d’association les variables ou détecter des
description Apprentissage associations
- Clustering et association non supervisé
- Classification er prédiction Constituer des groupes
Clustering homogènes de la population
1. Etape 3 - Validation
étudiée
Partie III Apprentissage Supervisé
Prévision

Data Mining - Prédire la valeur future d’un attribut en fonction d’autres attributs.

- Exemple : l’impacte d’une campagne publicitaire en fonction des frais


1. Introduction engendrés.
2. Etape 1- Prétraitement - Ou établir la relation entre l’augmentation du prix d’un produit et sa
3. Etape 2 – Fouille de demande.
données
Classification
- Visualisation et description
- Clustering et association -Examiner les caractéristiques d’un élément et lui attribuer une
classe.
- Classification er prédiction
1. Etape 3 - Validation - Exemple : diagnostiquer si un client va acheter ou pas le produit

32
Apprentissage Non-Supervisé
Apprentissage Automatique
Partie III
Clustering
• constituer des groupes homogènes de la population étudiée.
Data Mining
• Exemple : la segmentation client -> identifier des groupes homogènes de
clients afin de les fidéliser.
1. Introduction
2. Etape 1- Prétraitement Règles d’association
3. Etape 2 – Fouille de
données • Analyser les relations entre les variables ou détecter des associations.
- Visualisation et description • « Panier de la ménagère »
- Clustering et association
- Classification er prédiction • Vont au-delà l'analyse des transactions dans les points de vente
1. Etape 3 - Validation • Trouver des relations entre d'autres types de «paniers».

• Exemple: Les articles achetés avec une carte de crédit donnent un aperçu
du prochain produit que les clients sont susceptibles d'acheter.
33 33
Algorithmes de ML
Partie III - Régression linéaire,
- Arbres de décision
Régression - Forêt aléatoire (Random Forest)
- Les réseaux de neurones
Data Mining - SVR
- KNN

1. Introduction - Arbres de décisions


Classification - Régression logistique
2. Etape 1- - Analyse discriminante
Prétraitement - Les plus porches voisins (KNN)
3. Etape 2 – Fouille de - Naïve Bayes
données - SVM
Règles
- Visualisation et d’association
description
- Clustering et association
- K-moyenne, k-médoïdes
- Classification er prédiction
Clustering - Hiérarchique
1. Etape 3 - Validation - Les réseaux de neurones
Les Arbres de Décision
Partie III

Data Mining • Utilisables aussi bien en classification qu’en régression.

1. Introduction • Présentent des règles facilement interprétables.


2. Etape 1- Prétraitement
• Les arbres de décision sont également utiles pour explorer les
3. Etape 2 – Fouille de
données données afin de mieux comprendre les relations d'un grand nombre
- Visualisation et description
- Clustering et association
de variables candidates avec une variable cible.
- Classification et prédiction
4. Etape 3 – Validation

35
Partie III Clustering

Data Mining • Le clustering permet de découvrir une structure dans le cas de


données complexes.
1. Introduction • Il devient possible de segmenter des clients en fonction de leurs
2. Etape 1- Prétraitement caractéristiques et comportements.
3. Etape 2 – Fouille de
données • Il existe plusieurs algorithmes de clustering :
- Visualisation et description
- Clustering et association - Les méthodes de partitionnement
- Classification er prédiction
- Les méthodes hiérarchiques.
1. Etape 3 - Validation

36
Partie III Similarité, distance et types de variables

• La qualité d’un clustering dépend de la mesure de similarité.


Data Mining
• Les définitions de distance sont très différentes selon le type

1. Introduction d’attribut.
2. Etape 1- Prétraitement
• Les variables se répartissent en 2 classes :
3. Etape 2 – Fouille de
données • Variables qualitatives (catégorielles, Ordinale)
- Visualisation et description
- Clustering et association • Variables quantitatives
- Classification er prédiction
1. Etape 3 - Validation

37
Règles d’association
Partie III
Populaire en raison de leur structure simple et intuitive, qui les rend facilement
Data Mining compréhensibles et similaires aux schémas logiques typiques du raisonnement
humain.
1. Introduction Dans plusieurs domaines d'application:
2. Etape 1- Prétraitement
▪ Analyse du panier de marché (panier de la ménagère)
3. Etape 2 – Fouille de
données ▪ Exploration Web (web mining).
- Visualisation et description
▪ Achats avec une carte de crédit.
- Clustering et association
- Classification er prédiction ▪ Détection de fraude
1. Etape 3 - Validation

38
Règles d’association
Partie III
Analyse du panier de marché (panier de la ménagère)
Data Mining ▪ Lorsqu'un client effectue un achat la transaction est enregistrée par le système
d'information du commerçant.

1. Introduction ▪ Pour chaque transaction enregistrée, une liste des articles achetés est stockée avec
le prix, l'heure et le lieu de la transaction.
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de ▪ Identifier les règles récurrentes qui relient l'achat d'un produit, ou d'un groupe de
données produits, à l'achat d'un autre produit, ou groupe de produits.
- Visualisation et description «un client qui achète des céréales pour petit-déjeuner achètera également du lait
- Clustering et association avec une probabilité de 0,68».
- Classification er prédiction Très utiles pour les responsables marketing dans la planification des initiatives
1. Etape 3 - Validation promotionnelles ou la définition de l'assortiment et de l'emplacement des produits
sur les rayons.

39
Règles d’association
Partie III
Exploration Web (web mining)

Data Mining ▪ la liste des pages visitées au cours d'une session est enregistrée comme une
transaction, éventuellement assortie d'un numéro de séquence et de l'heure de la
visite.
1. Introduction ▪ d'identifier des motifs réguliers éventuellement cachés dans les données qui
2. Etape 1- Prétraitement permettent d'associer une ou plusieurs pages en cours de visualisation à des visites
3. Etape 2 – Fouille de sur d'autres pages.
données
«si une personne visite le site « X », elle visitera également le « Y » dans un délai
- Visualisation et description
d’une semaine avec une probabilité de 0,87».
- Clustering et association
▪ Des règles d'association de ce type peuvent influencer la structure des liens entre
- Classification er prédiction
les pages, afin de faciliter la navigation et de recommander des chemins de
1. Etape 3 - Validation
navigation spécifiques, ou de placer des bannières publicitaires et autres messages
promotionnels.

40
Règles d’association
Partie III
Achats avec une carte de crédit.

Data Mining ▪ Analyser les achats effectués par les titulaires de carte de crédit afin d'orienter les
promotions futures.
Infinité de produits et services
1. Introduction
▪ Chaque transaction comprend les achats et les paiements effectués par un titulaire
2. Etape 1- Prétraitement
de carte de crédit.
3. Etape 2 – Fouille de
données Détection de fraude.
- Visualisation et description ▪ Dans le cas des compagnies d'assurance les transactions consistent en des rapports
- Clustering et association d'incidents et des demandes d'indemnisation pour les dommages subis.
- Classification er prédiction ▪ L'existence de combinaisons particulières peut révéler des comportements
1. Etape 3 - Validation potentiellement frauduleux et donc justifier une enquête approfondie

41
Plan Etape 3
Partie III

Data Mining
• Types de validations : statistique et par expertise
1. Introduction
• Validation en fouille non supervisée
2. Etape 1- Prétraitement
3. Etape 2 – Fouille de
données
• Validation en fouille supervisée
- Visualisation et description
- Clustering et association
- Classification et prédiction
4. Etape 3 – Validation

42
Types de validation
Partie III

Data Mining Dans cette étape, on distingue 2 modes de validation :

• Par un expert
1. Introduction
2. Etape 1- Prétraitement • Statistique
3. Etape 2 – Fouille de
données Pour certains domaines d'application (le diagnostic médical, par
- Visualisation et description exemple), le modèle produit doit être validé selon les 2 modes :
- Clustering et association
- Classification et prédiction • première validation du modèle produit par l'expert
4. Etape 3 – Validation
• seconde validation statistique sur des bases de cas existants

43
Validation en fouille non
Partie III supervisée
• Validation essentiellement par l'expert, éventuellement complétée
par une validation statistique :
Data Mining
• Pour la segmentation :
1. Introduction
• le programme construit des groupes homogènes, un expert
2. Etape 1- Prétraitement peut juger de la pertinence des groupes constitués
3. Etape 2 – Fouille de • on peut combiner avec une validation statistique sur un
données
problème précis utilisant cette segmentation.
- Visualisation et description
- Clustering et association
• Pour la recherche des règles d'association :
- Classification et prédiction
c'est l'expert du domaine qui jugera de la pertinence des règles,
4. Etape 3 – Validation
(si l'algorithme fournit des règles porteuses d'information, des
règles triviales ou sans intérêt)

44
Validation en fouille non
Partie III supervisée

Data Mining • Validation statistique : utilisation de méthodes de statistique


descriptive pour juger le résultat obtenu :
1. Introduction
2. Etape 1- Prétraitement
1. Calculer les moyennes et variances des attributs
3. Etape 2 – Fouille de 2. Si possible, calculer la corrélation entre certains champs
données
- Visualisation et description 3. Déterminer la classe majoritaire en classification.
- Clustering et association
- Classification et prédiction
4. Etape 3 – Validation

45
Validation en fouille supervisée
Partie III
Validation principalement statistique (2 tâches)
Data Mining

1. Introduction • Tâche 1 : utilisation de méthodes de statistique descriptive pour juger


2. Etape 1- Prétraitement le résultat obtenu, estimer la qualité ou les biais des données
3. Etape 2 – Fouille de
données d'apprentissage :
- Visualisation et description
1. Calculer les moyennes et variances des attributs
- Clustering et association
- Classification et prédiction 2. Si possible, calculer la corrélation entre certains champs
4. Etape 3 – Validation
3. Déterminer la classe majoritaire en classification.

46
Validation en fouille supervisée
Partie III
• Tâche 2 : décomposer les données en plusieurs ensembles disjoints,
Data Mining afin de garder des données pour estimer les erreurs des modèles ou
de les comparer, en constituant :
1. Introduction
2. Etape 1- Prétraitement • un ensemble d'apprentissage : permettant de générer le modèle
3. Etape 2 – Fouille de • un ensemble de test : permettant d'évaluer l'erreur réelle du
données modèle sur un ensemble indépendant évitant ainsi un biais
- Visualisation et description d'apprentissage
- Clustering et association • un ensemble de validation : utile quand il faut tester et comparer
- Classification et prédiction plusieurs modèles : le modèle est choisi selon ses performances
4. Etape 3 – Validation sur l'ensemble test, puis son erreur réelle est évaluée sur
l'ensemble de validation

47

Vous aimerez peut-être aussi