Vous êtes sur la page 1sur 12

Les étapes fondamentales du

Preprocessing
Le prétraitement des données

 Également appelé "preprocessing" en anglais, est


une étape cruciale dans le processus d'analyse des
données. Il vise à préparer les données brutes pour
une utilisation ultérieure, en les nettoyant, en les
transformant et en les organisant de manière à ce
qu'elles soient adaptées à l'analyse ou à
l'entraînement de modèles.
Collecte des données
 Rassemblement des données brutes à partir de
différentes sources.

Dans notre exemple nous avons importé notre base de


données à partir du site web Kaggle (Hypothyroïdism
disease), cette base de données a été adaptée en
choisissant que les indicateurs pertinents qui représentent
les symptômes de cette maladie
Exploration des données (EDA -
Exploratory Data Analysis)
 Analyse exploratoire pour comprendre la nature
des données, identifier les valeurs manquantes,
les valeurs aberrantes (outliers) et la distribution
des données.
Nettoyage des données

 Gestion des valeurs manquantes en les supprimant, en les


remplaçant par des valeurs appropriées ou en utilisant des
techniques d'imputation. Détection et traitement des
valeurs aberrantes. Gestion des doublons.
Transformation des données

 Normalisation des données pour mettre toutes les


variables à la même échelle. Encodage des variables
catégorielles en variables numériques (par exemple, one-
hot encoding). Transformation des données pour créer de
nouvelles fonctionnalités pertinentes.
Réduction de dimension

 Utilisation de techniques comme l'analyse en composantes


principales (PCA) pour réduire le nombre de dimensions et
éliminer la redondance dans les données.
Séparation des données

 Division des données en ensembles d'entraînement, de


validation et de test.
Gestion des données déséquilibrées (si
nécessaire)
 Si les classes dans les données sont déséquilibrées, des
techniques comme le suréchantillonnage (oversampling)
ou le sous-échantillonnage (undersampling) peuvent être
utilisées.
Normalisation et standardisation

 Application de techniques telles que la normalisation


(mise à l'échelle des données entre 0 et 1) ou la
standardisation (centrage des données autour de zéro
avec un écart-type de 1) selon les besoins.
Création de jeux de données finaux

 Construction des ensembles de données finaux à utiliser


pour l'entraînement et l'évaluation des modèles.
Conclusion

 Ces étapes peuvent varier en fonction du type de


données, du domaine d'application et de l'objectif
spécifique de l'analyse ou du modèle que vous construisez.
Le prétraitement des données est une étape itérative, et
des ajustements peuvent être nécessaires en cours de
route en fonction des découvertes faites au fur et à
mesure de l'exploration des données.

Vous aimerez peut-être aussi