Également appelé "preprocessing" en anglais, est
une étape cruciale dans le processus d'analyse des données. Il vise à préparer les données brutes pour une utilisation ultérieure, en les nettoyant, en les transformant et en les organisant de manière à ce qu'elles soient adaptées à l'analyse ou à l'entraînement de modèles. Collecte des données Rassemblement des données brutes à partir de différentes sources.
Dans notre exemple nous avons importé notre base de
données à partir du site web Kaggle (Hypothyroïdism disease), cette base de données a été adaptée en choisissant que les indicateurs pertinents qui représentent les symptômes de cette maladie Exploration des données (EDA - Exploratory Data Analysis) Analyse exploratoire pour comprendre la nature des données, identifier les valeurs manquantes, les valeurs aberrantes (outliers) et la distribution des données. Nettoyage des données
Gestion des valeurs manquantes en les supprimant, en les
remplaçant par des valeurs appropriées ou en utilisant des techniques d'imputation. Détection et traitement des valeurs aberrantes. Gestion des doublons. Transformation des données
Normalisation des données pour mettre toutes les
variables à la même échelle. Encodage des variables catégorielles en variables numériques (par exemple, one- hot encoding). Transformation des données pour créer de nouvelles fonctionnalités pertinentes. Réduction de dimension
Utilisation de techniques comme l'analyse en composantes
principales (PCA) pour réduire le nombre de dimensions et éliminer la redondance dans les données. Séparation des données
Division des données en ensembles d'entraînement, de
validation et de test. Gestion des données déséquilibrées (si nécessaire) Si les classes dans les données sont déséquilibrées, des techniques comme le suréchantillonnage (oversampling) ou le sous-échantillonnage (undersampling) peuvent être utilisées. Normalisation et standardisation
Application de techniques telles que la normalisation
(mise à l'échelle des données entre 0 et 1) ou la standardisation (centrage des données autour de zéro avec un écart-type de 1) selon les besoins. Création de jeux de données finaux
Construction des ensembles de données finaux à utiliser
pour l'entraînement et l'évaluation des modèles. Conclusion
Ces étapes peuvent varier en fonction du type de
données, du domaine d'application et de l'objectif spécifique de l'analyse ou du modèle que vous construisez. Le prétraitement des données est une étape itérative, et des ajustements peuvent être nécessaires en cours de route en fonction des découvertes faites au fur et à mesure de l'exploration des données.