MACHINE
LEARNING
PR. SANAA EL FILALI
ANNÉE UNIVERSITAIRE 2024-2025
Séance 4
PREPARATION DE
DONNÉES
Avant d'entraîner un modèle de Machine Learning, nous devons
nous assurer que les données sont propres, bien formatées et
prêtes à être utilisées.
==> Un bon modèle avec des données mal
préparées donnera de mauvais résultats
Comprendre le problème Encodage des variables
Nettoyage des données
et les données catégorielles (Conversion
(Valeurs manquantes, erreurs,
(Identification des en nombres
doublons)
variables)
Réduction de dimension Mise à l’échelle et
et sélection des variables transformation des
(Garder les variables les variables numériques
plus pertinentes) PCA (Standardisation,
Normalisation)
Une entreprise veut prédire si un client va acheter un produit en fonction de son
âge, son genre, sa ville et son salaire.
• Valeurs manquantes dans la colonne "Âge".
• Données catégorielles (Genre et Ville) non exploitables par un modèle
• Différences d’échelle (Salaire en milliers de dirhams)..
•
•
•
•
•
•
•
•
➡️
•
➡️
x : La valeur observée (donnée brute).
μ : La moyenne de la variable dans l’ensemble des données.
σ (sigma) : L'écart-type de la variable, qui mesure la dispersion
des valeurs autour de la moyenne.
z : La valeur standardisée qui indique combien d’écarts-types x
est éloigné de la moyenne.
Si z=0 → x est exactement égal à la moyenne.
Si z>0 →x est au-dessus de la moyenne.
Si z<0 → x est en dessous de la moyenne.
Si ∣z∣>2 ou ∣z∣>3 → x est une valeur aberrante (outlier).
•
•
•
X : La valeur observée (donnée brute)
Xmin : La plus petite valeur de la variable
Xmax : La plus grande valeur de la variable
Xnorm : La valeur normalisée (comprise entre 0 et 1)
•
•
•
Conclusion :
La normalisation garantit que toutes les variables sont sur la même échelle,
ce qui évite de donner plus d’importance à une variable simplement parce
qu’elle a une grande valeur numérique.
•
•
•
On supprime les variables fortement corrélées
pour éviter la redondance.
•
On garde seulement les dimensions importantes.
•
•
Ces composantes pourraient représenter des profils socio-économiques combinés (ex. âge +
salaire)
•
•
•
Ce code affichera une matrice de 4 lignes (1 par
individu) et 2 colonnes (les 2 composantes
principales), où chaque ligne représente un
individu projeté dans le nouvel espace PCA :
⃣
⃣
⃣
⃣
⃣
🔹
🔹
•
•
•
🔹
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•