0% ont trouvé ce document utile (0 vote)
323 vues29 pages

Machine Learning Preparation Des Donnéees

La préparation des données est essentielle avant d'entraîner un modèle de Machine Learning, impliquant le nettoyage, l'encodage des variables et la mise à l'échelle. Un exemple pratique est donné pour prédire l'achat d'un produit en fonction de caractéristiques client, en soulignant l'importance de traiter les valeurs manquantes et les données catégorielles. La normalisation et la réduction de dimension sont également abordées pour garantir que les variables sont sur la même échelle et éviter la redondance.

Transféré par

aiworld.hamza
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
323 vues29 pages

Machine Learning Preparation Des Donnéees

La préparation des données est essentielle avant d'entraîner un modèle de Machine Learning, impliquant le nettoyage, l'encodage des variables et la mise à l'échelle. Un exemple pratique est donné pour prédire l'achat d'un produit en fonction de caractéristiques client, en soulignant l'importance de traiter les valeurs manquantes et les données catégorielles. La normalisation et la réduction de dimension sont également abordées pour garantir que les variables sont sur la même échelle et éviter la redondance.

Transféré par

aiworld.hamza
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

MACHINE

LEARNING
PR. SANAA EL FILALI

ANNÉE UNIVERSITAIRE 2024-2025


Séance 4
PREPARATION DE
DONNÉES
Avant d'entraîner un modèle de Machine Learning, nous devons
nous assurer que les données sont propres, bien formatées et
prêtes à être utilisées.

==> Un bon modèle avec des données mal


préparées donnera de mauvais résultats
Comprendre le problème Encodage des variables
Nettoyage des données
et les données catégorielles (Conversion
(Valeurs manquantes, erreurs,
(Identification des en nombres
doublons)
variables)

Réduction de dimension Mise à l’échelle et


et sélection des variables transformation des
(Garder les variables les variables numériques
plus pertinentes) PCA (Standardisation,
Normalisation)
Une entreprise veut prédire si un client va acheter un produit en fonction de son
âge, son genre, sa ville et son salaire.

• Valeurs manquantes dans la colonne "Âge".


• Données catégorielles (Genre et Ville) non exploitables par un modèle
• Différences d’échelle (Salaire en milliers de dirhams)..







➡️

➡️
x : La valeur observée (donnée brute).
μ : La moyenne de la variable dans l’ensemble des données.
σ (sigma) : L'écart-type de la variable, qui mesure la dispersion
des valeurs autour de la moyenne.
z : La valeur standardisée qui indique combien d’écarts-types x
est éloigné de la moyenne.

Si z=0 → x est exactement égal à la moyenne.


Si z>0 →x est au-dessus de la moyenne.
Si z<0 → x est en dessous de la moyenne.
Si ∣z∣>2 ou ∣z∣>3 → x est une valeur aberrante (outlier).



X : La valeur observée (donnée brute)
Xmin : La plus petite valeur de la variable
Xmax : La plus grande valeur de la variable
Xnorm : La valeur normalisée (comprise entre 0 et 1)




Conclusion :
La normalisation garantit que toutes les variables sont sur la même échelle,
ce qui évite de donner plus d’importance à une variable simplement parce
qu’elle a une grande valeur numérique.



On supprime les variables fortement corrélées
pour éviter la redondance.

On garde seulement les dimensions importantes.


Ces composantes pourraient représenter des profils socio-économiques combinés (ex. âge +
salaire)



Ce code affichera une matrice de 4 lignes (1 par
individu) et 2 colonnes (les 2 composantes
principales), où chaque ligne représente un
individu projeté dans le nouvel espace PCA :





🔹

🔹


🔹












Vous aimerez peut-être aussi