Machine Learning Preparation Des Donnéees

La préparation des données est essentielle avant d'entraîner un modèle de Machine Learning, impliquant le nettoyage, l'encodage des variables et la mise à l'échelle. Un exemple pratique est donné pour prédire l'achat d'un produit en fonction de caractéristiques client, en soulignant l'importance de traiter les valeurs manquantes et les données catégorielles. La normalisation et la réduction de dimension sont également abordées pour garantir que les variables sont sur la même échelle et éviter la redondance.

Transféré par

aiworld.hamza

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

323 vues29 pages

Machine Learning Preparation Des Donnéees

Transféré par

aiworld.hamza

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

MACHINE

LEARNING
PR. SANAA EL FILALI

ANNÉE UNIVERSITAIRE 2024-2025

Séance 4
PREPARATION DE
DONNÉES
Avant d'entraîner un modèle de Machine Learning, nous devons
nous assurer que les données sont propres, bien formatées et
prêtes à être utilisées.

==> Un bon modèle avec des données mal

préparées donnera de mauvais résultats
Comprendre le problème Encodage des variables
Nettoyage des données
et les données catégorielles (Conversion
(Valeurs manquantes, erreurs,
(Identification des en nombres
doublons)
variables)

Réduction de dimension Mise à l’échelle et

et sélection des variables transformation des
(Garder les variables les variables numériques
plus pertinentes) PCA (Standardisation,
Normalisation)
Une entreprise veut prédire si un client va acheter un produit en fonction de son
âge, son genre, sa ville et son salaire.

• Valeurs manquantes dans la colonne "Âge".

• Données catégorielles (Genre et Ville) non exploitables par un modèle
• Différences d’échelle (Salaire en milliers de dirhams)..
•
•
•
•
•
•
•
•

➡️
•

➡️
x : La valeur observée (donnée brute).
μ : La moyenne de la variable dans l’ensemble des données.
σ (sigma) : L'écart-type de la variable, qui mesure la dispersion
des valeurs autour de la moyenne.
z : La valeur standardisée qui indique combien d’écarts-types x
est éloigné de la moyenne.

Si z=0 → x est exactement égal à la moyenne.

Si z>0 →x est au-dessus de la moyenne.
Si z<0 → x est en dessous de la moyenne.
Si ∣z∣>2 ou ∣z∣>3 → x est une valeur aberrante (outlier).
•
•
•
X : La valeur observée (donnée brute)
Xmin : La plus petite valeur de la variable
Xmax : La plus grande valeur de la variable
Xnorm : La valeur normalisée (comprise entre 0 et 1)

•
•
•
Conclusion :
La normalisation garantit que toutes les variables sont sur la même échelle,
ce qui évite de donner plus d’importance à une variable simplement parce
qu’elle a une grande valeur numérique.
•
•
•
On supprime les variables fortement corrélées
pour éviter la redondance.
•
On garde seulement les dimensions importantes.
•
•
Ces composantes pourraient représenter des profils socio-économiques combinés (ex. âge +
salaire)

•
•

•
Ce code affichera une matrice de 4 lignes (1 par
individu) et 2 colonnes (les 2 composantes
principales), où chaque ligne représente un
individu projeté dans le nouvel espace PCA :
⃣
⃣
⃣
⃣
⃣
🔹

🔹
•
•
•

🔹
•

•
•

•
•
•
•

•
•
•
•
•
•
•
•

Vous aimerez peut-être aussi

Chapitre2 Exploration, Nettoyage Et Préparation Des Données
Pas encore d'évaluation
Chapitre2 Exploration, Nettoyage Et Préparation Des Données
56 pages
Introduction aux KNN en Machine Learning
Pas encore d'évaluation
Introduction aux KNN en Machine Learning
8 pages
Analyse des données pour l'attribution de crédit
Pas encore d'évaluation
Analyse des données pour l'attribution de crédit
17 pages
ACP : Guide d'Analyse Multivariée et Visualisation
Pas encore d'évaluation
ACP : Guide d'Analyse Multivariée et Visualisation
18 pages
CoursWB CRISPDM
100% (1)
CoursWB CRISPDM
13 pages
POO en Python : Classes et Objets
Pas encore d'évaluation
POO en Python : Classes et Objets
19 pages
Données Et Dataviz - Lecture2-3LSI-ADBD
Pas encore d'évaluation
Données Et Dataviz - Lecture2-3LSI-ADBD
3 pages
Rapport Stage Lamme ABRAICH AYOUB
Pas encore d'évaluation
Rapport Stage Lamme ABRAICH AYOUB
97 pages
Chapitre1 Mapreduce
Pas encore d'évaluation
Chapitre1 Mapreduce
20 pages
K-Means et méthode du coude
Pas encore d'évaluation
K-Means et méthode du coude
47 pages
Presentation KNN
Pas encore d'évaluation
Presentation KNN
11 pages
TP Acp
Pas encore d'évaluation
TP Acp
12 pages
Chap 4
Pas encore d'évaluation
Chap 4
46 pages
TP3 LPEBI Correction
Pas encore d'évaluation
TP3 LPEBI Correction
32 pages
Analyse de Données IA avec Python
Pas encore d'évaluation
Analyse de Données IA avec Python
22 pages
Programmation C : Fonctions et Tableaux
Pas encore d'évaluation
Programmation C : Fonctions et Tableaux
3 pages
Méthodologie du Data Mining expliquée
Pas encore d'évaluation
Méthodologie du Data Mining expliquée
46 pages
Notions Clés du Machine Learning
Pas encore d'évaluation
Notions Clés du Machine Learning
18 pages
Examen TALN 2022 - ESI Alger
Pas encore d'évaluation
Examen TALN 2022 - ESI Alger
5 pages
Pfa 1
Pas encore d'évaluation
Pfa 1
22 pages
Gestion de base de données informatique
Pas encore d'évaluation
Gestion de base de données informatique
7 pages
TP4: Apprentissage Supervisé en IA
Pas encore d'évaluation
TP4: Apprentissage Supervisé en IA
5 pages
Gestion des données manquantes et binning
Pas encore d'évaluation
Gestion des données manquantes et binning
1 page
Cours d'e-Business Intelligence Master TIC
Pas encore d'évaluation
Cours d'e-Business Intelligence Master TIC
105 pages
TP2 Prétraitement Des Données Ipynb - Colab
Pas encore d'évaluation
TP2 Prétraitement Des Données Ipynb - Colab
10 pages
Exercice de régression linéaire en Python
Pas encore d'évaluation
Exercice de régression linéaire en Python
2 pages
Cours Sur Les Généralités Du Machine Learning
Pas encore d'évaluation
Cours Sur Les Généralités Du Machine Learning
12 pages
Règles d'Association en Data Mining
100% (1)
Règles d'Association en Data Mining
21 pages
TP Arbre de Décision avec SIPINA
100% (1)
TP Arbre de Décision avec SIPINA
3 pages
Examen Analyse des Données STID 2ème année
100% (1)
Examen Analyse des Données STID 2ème année
4 pages
Exam IA 2018 - 2019
Pas encore d'évaluation
Exam IA 2018 - 2019
3 pages
Modélisation multidimensionnelle des données
Pas encore d'évaluation
Modélisation multidimensionnelle des données
35 pages
Stage en Web Scraping chez SW Consulting
Pas encore d'évaluation
Stage en Web Scraping chez SW Consulting
17 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
Préparation et Transformation de Données pour Analyses Statistiques
100% (1)
Préparation et Transformation de Données pour Analyses Statistiques
2 pages
Rapport sur l'IA et Métaheuristiques
0% (1)
Rapport sur l'IA et Métaheuristiques
35 pages
ENNACIRI Zidate RapportSA
Pas encore d'évaluation
ENNACIRI Zidate RapportSA
34 pages
Introduction Aux Bibliothèques NumPy Et Pandas
Pas encore d'évaluation
Introduction Aux Bibliothèques NumPy Et Pandas
13 pages
Requêtes SQL pour l'Atelier Base de Données
Pas encore d'évaluation
Requêtes SQL pour l'Atelier Base de Données
5 pages
Projet NoSQL: MongoDB, Cassandra, Elastic
Pas encore d'évaluation
Projet NoSQL: MongoDB, Cassandra, Elastic
9 pages
TinyOS : Système d'exploitation pour capteurs
Pas encore d'évaluation
TinyOS : Système d'exploitation pour capteurs
7 pages
Présentation PANDAS
100% (1)
Présentation PANDAS
51 pages
Cours 5-6 Perceptron-SVM
100% (1)
Cours 5-6 Perceptron-SVM
76 pages
Règles d'association en Data Mining
Pas encore d'évaluation
Règles d'association en Data Mining
4 pages
Plateforme AMINE et Théorie des GC
100% (2)
Plateforme AMINE et Théorie des GC
134 pages
QCM Chapitre3 Prétraitement Des Données
Pas encore d'évaluation
QCM Chapitre3 Prétraitement Des Données
5 pages
Text Mining et Désinformation Médicale
Pas encore d'évaluation
Text Mining et Désinformation Médicale
3 pages
MONDRIAN Jpivot Final
Pas encore d'évaluation
MONDRIAN Jpivot Final
26 pages
Ines-Ben-Dhaou - Rapport-de-stage-PFE - Final
Pas encore d'évaluation
Ines-Ben-Dhaou - Rapport-de-stage-PFE - Final
98 pages
Compte Rendu: Mini Projet Compression & Stockage
Pas encore d'évaluation
Compte Rendu: Mini Projet Compression & Stockage
14 pages
Correction TD 2
Pas encore d'évaluation
Correction TD 2
4 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
1 page
Algorithmes de Régression en ML
Pas encore d'évaluation
Algorithmes de Régression en ML
5 pages
Exam 2016
Pas encore d'évaluation
Exam 2016
4 pages
Requêtes MDX pour Data Warehouse
Pas encore d'évaluation
Requêtes MDX pour Data Warehouse
46 pages
Le Prétraitement Des Données Expliqué Simplement
Pas encore d'évaluation
Le Prétraitement Des Données Expliqué Simplement
7 pages
Préparation et Qualité des Données en Data Mining
Pas encore d'évaluation
Préparation et Qualité des Données en Data Mining
44 pages
Steps To Complete A Machine Learning
Pas encore d'évaluation
Steps To Complete A Machine Learning
11 pages
Chap2 Pretraitement Donnees
100% (1)
Chap2 Pretraitement Donnees
31 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
11 pages
Notice Toutes Bouilloires
Pas encore d'évaluation
Notice Toutes Bouilloires
6 pages
Fiche Revision Diversite Phenotypes
Pas encore d'évaluation
Fiche Revision Diversite Phenotypes
1 page
Ernest Renan et la définition de la nation
Pas encore d'évaluation
Ernest Renan et la définition de la nation
4 pages
Comprendre le Soleil : Astrophysique et Rayonnement
Pas encore d'évaluation
Comprendre le Soleil : Astrophysique et Rayonnement
7 pages
T L Obs - 6 Octobre 2022
Pas encore d'évaluation
T L Obs - 6 Octobre 2022
24 pages
Audit Interne Et Audit À Blanc Rapport
100% (1)
Audit Interne Et Audit À Blanc Rapport
12 pages
Comprendre le WACC et le coût du capital
Pas encore d'évaluation
Comprendre le WACC et le coût du capital
40 pages
Digi
Pas encore d'évaluation
Digi
38 pages
Reclams de Biarn e Gascounhe. - Yené 1903 - N°1 (7eme Anade)
Pas encore d'évaluation
Reclams de Biarn e Gascounhe. - Yené 1903 - N°1 (7eme Anade)
24 pages
Guide de Radiotéléphonie Aéronautique
Pas encore d'évaluation
Guide de Radiotéléphonie Aéronautique
15 pages
#1 - La Chimie Autour de Nous
Pas encore d'évaluation
#1 - La Chimie Autour de Nous
5 pages
Tableau Mesures Capacites
Pas encore d'évaluation
Tableau Mesures Capacites
1 page
Guide Complet de Mathématiques École
Pas encore d'évaluation
Guide Complet de Mathématiques École
36 pages
Séquence Exploitation La Grenouille A Grande Bouche PS - MS - GS
Pas encore d'évaluation
Séquence Exploitation La Grenouille A Grande Bouche PS - MS - GS
2 pages
Equilibrage Dynamique PDF
Pas encore d'évaluation
Equilibrage Dynamique PDF
3 pages
Comprendre le BIOS et l'UEFI
Pas encore d'évaluation
Comprendre le BIOS et l'UEFI
11 pages
Santé mentale au Maroc : enjeux et évolutions
Pas encore d'évaluation
Santé mentale au Maroc : enjeux et évolutions
28 pages
Propriétés des Matériaux Cristallins
100% (1)
Propriétés des Matériaux Cristallins
5 pages
Épreuve de langue française 2021-2022
Pas encore d'évaluation
Épreuve de langue française 2021-2022
1 page
Capteur Température: Calculs et Formules
Pas encore d'évaluation
Capteur Température: Calculs et Formules
7 pages
Structures de Boucles en Programmation
Pas encore d'évaluation
Structures de Boucles en Programmation
23 pages
Séquence 6 La Révolution Française Et L'empire
Pas encore d'évaluation
Séquence 6 La Révolution Française Et L'empire
20 pages
CMVP 1702992027
Pas encore d'évaluation
CMVP 1702992027
4 pages
Correction TD Mathématiques Ingénieur
Pas encore d'évaluation
Correction TD Mathématiques Ingénieur
8 pages
Cap - Ouverture Fermeture Porte Visite
Pas encore d'évaluation
Cap - Ouverture Fermeture Porte Visite
2 pages
Moyens de Présence en Ligne : Avantages et Inconvénients
Pas encore d'évaluation
Moyens de Présence en Ligne : Avantages et Inconvénients
11 pages
2022 Metro RPLCT Ec 3
Pas encore d'évaluation
2022 Metro RPLCT Ec 3
4 pages
The Dawn Piano
Pas encore d'évaluation
The Dawn Piano
6 pages
Calendrier Semis et Récoltes Mensuel
Pas encore d'évaluation
Calendrier Semis et Récoltes Mensuel
1 page
Sofia Presentation
Pas encore d'évaluation
Sofia Presentation
9 pages