Académique Documents
Professionnel Documents
Culture Documents
En fait, certaines des raisons typiques pour lesquelles les données sont manquantes sont
que :
https://elitedatascience.com/data-cleaning
https://www.formpl.us/blog/data-cleaning
1. Le nettoyer,
2. Le transformer
https://elitedatascience.com/data-cleaning
https://www.formpl.us/blog/data-cleaning
Valeurs manquantes
Les valeurs manquantes apparaissent sous la forme NaN dans un DataFrame, mais qu’est-ce
que cela signifie ? NaN = Pas un nombre
Voici à quoi ils ressemblent dans un DataFrame :
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3668100/
https://www.geeksforgeeks.org/working-with-missing-data-in-pandas/
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isnull.html
https://moonbooks.org/Articles/How-to-filter-missing-data-NAN-or-NULL-values-in-a-pandas-
DataFrame-/
Remarque:
Pour vérifier si une valeur est NaN : Nous devons utiliser la méthode isnull().
https://pandas.pydata.org/pandas-docs/stable/reference/api/
pandas.DataFrame.dropna.html
dropna() Examples
Here’s some examples:
Drop the columns where all its elements are missing values :
Mais parfois, supprimer des lignes ou des colonnes n’est pas vraiment une bonne idée car
nous allons perdre beaucoup de données sur cette ligne ou colonne. Alors, quelle est la
solution alternative ?
Mean:
Median:
Mode:
http://www.dailysmarty.com/posts/replacing-nan-cells-in-python-with-the-mean-
median-and-mode
https://vitalflux.com/pandas-impute-missing-values-mean-median-mode/
https://pandas.pydata.org/pandas-docs/stable/reference/api/
pandas.DataFrame.fillna.html
http://www.dailysmarty.com/posts/replacing-nan-cells-in-python-with-
the-mean-median-and-mode
https://vitalflux.com/pandas-impute-missing-values-mean-median-mode/
https://pandas.pydata.org/pandas-docs/stable/reference/api/
pandas.DataFrame.fillna.html
https://www.talend.com/resources/data-transformation-defined/
THEN
Because machine learning and deep leaning algorithms use numbers only.
Catégorique à numérique
new_data possède des caractéristiques de différents types : entiers et objets. Nous devons
savoir laquelle de ces caractéristiques d’objet est catégorique.
On note ici que le rôle ne peut prendre que 6 possibilités : la fonctionnalité de rôle est une
caractéristique catégorique :
https://levelup.gitconnected.com/converting-categorical-data-to-numerical-data-for-machine-learning-a-
workaround-327afacbbe84
Conclusion :
Discover Solutions
LabelEncoder().fit_transform(variable_name)
Conclusion
Le type de valeurs du dictionnaire que nous devrions faire pour assurer la transformation sont
nécessairement: Nombres
One-hot-encoding Principle
Now in the second method, we will transform each modality of the categorical
variable to a new feature.
But how is that ?
https://machinelearningmastery.com/why-one-hot-encode-data-in-machine-learning/
https://www.kaggle.com/dansbecker/using-categorical-data-with-one-hot-encoding
https://scikit-learn.org/stable/modules/generated/
sklearn.preprocessing.OneHotEncoder.html
The goal of one hot encoding is to: Create new features from the variable modalities
Nous avons deux méthodes pour transformer nos données que nous utilisons:
Or:
One hot encoding which will transform each categorical modality to a new feature.