Académique Documents
Professionnel Documents
Culture Documents
Après la phase d’acquisition des données il faut procéder tout d’abord à l’exploration des données.
Cette phase permettra de découvrir plusieurs aspects du dataset source. Ce qui mène vers le besoin
du nettoyage des données, leurs transformations et en fin la normalisation de certaines données.
2. Normalisation
• Logistic Regression
• Regression Analysis (polynomial, multivariate regression…)
• Support Vector Machines (SVM)
• K-Nearest Neighbors (KNN)
• K-Means (clustering…)
• Principal Component Analysis (PCA)
Ainsi, généralement, il faut procéder à la normalisation des données chaque fois que les variables
utilisent des unités différentes. Parmi les techniques utilisées : StanderScaler et MiniMax.
StandardScaler : Cette technique part du principe que les données sont normalement distribuées. La
fonction va recalculer chaque caractéristique afin que les données soient centrées autour de 0 et avec
un Ecart-Type de 1.
MinMaxScaler : Cette technique transforme les caractéristiques (xi) en adaptant chacune sur une plage
donnée (par défaut [-1 .. 1]).
• Il est possible de changer cette plage via les paramètres feature_range=(min, max).
• Cette technique fonctionne surtout pour les cas où la distribution n’est pas gaussienne ou
quand Ecart-Type est faible.
• Néanmoins MinMaxScaler() est sensible aux outliers.
Remarques importantes :
MaxAbsScaler : Cette technique de mise à l’échelle est utile dès lors que la
distribution de valeurs est éparse et que vous avez pas mal d’outiers. En effet les
autres techniques auront tendance à effacer l’impact des outliers ce qui parfois est
gênant. Elle est donc intéressante :
Le ratio (proportion) de variance expliquée par dimension est donné par la propriété
(explained_variance_ratio_).
Chaque ligne de pca.components_ représente le vecteur unitaire qui donne la direction d’un axe
factoriel. Le vecteur pca.components_[i,:] correspond à la valeur propre
pca.explained_variance_ratio_[i].
1. Appliquer l’ACP sur les données de la dataset Titanic (varier le paramètre nombre de
composantes 2,3 et 4).
2. Afficher le tableau des variances expliquées et le ratio :
print(pca.explained_variance_)
print(pca.explained_variance_ratio_)