Académique Documents
Professionnel Documents
Culture Documents
https://app.datacamp.com/learn/tut
orials/pca-analysis-r
Introduction
Qu’est ce qui rend un client heureux à partir
d'un ensemble de données contenant ces cinq
caractéristiques: les dépenses mensuelles,
l'âge, le sexe, la fréquence d'achat et la
notation des produits.
Qu’est ce que l’ACP (PCA)
Il s'agit d'une approche statistique qui peut être utilisée
pour analyser les données de grande dimension et en
capturer les informations les plus importantes.
Cela se fait en transformant les données d'origine en un
espace de plus faible dimension tout en rassemblant
des variables fortement corrélées.
Dans notre scénario, PCA choisirait trois caractéristiques
telles que les dépenses mensuelles, la fréquence
d'achat et la notation des produits. Cela pourrait
faciliter la visualisation et la compréhension des
données.
Comment fonctionne l’ACP
L'APC, contrairement aux autres techniques, ne
fonctionne qu'avec des variables
quantitatives.
Les 5 étapes de l’ACP
Étape 1 - Normalisation des données
install.packages("ggcorrplot")
library(ggcorrplot)
install.packages("FactoMineR")
library("FactoMineR")
Chargement des données
protein_data <- read.csv("protein.csv")
str(protein_data)
Vérifications
La présence de valeurs manquantes peut biaiser
le résultat de l'APC. Il est donc fortement
recommandé d'adopter l'approche appropriée
pour s'attaquer à ces valeurs.
colSums(is.na(protein_data))
Normalisation des données
Le code ci-dessous crée de nouvelles données
avec seulement des colonnes numériques.
numerical_data <- protein_data[,2:10]
head(numerical_data)
data.pca$loadings[, 1:2]
Matrice des 2 composantes principales
Visualisation des principaux éléments:
Scree Plot
Il est utilisé pour visualiser l'importance de
chaque composant principal et peut être utilisé
pour déterminer le nombre de composants
principaux à conserver. Il peut être générée à
l'aide du fviz_eig()fonction.