Lassse9 Analyse de Données ACP 23

LASSEQ:
Analyse de donnée
1) ACP - Analyse en Composantes Principales
2) Classification
Par: Zakaria Baou & Said Najim

Promo: 2023/2024
ACP - Définition
Définition : Approche multivariée permettant d’étudier la
multicolinéarité d’un ensemble de variables continues ou ordinales
distinctes
Objectif : Synthétiser l’information en réduisant le nombre de

dimensions
Type de données: Données quantitatives

Quelques relations à savoir
i ligne , k colonne
Ressemblance entre individu Corrélation entre deux variables

Centre de gravité L’inertie
ACP Normé ⇔ Données Centrées et réduites

⇔ 𝐸(𝑋𝑖) = 0 𝑒𝑡 𝑉(𝑋𝑖) = 1
Centre de gravité L’inertie
Corrélation entre deux variables

Faisabilité de L’ACP
Test de Bartlett (Test de matrice de Indice KMO (Test l’influence des

variables sur L’ACP)
corrélation différente de l’identité)
KMO<0,5 ⇒ innacceptable
H0 : R = Id
KMO>0,5 ⇒ misérable
H1 : R ≠ Id
KMO>0,6 ⇒ médiocre
Si H0 est vraie on ne peut pas
applique l’ACP KMO>0,7 ⇒ moyenne
Si Sig: p-value<0.05 ⇒ On rejette H0 KMO>0,8 ⇒ méritoire

donc on peut faire ACP KMO>0,9 ⇒ merveilleuse
Démarche de l’ACP
Centrage et réduction de donnée
Déterminer matrice de variance-covariance et/ou correlation
Calculer les valeurs et les vecteurs propres
Déterminer les axes factoriels et les composantes principales

Centrage et réduction de donnée
Moyenne de la colonne
Écart type de la colonne
Pourquoi? Centrage car on a différentes moyennes

Réduction car on a différentes unités
Exemple
Sur R
donnees_centrees_reduites <- scale(x)
avec x dataframe ou matrice de donnees
Déterminer matrice de corrélation
La matrice de corrélation R est donnée par:
Exemple
Sur R matrice_correlation <- cor(donnees)

Les valeurs propres
Det ( R - λI ) = 0
=> λ1 = 2.24 λ2 = 0.69 λ3 = 0.06
Condition prendre les valeurs propres dans l’ordre décroissant

λ1 > λ2 > λ3
Les vecteurs propres (Axe principaux)
R*U = λ*U
Inertie expliquée
Pourcentage de la variance cumulée

Les valeurs propres
Pourcentage de la variance = Les valeurs propres

Inertie totale
Inertie totale = Σ valeurs propres = 2.25+0.69+0.06 = 3

- On dit que le premier axe contient 74.9% de l’information
- 2ème axe contient 23.08% de l’information
Composantes principales
Coordonnées des individus
Ui
CP = Xstandarized * V Vecteur propre normé Vi =
||Ui||
X =
Sur R
Propriétés des composantes principales
Choix de nombre d’axe
Nuages des individu
On a choisit donc 2 composante principales et on a tracer le nuage des individus
Exemple:
Coordonnées des variables
Ui
Vecteur propre normé Vi =
ri = racine(λi) * Vi ||Ui||
Exemple:
Qualité de représentation
cos2 = coord*coord
Qualité de représentation des individus Qualité de représentation des variables

Contribution
contrib(Xi,Dim.j) = la case Cos2 de la ligne i et colonne j

Σ des cases Cos2 de la colonne j
Contribution des variables

Contribution des individus
On dit que l’individu 1 contribue de 10.58% a la constitution de l’axe Dim.1

Relation entre variables et individus
Classification
- K-means
- Hiérarchique ascendante
K-means
C’est une méthodes de classification de Machine Learning non supervisés
Il permet de regrouper les individus décrits par un ensemble de variables, ou

pour regrouper les variables observées sur des individus et d’interpréter les
regroupements obtenus.
L’algorithme du k-means est un algorithme itératif qui minimise la somme des

distances entre chaque individu et le centre de la classe.
Algorithme pour k=3
La somme de la variabilité intra-cluster dans K-means est un
indicateur crucial de la qualité du clustering. Elle aide à déterminer
la cohésion des clusters, à guider l'optimisation de l'algorithme, et
à choisir le nombre approprié de clusters pour une analyse donnée.
Cette mesure est utilisée pour évaluer la performance du clustering
effectué par l'algorithme.
Sur R : modelekmeans <- kmeans(vos_donnees, nombre_de_clusters)
Hiérarchique ascendante
C’est une méthodes de classification non supervisés
Elle permet de regrouper des individus dans des classes les plus homogènes
possibles à partir d’un jeu de données: individus × variables
Arbre et Partition
Sur R :
acp <- PCA(vos_donnees, scale.unit = TRUE, ncp = nombre_de_composantes,

graph = FALSE)
hcpc_resultat <- HCPC(acp, nb.clust = -1, graph = FALSE) # nb.clust = -1 signifie
aucune limite prédéfinie sur le nombre de clusters

Lassse9 Analyse de Données ACP 23

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Lassse9 Analyse de Données ACP 23

Transféré par

Droits d'auteur :

Formats disponibles

LASSEQ:

Par: Zakaria Baou & Said Najim

Objectif : Synthétiser l’information en réduisant le nombre de

Type de données: Données quantitatives

Ressemblance entre individu Corrélation entre deux variables

ACP Normé ⇔ Données Centrées et réduites

Corrélation entre deux variables

Test de Bartlett (Test de matrice de Indice KMO (Test l’inﬂuence des

Si Sig: p-value<0.05 ⇒ On rejette H0 KMO>0,8 ⇒ méritoire

Centrage et réduction de donnée

Déterminer matrice de variance-covariance et/ou correlation

Calculer les valeurs et les vecteurs propres

Déterminer les axes factoriels et les composantes principales

Écart type de la colonne

Pourquoi? Centrage car on a différentes moyennes

Sur R matrice_correlation <- cor(donnees)

=> λ1 = 2.24 λ2 = 0.69 λ3 = 0.06

Condition prendre les valeurs propres dans l’ordre décroissant

Pourcentage de la variance cumulée

Pourcentage de la variance = Les valeurs propres

Inertie totale = Σ valeurs propres = 2.25+0.69+0.06 = 3

Qualité de représentation des individus Qualité de représentation des variables

contrib(Xi,Dim.j) = la case Cos2 de la ligne i et colonne j

Contribution des variables

On dit que l’individu 1 contribue de 10.58% a la constitution de l’axe Dim.1

Il permet de regrouper les individus décrits par un ensemble de variables, ou

L’algorithme du k-means est un algorithme itératif qui minimise la somme des

acp <- PCA(vos_donnees, scale.unit = TRUE, ncp = nombre_de_composantes,

Vous aimerez peut-être aussi