Vous êtes sur la page 1sur 35

LASSEQ:

Analyse de donnée
1) ACP - Analyse en Composantes Principales
2) Classification

Par: Zakaria Baou & Said Najim


Promo: 2023/2024
ACP - Définition
Définition : Approche multivariée permettant d’étudier la
multicolinéarité d’un ensemble de variables continues ou ordinales
distinctes

Objectif : Synthétiser l’information en réduisant le nombre de


dimensions

Type de données: Données quantitatives


Quelques relations à savoir

i ligne , k colonne

Ressemblance entre individu Corrélation entre deux variables


Centre de gravité L’inertie

ACP Normé ⇔ Données Centrées et réduites


⇔ 𝐸(𝑋𝑖) = 0 𝑒𝑡 𝑉(𝑋𝑖) = 1
Centre de gravité L’inertie

Corrélation entre deux variables


Faisabilité de L’ACP

Test de Bartlett (Test de matrice de Indice KMO (Test l’influence des


variables sur L’ACP)
corrélation différente de l’identité)
KMO<0,5 ⇒ innacceptable
H0 : R = Id
KMO>0,5 ⇒ misérable
H1 : R ≠ Id
KMO>0,6 ⇒ médiocre
Si H0 est vraie on ne peut pas
applique l’ACP KMO>0,7 ⇒ moyenne

Si Sig: p-value<0.05 ⇒ On rejette H0 KMO>0,8 ⇒ méritoire


donc on peut faire ACP KMO>0,9 ⇒ merveilleuse
Démarche de l’ACP

Centrage et réduction de donnée

Déterminer matrice de variance-covariance et/ou correlation

Calculer les valeurs et les vecteurs propres

Déterminer les axes factoriels et les composantes principales


Centrage et réduction de donnée
Moyenne de la colonne

Écart type de la colonne

Pourquoi? Centrage car on a différentes moyennes


Réduction car on a différentes unités

Exemple

Sur R
donnees_centrees_reduites <- scale(x)
avec x dataframe ou matrice de donnees
Déterminer matrice de corrélation
La matrice de corrélation R est donnée par:

Exemple

Sur R matrice_correlation <- cor(donnees)


Les valeurs propres

Det ( R - λI ) = 0

=> λ1 = 2.24 λ2 = 0.69 λ3 = 0.06

Condition prendre les valeurs propres dans l’ordre décroissant


λ1 > λ2 > λ3
Les vecteurs propres (Axe principaux)

R*U = λ*U
Inertie expliquée

Pourcentage de la variance cumulée


Les valeurs propres

Pourcentage de la variance = Les valeurs propres


Inertie totale

Inertie totale = Σ valeurs propres = 2.25+0.69+0.06 = 3


- On dit que le premier axe contient 74.9% de l’information
- 2ème axe contient 23.08% de l’information
Composantes principales
Coordonnées des individus
Ui
CP = Xstandarized * V Vecteur propre normé Vi =
||Ui||

X =

Sur R
Propriétés des composantes principales
Choix de nombre d’axe
Nuages des individu
On a choisit donc 2 composante principales et on a tracer le nuage des individus
Exemple:
Coordonnées des variables
Ui
Vecteur propre normé Vi =
ri = racine(λi) * Vi ||Ui||
Exemple:
Qualité de représentation

cos2 = coord*coord

Qualité de représentation des individus Qualité de représentation des variables


Contribution

contrib(Xi,Dim.j) = la case Cos2 de la ligne i et colonne j


Σ des cases Cos2 de la colonne j

Contribution des variables


Contribution des individus

On dit que l’individu 1 contribue de 10.58% a la constitution de l’axe Dim.1


Relation entre variables et individus
Classification
- K-means
- Hiérarchique ascendante
K-means
C’est une méthodes de classification de Machine Learning non supervisés

Il permet de regrouper les individus décrits par un ensemble de variables, ou


pour regrouper les variables observées sur des individus et d’interpréter les
regroupements obtenus.

L’algorithme du k-means est un algorithme itératif qui minimise la somme des


distances entre chaque individu et le centre de la classe.
Algorithme pour k=3
La somme de la variabilité intra-cluster dans K-means est un
indicateur crucial de la qualité du clustering. Elle aide à déterminer
la cohésion des clusters, à guider l'optimisation de l'algorithme, et
à choisir le nombre approprié de clusters pour une analyse donnée.
Cette mesure est utilisée pour évaluer la performance du clustering
effectué par l'algorithme.
Sur R : modelekmeans <- kmeans(vos_donnees, nombre_de_clusters)
Hiérarchique ascendante
C’est une méthodes de classification non supervisés

Elle permet de regrouper des individus dans des classes les plus homogènes
possibles à partir d’un jeu de données: individus × variables
Arbre et Partition
Sur R :

acp <- PCA(vos_donnees, scale.unit = TRUE, ncp = nombre_de_composantes,


graph = FALSE)
hcpc_resultat <- HCPC(acp, nb.clust = -1, graph = FALSE) # nb.clust = -1 signifie
aucune limite prédéfinie sur le nombre de clusters

Vous aimerez peut-être aussi