Vous êtes sur la page 1sur 13

Chapitre I

Analyse en composantes
principales ”ACP”

Lamia JAAFAR Belaid Analyse 2


Analyse en composantes
principales
Contenu du chapitre 1: 3 semaines
Introduction au problème
Principe général (analyse des nuages)
Reconstruction des données et interprétation

Tout au long du chapitre quelques rappels de statistiques


élémentaires et résultats d’algèbre linéaire seront donnés!

Lamia JAAFAR Belaid Analyse 2


Introduction

Lamia JAAFAR Belaid Analyse 2


ACP
Problématique

Soit un ensemble de données représenté par un tableau de


variables {xik }, 1 ≤ i ≤ I, 1 ≤ k ≤ K . Les lignes définissent les
individus et les colonnes définissent les variables.

En ACP, les variables sont quantitatives!

Stratégie
Représenter graphiquement les relations entre individus par
l’évaluation de leurs ressemblances et les relations entre
variables par l’évaluation de leurs liaisons.

But
Interprétation des données par une analyse des résultats.

Lamia JAAFAR Belaid Analyse 2


ACP
Etude du table de données

Soit le tableau de données en ACP {xik }, 1 ≤ i ≤ I, 1 ≤ k ≤ K .


La ligne i ⇒ individu, la colonne k ⇒ la variable.

xik

Ce tableau peut être vu comme un ensemble de lignes ⇒


chercher les ressemblances/différences entre les lignes
(individus). Ces ressemblances sont définies sur
l’ensemble des variables! ⇒ typologie ⇒ nuage de points
dans RK .
Sinon, un ensemble de colonnes ⇒ chercher les liaisons
(linéaires) entre les colonnes (variables)⇒ facteur de
corrélation. Nuage de points (variables) dans RI .
Lamia JAAFAR Belaid Analyse 2
ACP
Notions élémentaires en statistique

La moyenne/moyenne arithmétique pour la variable k est


X
I
1
x̄k = I xik .
i=1
La variance pour la variable k est
X
I
Var (xk ) = 1I (xik − x̄k )2 .
i=1
L’ écart-type pour la variable k est la racine carré de la
variance, soit σk2 = Var (xk ).
La covariance pour les variables k, l entre les vecteurs
X
I
xk , yl est Cov (xk , yl ) = σkl = 1I (xik − x̄k )(yil − ȳl ).
i=1
Le facteur de corrélation entre les variables k, l est
rkl = σσkklσl .
Lamia JAAFAR Belaid Analyse 2
ACP
Notions élémentaires en statistique

Propriétés statistiques
La moyenne dépend de toutes les mesures et est sensible
aux valeurs extrêmes.
La variance et l’écart type mesurent la dispersion.
Le facteur de corrélation r étudie l’intensité de la liaison
entre les variables. |r | ≤ 1. Si r est proche de 1 alors les
variables fournissent la même information.
On définit la matrice de corrélation des variables par
rkl = Corr (xik , xil ) pour un individu i donné.

Lamia JAAFAR Belaid Analyse 2


ACP
Synthèse des objectifs

Analyse de quelques tableaux de données:


Exemple 1
Exemple 2
Exemple 3

L’ACP est une méthode de statistique descriptive et


exploratoire multi-dimensionnelle.
L’ACP va permettre de synthétiser et résumer l’information
d’un grand tableau de données individus × variables
quantitatives.
L’analyse en ACP se fera à partir d’illustration de
graphiques.

Lamia JAAFAR Belaid Analyse 2


Principe général (analyse des
nuages)

Lamia JAAFAR Belaid Analyse 2


Analyse des nuages

On rappelle qu’un tableau de données peut être vu de deux


manières:
On cherche à déterminer deux profils qui se ressemblent
=⇒ notion de distance! =⇒ construction de groupes
d’individus homogènes =⇒ synthèse.
On cherche à déterminer d’éventuelles liaisons parmi les
variables =⇒ notion de corrélation! =⇒ groupe de
variables étroitement corrélées =⇒ synthèse.
On cherche à déterminer quelles relations relient ces deux
études!
Peut-on résumer les variables par des indicateurs
synthétiques?

Lamia JAAFAR Belaid Analyse 2


ACP
Nuage des individus NI

1 individu (une ligne) = 1 point dans RK . Si K = 1 ⇒


représentation axiale, si K = 2 ⇒ nuage de points dans un
espace bi-dimentionnel. La représentation devient délicate
si K = 3 et puis impossible! ⇒ on cherchera donc à
approximer le nuage!
Etudier le nuage des individus ⇒ Analyser la structure
géométrique (forme du nuage) ⇒ Définir une distance!

Définition
Soient i, j deux individus de RK . La distance entre ces deux
X
K
2
individus est telle que d (i, j) = (xik − xjk )2 = ||i − j||2 .
k =1

Deux individus se ressemblent s’ils prennent des valeurs


proches sur l’ensemble des K variables.
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des individus NI

Etude du tableau de données dans RK ⇒ Etude de la forme du


nuage des individus NI dans RK ⇒ Etude des distances entre
les individus ⇒ visualisation dans un espace bi-dimentionnel ⇒
image approchée!
https://images.4ever.eu/tag/23765/vol-doiseaux?pg=10
Besoins d’harmonisation!
Pré-traitement: notions de centrage et de réduction!

Centrer consiste à retirer de chaque valeur d’une variable


la valeur moyenne.
Réduire consiste à diviser chaque valeur d’une variable
centrée par l’écart-type de la variable.

xik − x̄k
xik L9999K .
σk
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des individus NI

Interpréter les résultats obtenus à partir d’un nuage de points


exprimant le poids et la taille d’individus en modifiant les unités
utilisées m/kg (resp. cm/q).

Le centrage ne modifie pas la forme du nuage. L’ avantage


est de mieux visualiser les variables dont les moyennes
sont trop différentes ⇒ on ramène toutes les variables à
une moyenne nulle.
La réduction permet de mieux interpéter le nuage de
points en éliminant l’unité et en homogénéisant les écarts.
Les variables deviennent d’écart-type 1.

Toutes nos données seront centrées et réduites ⇒ données


normées (standardisées).

Lamia JAAFAR Belaid Analyse 2

Vous aimerez peut-être aussi