Vous êtes sur la page 1sur 69

Analyse de données multidimensionnelles (ACP +

AFC)

Driss BARI

PhD, Ingénieur de R & D


Maroc Météo
www.baridriss.com
bari.driss@gmail.com

1/182
Analyse de données multidimensionnelles (ACP + AFC)

Outline

1 Références bibliographiques
2 Généralités de l'analyse des données multidimensionnelles
Caractéristiques et Finalités
Familles des méthodes
3 Analyse en Composantes Principales (ACP)
But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP
2/182
Analyse de données multidimensionnelles (ACP + AFC)

Outline

4 Analyse Factorielle de Correspondance (AFC)


But de l'AFC
Tableau de données
Problématique et Objectifs de l'AFC
Modèle d'indépendance
Les nuages et leur ajustement
Interprétation des résultats

5 Démarche pratique sous SPSS (v25)


Analyse en Composantes Principales
Analyse Factorielle de Correspondance

3/182
Analyse de données multidimensionnelles (ACP + AFC)

Références bibliographiques

Rèférences bibliographiques
GILBERT, Saporta
Probabilités, analyse des données et statistique .
Editions Technip, Paris, 2006.
JOLLIFFE, Ian.
Principal component analysis .
In : International encyclopedia of statistical science. Springer, Berlin,
Heidelberg, 2011. p. 1094-1096..
HUSSON, François, LÊ, Sébastien, et PAGÈS, Jérome.
Analyse de données avec R.

Presses universitaires de Rennes, 2016.


Ludovic Lebart, Marie Piron, Alain Morineau
Statistique exploratoire multidimensionnelle.

Dunod. 1995
EL KHATRI, Said.
Analyse descriptive des données multidimensionnelle (ACP + AFC) .
Manuel de cours. EHTP. 2016. 4/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles


Caractéristiques et Finalités
Familles des méthodes

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)

5 Démarche pratique sous SPSS (v25)

5/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

1 Systématise les démarches de la statistique descriptive


unidimensionnelle et bidimensionnelle
Lois de probabilité,

Calculs statistiques usuels

Hypothèses,

Tests statistiques,

Courbes,

Projections planes,

6/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

2 Utilise un grand nombre d'informations pour expliquer ou


prévoir le comportement d'un phénomène
x1 = f (y1 , ..., yp )

(x1 , ..., xq ) = f (y1 , ..., yp )

Règle décisionnelle pour prévoir la modalité d'une variable qualitative


à l'aide de plusieurs variables quantitatives

7/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

3 Permet la description synthétique d'un phénomène (déni par


plusieurs paramètres)
Décomposition élémentaire du phénomène

Rendre plus facile par la réduction du nombre de données et


d'équations

Par l'interprétation de graphes simples (projection planes, courbes,


etc.).

8/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

4 Utilise les techniques multidimensionnelles de l'algèbre linéaire


en raison du volume de données à analyser
Traitement des vecteurs, matrices, géométrie ....

9/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

5 Ne peut se faire, à priori, sans l'aide des moyens informatiques


logiciels statistiques (R, SPSS, SAS, etc.),

librairies mathématiques (Factominer, etc.),

logiciels graphiques (R, etc.)

10/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

6 Nécessite l'interprétation, l'analyse du professionnel


connaisseur des données à traiter

11/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Finalités de l'analyse des données multidimensionnelles

Finalité
Avec l'analyse multidimensionnelle, on accepte
une légère perte en information an d'obtenir
un grand gain en signication

12/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles


Caractéristiques et Finalités
Familles des méthodes

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)

5 Démarche pratique sous SPSS (v25)

13/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Familles des méthodes d'analyse des données


multidimensionnelles

Analyse inférentielle (ou décisionnelle)

Analyse descriptive

14/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Analyse inférentielle (ou décisionnelle)

Rôle :
Etendre les propriétés constatées sur un échantillon à
toute la population et vérier, éventuellement,
l'adéquation des hypothèses
Méthodes décisionnelles classiques multidimensionnelles :
La Régression Multiple : Une variable quantitative
à expliquer par p autres variables quantitatives
L'Analyse Discriminante : Une variable qualitative
à expliquer à l'aide de p variables quantitatives.

15/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Analyse statistique descriptive


Rôle :
Ressortir des propriétés de l'échantillon étudié
Suggérer des hypothèses sur les données.
Méthodes multidimensionnelles :
Méthodes factorielles: pour réduire le nombre de
variables à analyser
Analyse en Composantes Principales ACP :

Description de la variabilité de p variables


quantitatives

Analyse Factorielle des Correspondances AFC:

Description de la liaison entre 2 ou plusieurs


variables qualitatives

Classication Automatique : pour réduire le


nombre d'individus à analyser (Répartition de n
individus en k classes tel que dans chaque classe, les
individus se ressemblent ) 16/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base

Notions de base
Deux types de variables :
Population (limitée ou de grande taille) : ensemble des individus à
étudier.
Echantillon : partie de la population (n individus) sur laquelle est
eectuée l'étude.
Individus : appartenant à la population
Variable (caractère) : caractéristique des individus, dénie sur la
population.

17/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base

Notions de base
Variable quantitative : valeurs réelles
discrète (exemple : âge, nombre d'enfants)
continue (exemple : taille, température)

Variable qualitative :
nominale (exemple: couleur [jaune, vert, ..], type de brouillard
[radiatif, evaporation, mélange, ...])
ordinale (exemple: taille de voiture [petite, moyenne, grande]).

18/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base

Moyenne : Variable centrée :


1X
n
xc = x − x avec xc = 0
x= xi
n
i=1 Variable normée (réduite) :
Variance : x
y= avec sy = 1
sx
1 n
X
sx2 = (xi − x)2
n
i=1
Variable centrée-réduite :
x −x
Ecart type : y= avec y = 0 et sy = 1
sx
v
u1 X
u n
sx = t (xi − x)2
n
i=1

19/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base


Variable quantitative
Exemple de représentation graphique

20/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base


Analyse de la liaison entre 2 variables quantitatives
Covariance :
1X
n
sxy = (xi − x)(yi − y )
n
i=1

Corrélation : sxy
r (x, y ) =
sx sy
−1 ≤ r (x, y ) ≤ 1
L'équation de régression linéaire liant deux variables x et y s'écrit sous la
forme s y
y= r (x, y ).x + b
sx
Le carré du coecient de corrélation r (x, y )exprime le pourcentage de
2

variance expliquée
21/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base

Analyse de la liaison entre 2 variables quantitatives


Représentation graphique

22/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 23/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

But de l'ACP

But de l'ACP
descriptive qui permet de
L'ACP est une méthode

résumer,
synthétiser
ou condenser

le comportement de p variables quantitatives (observées n

fois).

24/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

Exemple élémentaire
On considère l'échantillon constitué par :
16 pays (ou individus) sur lesquels on a relevé les valeurs de deux
variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA)
en 1970

25/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

Exemple élémentaire
On considère l'échantillon constitué par :
16 pays (ou individus) sur lesquels on a relevé les valeurs de deux
variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA)
en 1970

25/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

Exemple élémentaire
On considère l'échantillon constitué par :
16 pays (ou individus) sur lesquels on a relevé les valeurs de deux
variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA)
en 1970

26/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

Exemple élémentaire
Transformation linéaire et orthogonale
Repère initial = (ANA,EVI) =⇒ Nouveau repère = (progrès, déphasage
entre ANA et EVI)

27/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 28/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Tableau de données
L'ACP s'intéresse à des tableaux de données rectangulaires avec des
individus en lignes et des variables quantitatives en colonnes.

 p variables 
x11 . . . x1 p
 . . . . . 
 
 .
X = . xij . .   n Individus
 . . . . . 
xn 1 . . . xnp

xij est la i observation ( individu) de la j variable


xj est la j variable quantitative avec j = 1, p
X est la matrice des individus (observations)
X t
est la matrice transposée de X
= n1 Xt X est la matrice de variance-covariance entre les variables
P

29/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Caractéristiques d'un ensemble de modèles de voitures


Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur
Honda Civic 1396 90 174 850 369 166
Renault19 1721 92 180 965 415 169
Fiat Tipo 1580 83 170 970 395 170
Peugeot 405 1769 90 180 1080 440 169
Renault21 2068 88 180 1135 446 170
Citroen BX 1769 90 182 1060 424 168
BMW530i 2986 188 226 1510 472 175
Rover827i 2675 177 222 1365 469 175
Renault25 2548 182 226 1350 471 180
Opel Oméga 1998 122 190 1255 473 177
Peugeot 405 Break 1905 125 194 1120 439 171
Ford sierra 1993 115 185 1190 451 172
BMW325iX 2494 171 208 1300 432 164
Audi 90 quattro 1994 160 214 1220 439 169
Ford Scorpio 2933 150 200 1345 466 176
Renault Espace 1995 120 177 1265 436 177
Nissan Vanette 1952 87 144 1430 436 169
VW Caravelle 2109 112 149 1320 457 184
FORd Fiesta 1117 50 135 810 371 162
Fiat Uno 1116 58 145 780 364 155
Peugeot 205 1580 80 159 880 370 156
Peugeot205 Rallye 1294 103 189 805 370 157
Seat Lbiza SXI 1461 100 181 925 363 161
Citroen AX sport 1294 95 184 730 350 160

30/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Caractéristiques d'un ensemble de modèles de voitures

On dispose ainsi de :
24 individus (lignes) : modèles de voitutres
6 variables (colonnes) : Cylindrée, Puissance, Vitesse (km/h),
Poids (kg), Longueur (cm) et Largeur (cm)

=⇒ Tableau de données est de la forme 24 x 6 (individus x variables).

Question
Analyser les caracteristiques de cet ensemble de 24 modèles de voitures
selon les 6 critères ?

31/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Caractéristiques d'un ensemble de modèles de voitures


On pourrait penser à :
Analyser la variation d'un critère à l'autre pour chaque modèle de
voitures i (i = 1, 24)
Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur
Honda Civic 1396 90 174 850 369 166

Analyser la variation d'un modèle de voiture à l'autre pour chaque


critère j (j = 1, 6)
Modèle Honda Civic Renault19 Fiat Tipo ... Seat Ibiza SXI Citroen AX
Cylindrée 1396 1721 1580 ... 1461 1294

32/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Caractéristiques d'un ensemble de modèles de voitures


On pourrait penser à :
Analyser la variation d'un critère à l'autre pour chaque modèle de
voitures i (i = 1, 24)
Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur
Honda Civic 1396 90 174 850 369 166

Analyser la variation d'un modèle de voiture à l'autre pour chaque


critère j (j = 1, 6)
Modèle Honda Civic Renault19 Fiat Tipo ... Seat Ibiza SXI Citroen AX
Cylindrée 1396 1721 1580 ... 1461 1294

Question
Pourquoi faut il éviter cette méthode ?

32/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Caractéristiques d'un ensemble de modèles de voitures


On pourrait penser à :
Analyser la variation d'un critère à l'autre pour chaque modèle de
voitures i (i = 1, 24)
Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur
Honda Civic 1396 90 174 850 369 166

Analyser la variation d'un modèle de voiture à l'autre pour chaque


critère j (j = 1, 6)
Modèle Honda Civic Renault19 Fiat Tipo ... Seat Ibiza SXI Citroen AX
Cylindrée 1396 1721 1580 ... 1461 1294

Question
Pourquoi faut il éviter cette méthode ?
si p et/ou n est grand, la méthode devient complexe et lourde
si des couples de variables sont corrélés ou anti-corrélés, l'analyse
sera redondante
32/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 33/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Problématique et Objectifs de l'ACP

Le tableau de données est vu comme un ensemble de lignes ou de


colonnes.

Etude des individus (lignes)


Quand dit-on que 2 individus se ressemblent du point de vue de
l'ensemble des variables ?

Est-il possible de mettre en évidence une typologie des individus ?

Etude des variables (colonnes)


Quand dit-on que 2 variables sont liées (positivement ou
négativement) entre elles ?
Est-il possible de mettre en évidence une typologie des variables ?

Typologie ≡ construction d'une partition (groupe) d'individus homogènes


du point de vue l'ensemble des variables.
34/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Problèmatique et Objectifs de l'ACP

Tenant compte des ressemblances des individus et des liaisons entre


variables, l'ACP tente de répondre à la question :
Est-il possible de résumer toutes les données par un nombre
restreint de valeurs sans perte d'information importante ?
Objectifs de l'ACP
1 Descriptif - exploratoire : Rendre l'information plus facile à
analyser. Ceci par visualtion des données par des graphes simples
2 Synthèse : Condenser l'information contenue dans de grands
tableaux individus x variables (en réduisant le nomnbre de données à
analyser)

35/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Nuage des Individus


1 individu ≡ 1 ligne du tableau ⇒ 1 point dans un espace à p dimensions

36/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Nuage des Individus

1 individu ≡ 1 ligne du tableau ⇒ 1 point dans un espace à p dimensions


Notion de ressemblance
Deux individus se ressemblent, ou sont proches, s'ils possèdent des
valeurs proches pour l'ensemble des variables.
Cette proximité ou cette ressemblance se traduit par une distance entre
deux individus i et i 0 . Dans le cas d'une métrique euclidienne :
X
d 2 (i, i 0 ) = (xij − xi 0 j )2
j

Dans le cas général,

d 2 (i, i 0 ) = (Ai − Ai 0 )t M(Ai − Ai 0 )


où M est une matrice symétrique dénie positive de taille p

37/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Centrage - réduction des données


Centrer les données ne modie pas la forme du nuage
⇒ Toujours centrer

Réduire les données est indispensable si les unités de mesure sont


diérentes d'une variable à l'autre
xij − x̄j
xij −→
sj
La réduction conduit à accorder la même importance à chaque
variable. Son importance est proportionnelle à son écart-type.
Notation :

38/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus

L'ACP vise à fournir une image simpliée du nuage des individus la


plus dèle possible
⇐⇒ Trouver le sous-espace qui résume au mieux les données.

Qualité de l'image :
Restitue dèlement la forme générale du nuage
Meilleure représentation de la diversité et de la variabilité
Ne perturbe pas les distances entre individus

39/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple


Approche de réponse (par analogie)
Devinez quels sont les objets dont la projection plane est :

40/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple

Réponse

41/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple


Approche de réponse (par analogie)
Pour décrire l'allongement d'un objet :
L'espace de dimension 1 peut être susant : (tuyau)

L'espace de dimension 2 est nécessaire et susant : (feuille de


papier)

L'espace de dimension 2 est acceptable mais pas très susant :


(bateau)

42/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple


Approche de réponse (par analogie)
Devinez sachant que la projection plane est :

43/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple


Réponse : Un chameau

44/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Notion d'inertie

L'information donnée sur la dispersion des points constituant un objet


dans un espace de dimension p est :

très lisible lorsqu'on projette cet objet sur les axes (ou plans) de plus
grand allongement,
et très peu importante en projection sur les axes de très faible
allongement.

45/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Notion d'inertie

L'objet décrit dans l'exemple d'analogie est, dans notre cas, un nuage de
n points dans l'espace de dimension inférieur à p

La dispersion du nuage de points est mesurée par son inertie par


rapport au centre de gravité :
1X 1X
n n X p p
X
In = ~ i ||2 =
||OA xij2 = sj2
n n
i=1 i=1 j=1 j=1

allongement ≡ dispersion ≡ variance ≡ inertie

46/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus

Comment trouver la meilleure image approchée du nuage ?

1 Trouver l'axe (facteur) qui déforme le moins possible le nuage

Tourver le meilleur plan : maximiser i (OHi ) avec Hi ∈ plan . Le


P 2
2

meilleur planPcontient le meilleur axe ; on cherche u ⊥ u et


2 1

maximisant i (OHi ) . 2

3 On peut chercher un 3eme axe, etc. d'inertie maximum

47/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 48/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Principe de l'ACP

Le principe de l'ACP consiste à représenter le nuage des n points dans un


espace
(O, u~1 , u~2 , ..., u~p )
qui permettra, en des projections dans l'espace engendré par un nombre
réduit de vecteurs , de montrer les plus grands allongements de ce
nuage.
(O, u~1 , u~2 , ..., u~q ) avec qp

49/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP

On travaille sur des données centrées :

50/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP


On cherche des transformations linéaires orthogonales entre elles sur
la base du critère de la maximisation de la variance.
Etape 1:
Recherche de l'axe u~ (unitaire) tel que le nuage des
1

points a une variance (allongement) maximale sur cet axe

51/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP


Etape 2:
Recherche de l'axe u~ (unitaire) tel que :
2

u~1 ⊥ u~2
le nuage de point a le plus grand allongement sur u~
2

Etape k:
Recherche de l'axe u~k (unitaire) tel que :
u~k ⊥ u~l ∀l ≤ k − 1
le nuage de point a le plus grand allongement sur u~k
52/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP

Les vecteurs directeurs des axes recherchés sont les vecteurs propres
de la matrice de variance covariance (i.e. matrice d'inertie).
P

Ces vecteurs unitaires sont rangés dans l'ordre décroissant des valeurs
propres associées :
u~1 , u~2 , ..., et u~p avec λ1 > λ2 > ... > λp

Rappel
Le calcul des valeurs propres et des vecteurs propres peut s'eectuer en
résolvant les sytèmes suivants :
Valeurs propres λ : det( − λI) = 0
P

Vecteurs propres U ; U = λU
P

53/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP

Remarque : La nouvelle base est orthonormée. 54/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP

55/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Formule de changement de base

Les composantes principales sont des combinaisons linéaires des


variables initiales:

56/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Propriétés des composantes principales


Propriété de la moyenne :
p p
ajk x j = 0 car x j = 0
X X
zk = ajk x j =
j=1 j=1

Les composantes prinicpales sont centrées.


Propriété de la variance :
Soit Dλ la matrice diagonale des valeurs propres.
La matrice de variance-covariance des composantes principales est :
1 t 1 t t t
X
Z Z= U X XU = U U = Dλ
n n
On en déduit :
var (z k ) = λk ∀k = 1, p
Propriété de la corrélation :
r (z l , z k ) = 0 ∀ l 6= k
Les composantes principales ne sont pas corrélées entre elles. 57/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Variance totale

58/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Variance expliquée : Qualité d'ajustement du nuage

59/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Variance expliquée : Qualité d'ajustement du nuage


Sous SPSS : Total = Valeur propre

60/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Variance résiduelle

61/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Approximation de la reconstitution des variables initiales

62/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q

1. Critère de la valeur propre moyenne (mean eigenvalue):


Ne garder que les axes tel que :
1 1 1X
p
λk
> ⇐⇒ λk > tr (D) = λj
tr (D) p p p
j=1

p=6 ←→ 1
p = 16.6%

λ1 = 4.656 ←→ λ1
tr (D) = 77.6%

λ2 = 0.915 ←→ λ2
tr (D) = 15.254%
Une seule composante à retenir !!!

63/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q

2. Critère de variance expliquée (variance explained criteria):


On se xe un maximum de perte d'information : exemple
5% ou 10% de variance résiduelle. On retiendra par
exemple les q premières composantes principale tel que
Q = 90%

On retient dans notre exemple


DEUX composantes
principale.

64/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q

3. Critère de KAISER :
Lorsque les données sont centrées réduites, on retient les
composantes principales tel que λk > 1 pour k ≤ q

Une seule composante à


retenir !!!

65/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q


4. Critère de CATTEL (critère de coude - the scree plot) :
On retient les q premières CP tel que l'apport en variance
des dernières CP est remarquablement plus faible par
rapport aux premières.

On retient dans notre exemple


DEUX composantes
principale.

66/182

Vous aimerez peut-être aussi