Vous êtes sur la page 1sur 193

Analyse de données multidimensionnelles (ACP +

AFC)

Driss BARI

PhD, Ingénieur de R & D


Maroc Météo
www.baridriss.com
bari.driss@gmail.com

1/182
Analyse de données multidimensionnelles (ACP + AFC)

Outline

1 Références bibliographiques
2 Généralités de l'analyse des données multidimensionnelles
Caractéristiques et Finalités
Familles des méthodes
3 Analyse en Composantes Principales (ACP)
But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP
2/182
Analyse de données multidimensionnelles (ACP + AFC)

Outline

4 Analyse Factorielle de Correspondance (AFC)


But de l'AFC
Tableau de données
Problématique et Objectifs de l'AFC
Modèle d'indépendance
Les nuages et leur ajustement
Interprétation des résultats

5 Démarche pratique sous SPSS (v25)


Analyse en Composantes Principales
Analyse Factorielle de Correspondance

3/182
Analyse de données multidimensionnelles (ACP + AFC)

Références bibliographiques

Rèférences bibliographiques
GILBERT, Saporta
Probabilités, analyse des données et statistique .
Editions Technip, Paris, 2006.
JOLLIFFE, Ian.
Principal component analysis .
In : International encyclopedia of statistical science. Springer, Berlin,
Heidelberg, 2011. p. 1094-1096..
HUSSON, François, LÊ, Sébastien, et PAGÈS, Jérome.
Analyse de données avec R.

Presses universitaires de Rennes, 2016.


Ludovic Lebart, Marie Piron, Alain Morineau
Statistique exploratoire multidimensionnelle.

Dunod. 1995
EL KHATRI, Said.
Analyse descriptive des données multidimensionnelle (ACP + AFC) .
Manuel de cours. EHTP. 2016. 4/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles


Caractéristiques et Finalités
Familles des méthodes

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)

5 Démarche pratique sous SPSS (v25)

5/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

1 Systématise les démarches de la statistique descriptive


unidimensionnelle et bidimensionnelle
Lois de probabilité,

Calculs statistiques usuels

Hypothèses,

Tests statistiques,

Courbes,

Projections planes,

6/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

2 Utilise un grand nombre d'informations pour expliquer ou


prévoir le comportement d'un phénomène
x1 = f (y1 , ..., yp )

(x1 , ..., xq ) = f (y1 , ..., yp )

Règle décisionnelle pour prévoir la modalité d'une variable qualitative


à l'aide de plusieurs variables quantitatives

7/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

3 Permet la description synthétique d'un phénomène (déni par


plusieurs paramètres)
Décomposition élémentaire du phénomène

Rendre plus facile par la réduction du nombre de données et


d'équations

Par l'interprétation de graphes simples (projection planes, courbes,


etc.).

8/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

4 Utilise les techniques multidimensionnelles de l'algèbre linéaire


en raison du volume de données à analyser
Traitement des vecteurs, matrices, géométrie ....

9/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

5 Ne peut se faire, à priori, sans l'aide des moyens informatiques


logiciels statistiques (R, SPSS, SAS, etc.),

librairies mathématiques (Factominer, etc.),

logiciels graphiques (R, etc.)

10/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Caractéristiques

6 Nécessite l'interprétation, l'analyse du professionnel


connaisseur des données à traiter

11/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités

Finalités de l'analyse des données multidimensionnelles

Finalité
Avec l'analyse multidimensionnelle, on accepte
une légère perte en information an d'obtenir
un grand gain en signication

12/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles


Caractéristiques et Finalités
Familles des méthodes

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)

5 Démarche pratique sous SPSS (v25)

13/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Familles des méthodes d'analyse des données


multidimensionnelles

Analyse inférentielle (ou décisionnelle)

Analyse descriptive

14/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Analyse inférentielle (ou décisionnelle)

Rôle :
Etendre les propriétés constatées sur un échantillon à
toute la population et vérier, éventuellement,
l'adéquation des hypothèses
Méthodes décisionnelles classiques multidimensionnelles :
La Régression Multiple : Une variable quantitative
à expliquer par p autres variables quantitatives
L'Analyse Discriminante : Une variable qualitative
à expliquer à l'aide de p variables quantitatives.

15/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Analyse statistique descriptive


Rôle :
Ressortir des propriétés de l'échantillon étudié
Suggérer des hypothèses sur les données.
Méthodes multidimensionnelles :
Méthodes factorielles: pour réduire le nombre de
variables à analyser
Analyse en Composantes Principales ACP :

Description de la variabilité de p variables


quantitatives

Analyse Factorielle des Correspondances AFC:

Description de la liaison entre 2 ou plusieurs


variables qualitatives

Classication Automatique : pour réduire le


nombre d'individus à analyser (Répartition de n
individus en k classes tel que dans chaque classe, les
individus se ressemblent ) 16/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base

Notions de base
Deux types de variables :
Population (limitée ou de grande taille) : ensemble des individus à
étudier.
Echantillon : partie de la population (n individus) sur laquelle est
eectuée l'étude.
Individus : appartenant à la population
Variable (caractère) : caractéristique des individus, dénie sur la
population.

17/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base

Notions de base
Variable quantitative : valeurs réelles
discrète (exemple : âge, nombre d'enfants)
continue (exemple : taille, température)

Variable qualitative :
nominale (exemple: couleur [jaune, vert, ..], type de brouillard
[radiatif, evaporation, mélange, ...])
ordinale (exemple: taille de voiture [petite, moyenne, grande]).

18/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base

Moyenne : Variable centrée :


1X
n
xc = x − x avec xc = 0
x= xi
n
i=1 Variable normée (réduite) :
Variance : x
y= avec sy = 1
sx
1 n
X
sx2 = (xi − x)2
n
i=1
Variable centrée-réduite :
x −x
Ecart type : y= avec y = 0 et sy = 1
sx
v
u1 X
u n
sx = t (xi − x)2
n
i=1

19/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base


Variable quantitative
Exemple de représentation graphique

20/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base


Analyse de la liaison entre 2 variables quantitatives
Covariance :
1X
n
sxy = (xi − x)(yi − y )
n
i=1

Corrélation : sxy
r (x, y ) =
sx sy
−1 ≤ r (x, y ) ≤ 1
L'équation de régression linéaire liant deux variables x et y s'écrit sous la
forme s y
y= r (x, y ).x + b
sx
Le carré du coecient de corrélation r (x, y )exprime le pourcentage de
2

variance expliquée
21/182
Analyse de données multidimensionnelles (ACP + AFC)

Généralités de l'analyse des données multidimensionnelles

Familles des méthodes

Rappel de statistique de base

Analyse de la liaison entre 2 variables quantitatives


Représentation graphique

22/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 23/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

But de l'ACP

But de l'ACP
descriptive qui permet de
L'ACP est une méthode

résumer,
synthétiser
ou condenser

le comportement de p variables quantitatives (observées n

fois).

24/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

Exemple élémentaire
On considère l'échantillon constitué par :
16 pays (ou individus) sur lesquels on a relevé les valeurs de deux
variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA)
en 1970

25/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

Exemple élémentaire
On considère l'échantillon constitué par :
16 pays (ou individus) sur lesquels on a relevé les valeurs de deux
variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA)
en 1970

25/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

Exemple élémentaire
On considère l'échantillon constitué par :
16 pays (ou individus) sur lesquels on a relevé les valeurs de deux
variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA)
en 1970

26/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

But de l'ACP

Exemple élémentaire
Transformation linéaire et orthogonale
Repère initial = (ANA,EVI) =⇒ Nouveau repère = (progrès, déphasage
entre ANA et EVI)

27/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 28/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Tableau de données
L'ACP s'intéresse à des tableaux de données rectangulaires avec des
individus en lignes et des variables quantitatives en colonnes.

 p variables 
x11 . . . x1 p
 . . . . . 
 
 .
X = . xij . .   n Individus
 . . . . . 
xn 1 . . . xnp

xij est la i observation ( individu) de la j variable


xj est la j variable quantitative avec j = 1, p
X est la matrice des individus (observations)
X t
est la matrice transposée de X
= n1 Xt X est la matrice de variance-covariance entre les variables
P

29/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Caractéristiques d'un ensemble de modèles de voitures


Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur
Honda Civic 1396 90 174 850 369 166
Renault19 1721 92 180 965 415 169
Fiat Tipo 1580 83 170 970 395 170
Peugeot 405 1769 90 180 1080 440 169
Renault21 2068 88 180 1135 446 170
Citroen BX 1769 90 182 1060 424 168
BMW530i 2986 188 226 1510 472 175
Rover827i 2675 177 222 1365 469 175
Renault25 2548 182 226 1350 471 180
Opel Oméga 1998 122 190 1255 473 177
Peugeot 405 Break 1905 125 194 1120 439 171
Ford sierra 1993 115 185 1190 451 172
BMW325iX 2494 171 208 1300 432 164
Audi 90 quattro 1994 160 214 1220 439 169
Ford Scorpio 2933 150 200 1345 466 176
Renault Espace 1995 120 177 1265 436 177
Nissan Vanette 1952 87 144 1430 436 169
VW Caravelle 2109 112 149 1320 457 184
FORd Fiesta 1117 50 135 810 371 162
Fiat Uno 1116 58 145 780 364 155
Peugeot 205 1580 80 159 880 370 156
Peugeot205 Rallye 1294 103 189 805 370 157
Seat Lbiza SXI 1461 100 181 925 363 161
Citroen AX sport 1294 95 184 730 350 160

30/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Caractéristiques d'un ensemble de modèles de voitures

On dispose ainsi de :
24 individus (lignes) : modèles de voitutres
6 variables (colonnes) : Cylindrée, Puissance, Vitesse (km/h),
Poids (kg), Longueur (cm) et Largeur (cm)

=⇒ Tableau de données est de la forme 24 x 6 (individus x variables).

Question
Analyser les caracteristiques de cet ensemble de 24 modèles de voitures
selon les 6 critères ?

31/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Caractéristiques d'un ensemble de modèles de voitures


On pourrait penser à :
Analyser la variation d'un critère à l'autre pour chaque modèle de
voitures i (i = 1, 24)
Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur
Honda Civic 1396 90 174 850 369 166

Analyser la variation d'un modèle de voiture à l'autre pour chaque


critère j (j = 1, 6)
Modèle Honda Civic Renault19 Fiat Tipo ... Seat Ibiza SXI Citroen AX
Cylindrée 1396 1721 1580 ... 1461 1294

32/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Caractéristiques d'un ensemble de modèles de voitures


On pourrait penser à :
Analyser la variation d'un critère à l'autre pour chaque modèle de
voitures i (i = 1, 24)
Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur
Honda Civic 1396 90 174 850 369 166

Analyser la variation d'un modèle de voiture à l'autre pour chaque


critère j (j = 1, 6)
Modèle Honda Civic Renault19 Fiat Tipo ... Seat Ibiza SXI Citroen AX
Cylindrée 1396 1721 1580 ... 1461 1294

Question
Pourquoi faut il éviter cette méthode ?

32/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Tableau de données

Caractéristiques d'un ensemble de modèles de voitures


On pourrait penser à :
Analyser la variation d'un critère à l'autre pour chaque modèle de
voitures i (i = 1, 24)
Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur
Honda Civic 1396 90 174 850 369 166

Analyser la variation d'un modèle de voiture à l'autre pour chaque


critère j (j = 1, 6)
Modèle Honda Civic Renault19 Fiat Tipo ... Seat Ibiza SXI Citroen AX
Cylindrée 1396 1721 1580 ... 1461 1294

Question
Pourquoi faut il éviter cette méthode ?
si p et/ou n est grand, la méthode devient complexe et lourde
si des couples de variables sont corrélés ou anti-corrélés, l'analyse
sera redondante
32/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 33/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Problématique et Objectifs de l'ACP

Le tableau de données est vu comme un ensemble de lignes ou de


colonnes.

Etude des individus (lignes)


Quand dit-on que 2 individus se ressemblent du point de vue de
l'ensemble des variables ?

Est-il possible de mettre en évidence une typologie des individus ?

Etude des variables (colonnes)


Quand dit-on que 2 variables sont liées (positivement ou
négativement) entre elles ?
Est-il possible de mettre en évidence une typologie des variables ?

Typologie ≡ construction d'une partition (groupe) d'individus homogènes


du point de vue l'ensemble des variables.
34/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Problèmatique et Objectifs de l'ACP

Tenant compte des ressemblances des individus et des liaisons entre


variables, l'ACP tente de répondre à la question :
Est-il possible de résumer toutes les données par un nombre
restreint de valeurs sans perte d'information importante ?
Objectifs de l'ACP
1 Descriptif - exploratoire : Rendre l'information plus facile à
analyser. Ceci par visualtion des données par des graphes simples
2 Synthèse : Condenser l'information contenue dans de grands
tableaux individus x variables (en réduisant le nomnbre de données à
analyser)

35/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Nuage des Individus


1 individu ≡ 1 ligne du tableau ⇒ 1 point dans un espace à p dimensions

36/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Nuage des Individus

1 individu ≡ 1 ligne du tableau ⇒ 1 point dans un espace à p dimensions


Notion de ressemblance
Deux individus se ressemblent, ou sont proches, s'ils possèdent des
valeurs proches pour l'ensemble des variables.
Cette proximité ou cette ressemblance se traduit par une distance entre
deux individus i et i 0 . Dans le cas d'une métrique euclidienne :
X
d 2 (i, i 0 ) = (xij − xi 0 j )2
j

Dans le cas général,

d 2 (i, i 0 ) = (Ai − Ai 0 )t M(Ai − Ai 0 )


où M est une matrice symétrique dénie positive de taille p

37/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Centrage - réduction des données


Centrer les données ne modie pas la forme du nuage
⇒ Toujours centrer

Réduire les données est indispensable si les unités de mesure sont


diérentes d'une variable à l'autre
xij − x̄j
xij −→
sj
La réduction conduit à accorder la même importance à chaque
variable. Son importance est proportionnelle à son écart-type.
Notation :

38/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus

L'ACP vise à fournir une image simpliée du nuage des individus la


plus dèle possible
⇐⇒ Trouver le sous-espace qui résume au mieux les données.

Qualité de l'image :
Restitue dèlement la forme générale du nuage
Meilleure représentation de la diversité et de la variabilité
Ne perturbe pas les distances entre individus

39/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple


Approche de réponse (par analogie)
Devinez quels sont les objets dont la projection plane est :

40/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple

Réponse

41/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple


Approche de réponse (par analogie)
Pour décrire l'allongement d'un objet :
L'espace de dimension 1 peut être susant : (tuyau)

L'espace de dimension 2 est nécessaire et susant : (feuille de


papier)

L'espace de dimension 2 est acceptable mais pas très susant :


(bateau)

42/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple


Approche de réponse (par analogie)
Devinez sachant que la projection plane est :

43/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple


Réponse : Un chameau

44/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Notion d'inertie

L'information donnée sur la dispersion des points constituant un objet


dans un espace de dimension p est :

très lisible lorsqu'on projette cet objet sur les axes (ou plans) de plus
grand allongement,
et très peu importante en projection sur les axes de très faible
allongement.

45/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Notion d'inertie

L'objet décrit dans l'exemple d'analogie est, dans notre cas, un nuage de
n points dans l'espace de dimension inférieur à p

La dispersion du nuage de points est mesurée par son inertie par


rapport au centre de gravité :
1X 1X
n n X p p
X
In = ~ i ||2 =
||OA xij2 = sj2
n n
i=1 i=1 j=1 j=1

allongement ≡ dispersion ≡ variance ≡ inertie

46/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problématique et Objectifs de l'ACP

Ajustement du nuage des individus

Comment trouver la meilleure image approchée du nuage ?

1 Trouver l'axe (facteur) qui déforme le moins possible le nuage

Tourver le meilleur plan : maximiser i (OHi ) avec Hi ∈ plan . Le


P 2
2

meilleur planPcontient le meilleur axe ; on cherche u ⊥ u et


2 1

maximisant i (OHi ) . 2

3 On peut chercher un 3eme axe, etc. d'inertie maximum

47/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 48/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Principe de l'ACP

Le principe de l'ACP consiste à représenter le nuage des n points dans un


espace
(O, u~1 , u~2 , ..., u~p )
qui permettra, en des projections dans l'espace engendré par un nombre
réduit de vecteurs , de montrer les plus grands allongements de ce
nuage.
(O, u~1 , u~2 , ..., u~q ) avec qp

49/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP

On travaille sur des données centrées :

50/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP


On cherche des transformations linéaires orthogonales entre elles sur
la base du critère de la maximisation de la variance.
Etape 1:
Recherche de l'axe u~ (unitaire) tel que le nuage des
1

points a une variance (allongement) maximale sur cet axe

51/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP


Etape 2:
Recherche de l'axe u~ (unitaire) tel que :
2

u~1 ⊥ u~2
le nuage de point a le plus grand allongement sur u~
2

Etape k:
Recherche de l'axe u~k (unitaire) tel que :
u~k ⊥ u~l ∀l ≤ k − 1
le nuage de point a le plus grand allongement sur u~k
52/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP

Les vecteurs directeurs des axes recherchés sont les vecteurs propres
de la matrice de variance covariance (i.e. matrice d'inertie).
P

Ces vecteurs unitaires sont rangés dans l'ordre décroissant des valeurs
propres associées :
u~1 , u~2 , ..., et u~p avec λ1 > λ2 > ... > λp

Rappel
Le calcul des valeurs propres et des vecteurs propres peut s'eectuer en
résolvant les sytèmes suivants :
Valeurs propres λ : det( − λI) = 0
P

Vecteurs propres U ; U = λU
P

53/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP

Remarque : La nouvelle base est orthonormée. 54/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP

55/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Formule de changement de base

Les composantes principales sont des combinaisons linéaires des


variables initiales:

56/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Propriétés des composantes principales


Propriété de la moyenne :
p p
ajk x j = 0 car x j = 0
X X
zk = ajk x j =
j=1 j=1

Les composantes prinicpales sont centrées.


Propriété de la variance :
Soit Dλ la matrice diagonale des valeurs propres.
La matrice de variance-covariance des composantes principales est :
1 t 1 t t t
X
Z Z= U X XU = U U = Dλ
n n
On en déduit :
var (z k ) = λk ∀k = 1, p
Propriété de la corrélation :
r (z l , z k ) = 0 ∀ l 6= k
Les composantes principales ne sont pas corrélées entre elles. 57/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Variance totale

58/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Variance expliquée : Qualité d'ajustement du nuage

59/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Variance expliquée : Qualité d'ajustement du nuage


Sous SPSS : Total = Valeur propre

60/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Variance résiduelle

61/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Approximation de la reconstitution des variables initiales

62/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q

1. Critère de la valeur propre moyenne (mean eigenvalue):


Ne garder que les axes tel que :
1 1 1X
p
λk
> ⇐⇒ λk > tr (D) = λj
tr (D) p p p
j=1

p=6 ←→ 1
p = 16.6%

λ1 = 4.656 ←→ λ1
tr (D) = 77.6%

λ2 = 0.915 ←→ λ2
tr (D) = 15.254%
Une seule composante à retenir !!!

63/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q

2. Critère de variance expliquée (variance explained criteria):


On se xe un maximum de perte d'information : exemple
5% ou 10% de variance résiduelle. On retiendra par
exemple les q premières composantes principale tel que
Q = 90%

On retient dans notre exemple


DEUX composantes
principale.

64/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q

3. Critère de KAISER :
Lorsque les données sont centrées réduites, on retient les
composantes principales tel que λk > 1 pour k ≤ q

Une seule composante à


retenir !!!

65/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q


4. Critère de CATTEL (critère de coude - the scree plot) :
On retient les q premières CP tel que l'apport en variance
des dernières CP est remarquablement plus faible par
rapport aux premières.

On retient dans notre exemple


DEUX composantes
principale.

66/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des individus

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 67/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des individus

Projections planes

Nécessité d'utiliser plusieurs


projections planes sur R . On se
2

limite souvent aux plans (O, u~ , u~ ),


1 2

(O, u~ , u~ ), et (O, u~ , u~ ).
1 3 2 3

Les points Aj et Ak paraissent très


proches sur le plan (O, u~ , u~ ).
1 3

Mais en réalité, ils sont très


éloignés dans l'espace.
La projection sur le plan (O, u~ , u~ )
1 2

le montre facilement.
L'analyse est meilleure lorsque les
contributions sont élevées.
68/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des individus

Projection plane des individus (observations)

Qualité de représentation d'un individu sur un plan


Il ne faut commenter la position d'un individu sur un plan que s'il est
bien représenté sur ce plan.
Mais,
Comment peut-on juger la qualite de représentation d'un individu sur un
plan ?
69/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des individus

Qualité de représentation d'un individu sur un plan

70/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des individus

Qualité de représentation d'un individu sur un plan

Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur CP1 CP


Honda Civic -0,97 -0,61 -0,36 -1,13 -1,27 -0,37 -0,92 0,3
Renault19 -0,35 -0,56 -0,12 -0,63 -0,16 0,02 -0,35 -0,1
Fiat Tipo -0,62 -0,79 -0,52 -0,61 -0,64 0,15 -0,59 -0,4
Peugeot 405 -0,26 -0,61 -0,12 -0,13 0,45 0,02 -0,12 -0,4
Renault21 0,31 -0,66 -0,12 0,10 0,59 0,15 0,08 -0,6
Citroen BX -0,26 -0,61 -0,04 -0,22 0,06 -0,11 -0,23 -0,2
BMW530i 2,05 1,92 1,70 1,73 1,22 0,81 1,79 0,8
Rover827i 1,46 1,63 1,54 1,10 1,15 0,81 1,45 0,7
Renault25 1,22 1,76 1,70 1,04 1,20 1,46 1,56 0,6
Opel Oméga 0,17 0,21 0,27 0,63 1,24 1,07 0,68 -0,7
Peugeot Break 0,00 0,29 0,43 0,04 0,42 0,28 0,27 0,1
Ford sierra 0,16 0,03 0,08 0,34 0,71 0,41 0,34 -0,4
BMW325iX 1,11 1,48 0,99 0,82 0,25 -0,63 0,77 1,3
Audi 90 quattro 0,17 1,19 1,23 0,47 0,42 0,02 0,64 1,1
Ford Scorpio 1,95 0,94 0,67 1,02 1,07 0,94 1,27 -0,1
Renault Espace 0,17 0,16 -0,24 0,67 0,35 1,07 0,42 -0,9
Nissan Vanette 0,09 -0,69 -1,55 1,39 0,35 0,02 -0,01 -1,8
VW Caravelle 0,38 -0,04 -1,35 0,91 0,86 1,98 0,55 -2,4
FORd Fiesta -1,49 -1,64 -1,91 -1,31 -1,22 -0,89 -1,59 -0,9
Fiat Uno -1,50 -1,44 -1,51 -1,44 -1,39 -1,81 -1,70 -0,0
Peugeot 205 -0,62 -0,87 -0,96 -1,00 -1,25 -1,68 -1,19 0,4
Peugeot Rallye -1,16 -0,28 0,23 -1,33 -1,25 -1,55 -1,04 1,5
Seat Lbiza SXI -0,84 -0,35 -0,08 -0,81 -1,42 -1,02 -0,88 0,9
Citroen sport -1,16 -0,48 0,04 -1,65 -1,73 -1,15 -1,20 1,3
71/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des individus

Qualité de représentation d'un individu sur un plan

72/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des individus

Qualité de représentation d'un individu sur un plan


Le but de l'ACP est de trouver la meilleure image approchée du nuage :
en cherchant la premier axe factoriel qui déforme le moins possible le
1

nuage
(OHi ) est grand ⇐⇒ (AHi ) est petit
2 2

(Pythagore) ⇐⇒ l'angle (OA ~ i ) est petit.


~ i , OH

2 2
~ i ) = OHi = Pzik
~ i , OH
cos 2 (OA
OA2i 2
k zik

Inertie de Ai suivant l 0 axe Fk


=
Inertie de Ai
L'inertie totale du nuage s'écrit
1 2 X 1 2 X
n
X n
X p
n X n X
In = In(i) = OAi = z = Ink (i)
n n ik
i=1 i=1 i=1 k=1 i=1 k=1

avec In(i) est l'inertie de l'individu Ai et Ink (i) est l'inertie de Ai


suivant l'axe Fk 73/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des individus

Qualité de représentation d'un individu sur un plan

2 puis trouver P
le meilleur plan contenant le premier axe factoriel
maximisant i (OHi ) . 2

Par analogie, on trouve facilement :


2
~ i , plan(Fk , Fl )) = OHi
cos 2 (OA
OA2i

Inertie de Ai suivant le plan (Fk , Fl )


=
Inertie de Ai
zik2 + zil2
= P 2
k zik

~ i , Fk ) + cos 2 (OA
= cos 2 (OA ~ i , Fl )

3 On peut chercher un 3eme axe, etc. d'inertie maximum


74/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des individus

Qualité de représentation d'un individu sur un plan

Régle empirique du seuil de la qualité de représentation


Il faut commenter la position d'un individu sur un plan (Fk , Fl ) que s'il
est bien représenté sur ce plan ⇐⇒ cos (OA~ i , plan(Fk , Fl )) n'est
2

pas faible (au delà de 0.25).

Par rapport à un plan (Fk , Fl ) on a : cos(OA


~ i , plan(Fk , Fl )) = OHi
OAi .

Pour un cos(OA ~ i , plan(Fk , Fl )) = 1 ⇐⇒ l'angle est nul ⇐⇒ Ai est sur le


plan (Fk , Fl ) ⇐⇒ aucune perte d'information (100%) .

Pour un cos(OA ~ i ) = 0.5 ⇐⇒ angle=60o ⇐⇒ 50% de l'information.


~ i , OH

75/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des individus

Qualité de représentation d'un individu sur un plan


Modèle cos 2 /F1 cos 2 /F2 Qualité
Honda Civic 0,88 0,02 0,90
Renault19 0,66 0,02 0,68
Fiat Tipo 0,76 0,09 0,85
Peugeot 405 0,11 0,31 0,42
Renault21 0,03 0,42 0,45
Citroen BX 0,48 0,08 0,56
BMW530i 0,94 0,04 0,98
Rover827i 0,94 0,06 1,00
Renault25 0,94 0,03 0,97
Opel Oméga 0,67 0,18 0,85
Peugeot 405 Break 0,62 0,04 0,66
Ford sierra 0,63 0,22 0,85
BMW325iX 0,50 0,32 0,82
Audi 90 quattro 0,57 0,34 0,91
Ford Scorpio 0,92 0,00 0,92
Renault Espace 0,45 0,42 0,86
Nissan Vanette 0,00 0,64 0,64
VW Caravelle 0,19 0,73 0,92
FORd Fiesta 0,93 0,06 1,00
Fiat Uno 0,98 0,00 0,98
Peugeot 205 0,89 0,02 0,91
Peugeot205 Rallye 0,70 0,29 0,99
Seat Lbiza SXI 0,79 0,17 0,96
Citroen AX sport 0,78 0,19 0,96

76/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des individus

Contribution d'un individu à la construction d'un plan

La contribution d'un individu i à la construction d'un axe Fk est donnée


par
z2
CTRk (i) = Pn ik 2
(x 100)
i=1 zik

Ainsi, les éléments ayant une forte coordonnée contribuent le plus.

Remarque pratique
Les observations projetées loin du centre (O ) qui méritent plus
d'attention car leur contribution au calcul de la variance est grande

77/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 78/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation


Notion de Laision entre variables
Deux variables sont liées si elles ont un fort coecient de corrélation
linéaire (positive ou négatif)
cov (x k , x l )
r (x k , x l ) =
sx k sx l

1 variable ≡ 1 point dans un espace de n dimensions


< xk, xl >
P
i xik xil
cos(θkl ) = k l
= p pP
||x ||.||x ||
P 2 2
i xik i xil

Comme les variables sont centrées :


cos(θkl ) = cos(x k , x l ) = r (x k , x l )
Si variables réduites ⇒ points sur une hypersphère
de rayon 1.
79/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

cos(θ(A, B)) = r (A, B) vrai dans l 0 espace


cos(θ(A, B)) ≈ r (A, B) si les variables sont bien projet ées

Seules les variables bien projetées peuvent être interprétées ! 80/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

La qualité de représentation d'une variable sur un plan Fkxl est


mesurée par le cosinus carré de l'angle fait par la variable avec ce
plan : r (x j , z k ) + r (x j , z l )
2 2
81/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation


Si la variable x est sur le cercle de
1

corrélation sur le plan (F , F ), elle est


1 2

dite qu'elle est parfaitement


représentée. D'après Pythagore
= 1 = ||x1 || =
X
2 2
x11 + x12 x12j
j

on déduit ainsi que


x1j = 0 ∀j > 2

82/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

83/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

Projection des variables


La corrélation entre deux variables x m et x j est donnée par la lecture
graphique du cosinus de l'angle (OA~ m ; OA
kl
~ j ) à condition que les points
kl
Am
kl et Aj
kl soient proches du cercle de corrélation .

Quelques exemples :
θ=0 variables parfaitement corrélées r (x m , x j ) = 1
θ = π/2 variables parfaitement décorrélées r (x m , x j ) = 0
θ=π variables parfaitement anti-corrélées r (x m , x j ) = −1

84/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

X 1 et X 2

85/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

X 1 et X 2 sont corrélées
X 2 et X 3

85/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées
X 2 et X 4

85/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées
X 2 et X 4 sont anti-corrélées
X 6 et X 7

85/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées
X 2 et X 4 sont anti-corrélées
X 6 et X 7 on ne peut rien dire
X 1 et z k

85/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées
X 2 et X 4 sont anti-corrélées
X 6 et X 7 on ne peut rien dire
X 1 et z k sont corrélées
X 4 et z k

85/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées
X 2 et X 4 sont anti-corrélées
X 6 et X 7 on ne peut rien dire
X 1 et z k sont corrélées
X 4 et z k sont anti-corrélées
X 6 et z k

85/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées
X 2 et X 4 sont anti-corrélées
X 6 et X 7 on ne peut rien dire
X 1 et z k sont corrélées
X 4 et z k sont anti-corrélées
X 6 et z k sont non corrélées

85/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation


Jeu des corrélations entre variables de l'exemple du cours

86/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Etude du comportement des variables

Projection des variables : Cercle de correlation

87/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Aides à l'interprétation des CP

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 88/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Aides à l'interprétation des CP

Interprétation des CP
1 Donner un sens à chaque axe factoriel en étudiant les variables
initiales fortement corrélées (positivement ou négativement)
avec cet axe.
Recherche lexicale (ou recherche de mots) qui peut résumer un ou
des groupe(s) de variables initiales . . .

Ce sont les éléments extrêmes, éventuellement opposés, qui


concourent à l'élaboration des axes

L'interprétation est parfois compliquée à cause de la combinaison de


plusieurs variables initiales; d'où la nécessité de bien connaitre les
données de base

Si l'interprétation des variables n'est pas évidente, il faut alors


donner un sens à l'axe à partir des individus qui ont les coordonnées
extrêmes.
2 Interpréter la position des individus par rapport aux sens des
axes.
89/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Aides à l'interprétation des CP

Interprétation des CP

Toutes les variables sont corrélées à


F .
1

Comment interpréter le premier axe


?
Comment interpréter le deuxième
axe ?

90/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Aides à l'interprétation des CP

Interprétation des CP

Eet de taille Eet de forme


Les variables sont toutes de Deux groupes de variables
même côté de l'axe. Elles opposées : celles qui contribuent
contribuent toutes dans le même positivement à l'axe, et celles qui
sens à la construction de l'axe contribuent négativement

91/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Aides à l'interprétation des CP

Interprétation des CP
Qualité d'ajustement par le meilleur plan (F , F ) est 92.85%
1 2

92/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Aides à l'interprétation des CP

Interprétation des CP

Sens des axes factoriels :

Premier Axe Factoriel :

La performance générale du modèle de voiture


Deuxième Axe Factoriel :

Opposition entre la puissance du moteur et la


forme du modèle de voiture

93/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Aides à l'interprétation des CP

Interprétation des individus grâce aux variables

94/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Aides à l'interprétation des CP

Interprétation des CP

Analyse des individus grâce aux variables et leur possible

typologie :

les berlines, grosses


Axe 1 : Opposition entre

puissantes et de grandes dimensions et les citadines


de faible dimensions et peu puissantes
les voitures familiales
Axe 2 : Opposition entre

volumineuses mais lentes et les voitures sportives


moins larges et roulant vite et puissante

95/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problème de mise en oeuvre de l'ACP

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 96/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problème de mise en oeuvre de l'ACP

Les données sont-elles factorisables ?

1 Plusieurs variables sont corrélées (ou anti-corrélées) ?


Analyse de la matrice de corrélation.

97/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problème de mise en oeuvre de l'ACP

Les données sont-elles factorisables ?


2 L'indice de KMO (Kaiser-Meyer-Olkin) qui tend vers 1 ?
C'est le rapport :
somme des corr élations au carr é
somme des corr élations partielles au carr é

0,50 et moins =⇒ misérable


entre 0,60 et 0,70 =⇒ médiocre
entre 0,70 et 0,80 =⇒ moyen
entre 0,80 et 0,90 =⇒ méritoire
plus que 0,9 =⇒ merveilleux.

98/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problème de mise en oeuvre de l'ACP

Les données sont-elles factorisables ?

3 La signication de Bartlett tend vers 0 ?


(test de sphéricité) Comparer la matrice de corrélation à la matrice
identité à l'aide de Khi2.
Si la signication de Bartlett :
tend vers 0 =⇒ c'est très signicatif,
inférieur à 0.05 =⇒ signicatif,
entre 0.05 et 0.10 =⇒ acceptable
au dessus de 0.10 =⇒ on rejette.

99/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problème de mise en oeuvre de l'ACP

Les données sont-elles factorisables ?

Pratique
1 Plusieurs variables continues sont corrélées (ou anti-corrélées) ?
(linear relationship)
2 L'indice de KMO (Kaiser-Meyer-Olkin) qui tend vers 1 ? (sampling
adequacy)
3 La signication de Bartlett tend vers 0 ? (suitable for data
reduction)

En pratique:
Les données sont factorisables si au moins 2 conditions parmi ces 3
conditions sont favorables.

100/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problème de mise en oeuvre de l'ACP

Choix de la matrice Ω ou ?
P

101/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Problème de mise en oeuvre de l'ACP

Diagonalisation de pour p  n?
P

102/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Quelques exemples d'application de l'ACP

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)


But de l'ACP
Tableau de données
Problématique et Objectifs de l'ACP
Composantes principales (CP) : Détermination et Propriétés
Etude du comportement des individus
Etude du comportement des variables
Aides à l'interprétation des CP
Problème de mise en oeuvre de l'ACP
Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC) 103/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse en Composantes Principales (ACP)

Quelques exemples d'application de l'ACP

Quelques exemples d'application de l'ACP

Lissage des données initiales


q
X
Xe = z k Uk
k=1

Reconstitution des données manquantes


Aide à alléger les modèles de prévision statistique

104/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

But de l'AFC

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)


But de l'AFC
Tableau de données
Problématique et Objectifs de l'AFC
Modèle d'indépendance
Les nuages et leur ajustement
Interprétation des résultats

5 Démarche pratique sous SPSS (v25)


105/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

But de l'AFC

But de l'AFC

But de l'AFC

L'AFC est une méthode descriptive


qui permet de décrire la liaison (ou correspondance)
entre deux variables qualitatives.

106/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Tableau de données

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)


But de l'AFC
Tableau de données
Problématique et Objectifs de l'AFC
Modèle d'indépendance
Les nuages et leur ajustement
Interprétation des résultats

5 Démarche pratique sous SPSS (v25)


107/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Tableau de données

Tableau de données : Contingence

L'AFC s'intéresse à des tableaux de données rectangulaires avec :


n modalités en lignes d'une variable qualitative I
p modalités en colonnes de la deuxième variables qualitative J
décrivant un ensemble de k individus.

kij : l'eectif de la classe


(I = i, J = j)

ki. = j kij : Total


P
marginal de I = i
k.j = i kij : Total
P
marginal de J = j

108/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Tableau de données

Appréciation d'un lm selon l'âge des spectateurs

Analyse de l'appréciation d'un lm selon l'âge de 1357 individus :


I = âge avec n = 7 modalités
(16-24,25-34,35-44,45-54,55-64,65-74,75+)
J = appréciation avec p = 4 modalités (mauvais,moyen,bon,très
bon)
109/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Problématique et Objectifs de l'AFC

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)


But de l'AFC
Tableau de données
Problématique et Objectifs de l'AFC
Modèle d'indépendance
Les nuages et leur ajustement
Interprétation des résultats

5 Démarche pratique sous SPSS (v25)


110/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Problématique et Objectifs de l'AFC

Problématique et Objectifs de l'AFC


Objectif : Analyse du tableau de contingence
Analyser la liaison entre l'âge et l'appréciation ?
Analyser le lien entre une classe d'âge et une classe
d'appréciation ?
Analyser les diérentes modalités de l'âge ? et celles de
l'appréciation ?

111/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Problématique et Objectifs de l'AFC

Problématique et Objectifs de l'AFC

Question : Que peut-on dire des eectifs 41 (i=16-24 et j=très bon)


et 40 (i=75+ et j=Mauvais) ?

112/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Problématique et Objectifs de l'AFC

Problématique et Objectifs de l'AFC

Question : Que peut-on dire des eectifs 41 (i=16-24 et j=très bon)


et 40 (i=75+ et j=Mauvais) ?
Une analyse visuelle des chires du tableau de contingence peut
induire alors en erreur.
112/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Problématique et Objectifs de l'AFC

Tableau des fréquences


fij = kij : fréquence de la classe (I = i, J = j)
k

fi. : fréquence marginale de (I = i) = poids de la ligne i


f.j : fréquence marginale de (J = j) = poids de la colonne j

113/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Problématique et Objectifs de l'AFC

Tableau des fréquences : Notion de poids


Le poids des lignes varie de 4.6% pour [75+] à 20.3% pour [35-44]
Le poids des colonnes varie de 7.2% pour [Bon] à 60% pour [Mauvais]

114/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Problématique et Objectifs de l'AFC

Objectif de l'AFC

Objectif
Tenant compte de la variabilité des poids de lignes et de

colonnes dans le tableau des fréquences, l'AFC vise à étudier

la liaison entre les variables qualitatives I et J en étudiant


l'écart entre les données observées et le modèle
d'indépendance

115/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)


But de l'AFC
Tableau de données
Problématique et Objectifs de l'AFC
Modèle d'indépendance
Les nuages et leur ajustement
Interprétation des résultats

5 Démarche pratique sous SPSS (v25)


116/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Modèle d'indépendance

Rappel
Deux événements A et B indépendants :
P(A et B) = P(A) × P(B)

Deux variables qualitatives indépendantes :


∀i, ∀j, fij = fi. × f.j

⇐⇒ Probabilité conjointe = produit des probabilités marginales.


Autres écritures :
fij fij
f.j = fi. =
fi. f.j
⇐⇒ Probabilité conditionnelle = probabilité marginale
117/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Liaison entre deux variables qualitatives

L'écart entre les données observées (fij ) et le modèle d'indépendance


(fi. f.j ) se mesure par
X (fij − fi. f.j )2
ϕ2 =
fi. f.j
i,j

ϕ2 mesure l'intensité de la liaison et ne dépend pas de l'eectif total


des individus mais uniquement des probabilités (fréquences observées
et théoriques).
Les variables qualitatives I et J sont indépendantes si et seulement si
ϕ2 = 0

118/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Liaison entre deux variables qualitatives

En utilisant les eectifs observés, l'écart entre les données observées et


le modèle d'indépendance se mesure par
X (eff . observ é − eff . théorique)2
D2 =
eff . théorique
i,j

X (n.fij − n.fi. f.j )2


D2 = car kij = n.fij
n.fi. f.j
i,j

D 2 = n.ϕ2
Lorsque I et J sont indépendantes, on montre que D suit une loi de χ à
2 2

(n − 1) × (p − 1) degrès de liberté.

=⇒ test de χ2 nous donne une idée sur la signicativité de liaison (de


l'écart) et ϕ2 mesure l'intensité de la liaison.
119/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Liaison entre deux variables qualitatives


Pratique : Test de χ 2

Soit T . tel que P(χ < T . ) = 0.95.


0 95
2
0 95

T . est donnée par les logiciels et les tables statistiques .


0 95

Si D > T . alors
2
0 95

D est vraisemblablement non nulle à 95% de conance =⇒ la liaison


2

entre I et J est signicative.

120/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Liaison entre deux variables qualitatives

Pratique : Test de χ 2

Certains logiciels statistiques fournissent aussi le degré de signication


α de D : 2

P(D 2 < χ2 ) = α
Si α tend vers 0 (inférieur à 0.05), on peut accepter que D est non nulle
2

(la liaison entre I et J est signicative au risque α =seuil de risque).

121/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Liaison entre deux variables qualitatives

Sous l'hypothèse d'indépendance, les eectifs théoriques se calculent


grâce à la formule :
0 ki. × k.j
kij =
k

122/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Liaison entre deux variables qualitatives

123/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Liaison entre deux variables qualitatives

Si :
Khi2 observée > Khi2 critique
ou
Le degré de signication < 0.05
Alors :
L'âge et l'appréciation sont bien liés.
124/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Comment l'AFC appréhende l'écart à l'indépendance ?

125/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Comment l'AFC appréhende l'écart à l'indépendance ?


Le tableau des prols-lignes représente les répartitions en pourcentage
à l'intérieur d'une ligne. Ces prols-lignes sont en somme les
probabilités conditionnelles d'avoir la modalité j de l'Appréciation
sachant que les spectateurs ont la modalité i de l'âge.

La dernière ligne représente le prol-ligne moyen. 126/182


Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Comment l'AFC appréhende l'écart à l'indépendance ?

127/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Comment l'AFC appréhende l'écart à l'indépendance ?

128/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Modèle d'indépendance

Comment l'AFC appréhende l'écart à l'indépendance ?

129/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)


But de l'AFC
Tableau de données
Problématique et Objectifs de l'AFC
Modèle d'indépendance
Les nuages et leur ajustement
Interprétation des résultats

5 Démarche pratique sous SPSS (v25)


130/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Le nuage des (prols) lignes

131/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Le nuage des (prols) colonnes

132/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Que se passe-t-il s'il y a indépendance ?

133/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Ecart à l'indépendance et inertie


Plus les données s'écartent de l'indépendance et plus les prols s'écartent
de l'origine.
X X
Inertie(NI /GI ) = Inertie(i/GI ) = fi. dχ2 (i, GI )
2

i i
 
X X 1  fij 2
= fi.  − f.j 
f.j f.j
i j
X X (fij − fi. f.j )2 D2
= = = ϕ2
fi. f.j n
i j

ϕ mesure l'intensité de la liaison et qui est indépendante de l'eectif


2

total du tableau.
Etudier l'inertie des nuages des prols lignes (NI ) revient à étudier
l'écart à l'indépendance.
Idem pour le nuage des prols colonnes (NJ ) :
Inertie(NJ /GJ ) = Inertie(NI /GI ) (dualit é)
134/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Nuage de prols dans un hyperplan


Les points existent dans un espace de dimension r = min(p − 1, n − 1)
Les points appartiennent à l'hyperplan x + x + ... + x p = 1
1 2

135/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Analogie entre ACP et AFC

ACP AFC
l'ACP permet de décrire la l'AFC permet de décrire la liaison
variabilité de p variables entre I et J en étudiant la
quantitatives en étudiant la structure de ϕ via la recherche
2

structure de la variance totale via de nouveaux axes qui expliquent


la recherche de nouveaux axes qui le maximum d'inertie ⇐⇒
expliquent le maximum d'inertie Maximum de liaison
⇐⇒ Maximum de variance ϕ2 mesure
la liaison entre les deux
variables qualitatives
l'inertie totale du nuage de
points
l'écart à l'indépendance
136/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Analogie entre ACP et AFC


L'idée de l'AFC, comme en ACP, est de déterminer un nouveau repère
qui permettra, en des projections bidimensionnelles, de montrer les
plus grands allongements de ce nuage au tour de son centre de gravité.

ACP AFC
Les point Ii sont munis du Chaque point Ii est muni
même poids pi = 1/n d'un poids pi = fi.
La distance utilisée est la La distance utilisée est la
distance euclidienne distance de Khi2
les colonnes (variables) sont ni les lignes ni les colonnes
centrées ne sont centrées
Les points existent dans un Les points existent dans un
espace de dimension espace de dimension
r = min(p, n) r = min(p − 1, n − 1)
137/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Analogie entre ACP et AFC

Les directions d'inertie priviligiées sont trouvées de la même manière


qu'en ACP, sauf qu'avec l'AFC
Les prols lignes et les prols colonnes ont chacun un poids
la distance utilisée est de Khi2 (χ ) 2

ni les colonnes ni les lignes ne sont centrées : on analysera le nuage


de points à partir de son centre de gravité
On obtient :
r axes factoriels avec r = min(p − 1, n − 1)
le premier axe a le le maximum d'inertie λ 1

le dernier axe a le le minimum d'inertie λr


λ1 ≥ λ2 ≥ ... ≥ λr

L'inertie totale ϕ = λ + λ + ... + λr


2
1 2

138/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Qualité d'ajustement

La qualité de représentation d'un axe =?


= le pourcentage d'inertie expliqué par l'axe
= inertie de l'axe / inertie totale
λ
Pk
k λk

La qualité de représentation d'un plan =?


= le pourcentage d'inertie expliqué par le plan
= (la somme des inerties des 2 axes)/ inertie totale
λk + λl
P
k λk

N.B.: En général, les 2 premiers axes susent pour expliquer plus de


70% de l'inertie initiale. Lorsque ce n'est pas le cas, on utilise les 3
premiers axes en les étudiant deux par deux.
139/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Qualité d'ajustement

Les deux premiers axes factoriels expliquent 97.3% de l'inertie totale.

140/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Qualité de représentation d'une modalité


Sur un axe =? Carré du cosinus de l'angle fait par la modalité et
l'axe

Sur un plan =? Carré du cosinus de l'angle fait par la modalité et


le plan

141/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Contribution d'une modalité

La contribution d'une modalité à l'inertie totale :

= inertie de la modalité / inertie


totale
GA2i
= pi
ϕ2

Indique quelles modalités sont les plus diérentes de la moyenne


dans l'ensemble du nuage.

142/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Contribution d'une modalité

La contribution d'une modalité à l'inertie d'un axe :

= inertie de la modalité sur l'axe


/ inertie de l'axe
GA2i
= pi
λk

Permet (pour les grandes valeurs) de donner un sens à l'axe.

143/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Contribution d'une modalité

La contribution d'une modalité à l'inertie d'un axe :

144/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Contribution d'une modalité

145/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Contribution d'une modalité

146/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Les nuages et leur ajustement

Contribution d'une modalité

Pratique
La contribution d'une modalité est un compromis opérationnel entre
distance à l'origine et poids
Les contributions des modalités indiquent dans quelle mesure on
peut considérer qu'un axe est dû à un élément ou à quelques
éléments
L'interprétation des graphese est basée sur les points remarquables
ayant une bonne qualité de représentation
La qualité de représentation indique dans quelle mesure l'écart d'un
prol au prol moyen est complétement représenté par l'axe ou par
un plan
Les points extrêmes ne sont pas nécessairement ceux qui contribuent
le plus à la construction des axes

147/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Interprétation des résultats

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)


But de l'AFC
Tableau de données
Problématique et Objectifs de l'AFC
Modèle d'indépendance
Les nuages et leur ajustement
Interprétation des résultats

5 Démarche pratique sous SPSS (v25)


148/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Interprétation des résultats

Interprétation des résultats

Les deux nuages :

des prols-lignes
des prols-colonnes

sont projetés successivement sur des plans factoriels et interprétés.

En Pratique
On peut projeter simultanément les deux nuages sur un même plan.

149/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Interprétation des résultats

Interprétation des résultats

L'interprétation de l'AFC consistera à :

Donner un sens aux axes en étudiant les contributions de


chaque prol (modalité) : Les prols ayant les plus fortes
contributions sur un axe, permettront de donner un sens à cet axe
Interpréter la position des prols (modalités) par rapport au
sens donné aux axes : L'étude des signes des coordonnées des
prols permet de mettre en valeur des oppositions.
Interpréter la proximité des prols-lignes
Interpréter la proximité des prols-colonnes

150/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Interprétation des résultats

Interprétation des résultats

Au sein d'une même variable


Au sein d'une même variable, la proximité de deux modalités est
signicative
Deux points prols proches sur le graphe représenteront deux
modalités de I ayant des distributions (répartitions) suivant les
modalités de J assez semblables.
Deux points prols éloignés représenteront deux modalités de I dont
les distributions suivant les modalités de J sont très diérentes.

151/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Interprétation des résultats

Interprétation des résultats

Entre deux variables diérentes


Entre variables diérentes, on jauge l'angle formé entre les deux
modalités et l'origine
Un angle proche de zéro, implique une liaison
Un angle proche de π/2, implique pas liaison
Un angle proche de π , implique une liaison inverse

152/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Interprétation des résultats

Interprétation des résultats : projection de l'appréciation

153/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Interprétation des résultats

Interprétation des résultats : projection de l'âge

154/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Interprétation des résultats

Interprétation des résultats : sens des axes

155/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Interprétation des résultats

Interprétation des résultats : sens des axes

Sens des axes factoriels :

Premier Axe Factoriel :

Etre plus vieux et ne pas aimer le


Opposition entre

lm et Etre jeune et aimer le lm


Deuxième Axe Factoriel :

Etre d'un age moyen et dire que le


Opposition entre

m est moyen et Etre très vieux et bien aimer ce


lm

156/182
Analyse de données multidimensionnelles (ACP + AFC)

Analyse Factorielle de Correspondance (AFC)

Interprétation des résultats

Interprétation des résultats

157/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)

5 Démarche pratique sous SPSS (v25)


Analyse en Composantes Principales
Analyse Factorielle de Correspondance

158/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

1. Ouverture du chier de données


Démarrer IBM Statistics SPSS 25
Ouvrir une source de données existante
Fichier de type : Excel
Choisir le chier : data-acp.xlsx

159/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

1. Ouverture du chier de données

Laisser active l'option : lire


les noms des variables à
partir de la première ligne
de données
Cliquer sur OK
Enregistrer votre chier en
format donnée de SPSS :
data-acp.sav

160/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

2. Statistiques descriptives

Analyse
Statistiques descriptives
Descriptives

161/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

2. Statistiques descriptives
La boîte de dialogue Descriptives apparaît alors :
On choisit les variables adaptées à l'analyse en les sélectionnant
dans la partie gauche puis en cliquant sur la èche qui pointe vers la
droite.
Cliquer sur options et cocher moyenne, écart type, variance, mini
et max

162/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

3. Exécution de l'ACP
Analyse
Réduction des dimensions
Analyse factorielle :

163/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

3. Exécution de l'ACP
La boîte de dialogue Analyse factorielle apparaît alors :
De même qu'en haut, sélectionner les variables adaptées à l'analyse
Sur votre gauche il y a 5 boites de dialogue d'options à examiner une
à une.

164/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

3. Exécution de l'ACP
La boîte de dialogue Analyse factorielle : Caractéristiques apparaît.
Dans Statistiques, cliquer sur Structure initiale
Dans Matrice de corrélation, cliquer sur Coecients et indice de
KMO et test de sphéricité de Bartlett
Ensuite, cliquer sur poursuivre

165/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

3. Exécution de l'ACP

La boîte de dialogue Analyse


factorielle : Extraction
apparaît.
Choisir entre matrice de
corrélation ou matrice de
covariance ?
Cocher Structure
factorielle sans rotation et
Diagramme des valeurs
propres.
Extraire Nombre xe de
facteurs =3 ( ?)
Ensuite, cliquer sur
poursuivre
166/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

3. Exécution de l'ACP

La boîte de dialogue Analyse


factorielle : Rotation apparaît.
Garder l'option Aucun dans
un premier temps
Cocher l'option Cartes
factorielles. Cette option
permet d'avoir une
représentation des diérents
axes.
Ensuite, cliquer sur
poursuivre

167/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

3. Exécution de l'ACP

La boîte de dialogue Analyse


factorielle : facteurs apparaît.
L'option Enregistrer dans
des variables permettra
d'attribuer à chaque individu
ses coordonnées factorielles
une fois l'analyse terminée
(garder le choix régression)
Cocher l'option Acher la
matrice des coecients
factoriels
Ensuite, cliquer sur
poursuivre

168/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

4. Projection des Variables


Le diagramme de composantes montre une projection sur l'espace
dirigé par les 3 premiers axes factoriels. Pour revenir à des projections en
2 dimensions, cliquer 2 fois sur l'image diagramme de composantes
puis cliquer sur édition

169/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

4. Projection des Variables


puis sur propriétés puis variables, puis cliquer sur l'axe à exclure :
exemple Axe des Z puis Exclure puis appliquer

170/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

5. Projection des Individus


Pour projeter les observations sur les
espaces factoriels :
Remarquer que l'option
enregistrer dans des variables
sous facteurs a permis
d'enregistrer dans le chier de
données les facteurs comme de
nouvelles variables à la n sous des
noms : REGR factor score 1 for
analysis 1 : c'est la CP No 1 de la
1ère analyse !
Ensuite tracer à partir de la fenêtre
des données : Graphiques puis
Boîte de dialogue ancienne
version , ensuite cliquez sur
Dispersion des Points
171/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

5. Projection des Individus

Choisir diagramme de dispersion simple puis cliquer sur dénir.

172/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

5. Projection des Individus

Choisir diagramme de dispersion


simple puis cliquer sur dénir. Placez
la variable CP2 c.a.d REGR factor
score 2 for analysis 1 sur l'axe des y
et la variable CP1 c.a.d REGR factor
score 1 for analysis 1 sur l'axe des x.
Puis glisser la variable modèle dans
cette case : Etiqueter les observations
par. Cliquer sur options.

173/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales

5. Projection des Individus

Cocher Acher le graphique avec les libellés des observations puis


cliquer sur Poursuivre.

174/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse Factorielle de Correspondance

Outline

1 Références bibliographiques

2 Généralités de l'analyse des données multidimensionnelles

3 Analyse en Composantes Principales (ACP)

4 Analyse Factorielle de Correspondance (AFC)

5 Démarche pratique sous SPSS (v25)


Analyse en Composantes Principales
Analyse Factorielle de Correspondance

175/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse Factorielle de Correspondance

1. Ouverture du chier de données


Démarrer IBM Statistics SPSS 25
Ouvrir une source de données existante
Choisir le chier : Appreciation-Age.sav

176/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse Factorielle de Correspondance

2. Exécution de l'AFC
Analyse
Réduction des dimensions
Analyse des correspondances

177/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse Factorielle de Correspondance

2. Exécution de l'AFC
La fenêtre Analyse des correspondances apparait :
1. Sélectionnez une variable de Ligne. (cliquer sur la èche)
2. Sélectionnez une variable de Colonne. (cliquer sur la èche)
3. Cliquer sur dénir intervalle ( pour la Ligne puis pour la Colonne):
valeur mini = 1 ; valeur maxi = 4 dans le cas des variables à 4
modalités, puis Cliquer sur mettre à jour
4. Contrainte de modalité : aucun puis cliquer sur Poursuivre

178/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse Factorielle de Correspondance

2. Exécution de l'AFC
Cliquer sur Modèle, la fenêtre : Analyse des correspondances :
Modèle apparait :
* Dimensions de la solution : 2 ?
* Mesure de distance : choisir Khi-deux
* Méthode de standardisation : Moyennes de lignes et de colonnes
sont supprimées et Symétrique Poursuivre

179/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse Factorielle de Correspondance

2. Exécution de l'AFC
Cliquer sur Statistiques, la fenêtre : Analyse des correspondances :
Statistiques apparait, alors Cochez :
1. Tableau des correspondances
2. Caractéristiques des points lignes
3. Caractéristiques des points colonnes
4. Prols lignes
5. Prols colonnes
puis cliquer sur Poursuivre

180/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse Factorielle de Correspondance

2. Exécution de l'AFC

Cliquer sur Tracés, la fenêtre : Analyse


des correspondances : Tracés
apparait, alors Cochez :
1. Nuages de points : Tracé double
2. Courbes : rien
3. Dimension des tracés : Acher
toutes les dimensions dans la solution
puis cliquer sur Poursuivre

181/182
Analyse de données multidimensionnelles (ACP + AFC)

Démarche pratique sous SPSS (v25)

Analyse Factorielle de Correspondance

MERCI

MERCI

N.B.: C'est la première version des mes slides de cours, si vous notez

quelques erreurs de frappe ou d'autres anomalies, n'hésitez pas à me les

communiquer par mail sur bari.driss@gmail.com

182/182

Vous aimerez peut-être aussi