Vous êtes sur la page 1sur 97

Analyse de

données

Introduction

Analyse en
Composantes
Principales (ACP)
Analyse de données
Analyse Notes de cours
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances W. El Hannoun
Multiples (ACM)

Master M2SI. 2022-2023

1/93
Analyse de
données
Table des matières
Introduction

Analyse en 1. Introduction
Composantes
Principales (ACP)

Analyse 2. Analyse en Composantes Principales (ACP)


Factorielle des
Correspon- 2.1 Données - Exemples
dances (AFC)

Analyse des Cor-


2.2 Etude des individus
respondances
Multiples (ACM)
2.3 Etude des variables
2.4 Aide à l’interprétation

3. Analyse Factorielle des Correspondances (AFC)


3.1 Données
3.2 Modèle d’indépendance
3.3 Les nuages et leur ajustement
3.4 Pourcentages d’inertie et inertie en AFC
3.5 Représentation simultanée des lignes et des colonnes
3.6 Aides à l’interprétation

4. Analyse des Correspondances Multiples (ACM)

2/93
Analyse de
données

Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)
Introduction

3/93
Analyse de
données
Exemples
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
1 Analyse des pays (individus) suivant leurs niveaux de
Factorielle des
Correspon-
développement humain (variables quantitatives).
dances (AFC) Exemple : "Rapport sur les perspectives du Maroc à l’horizon 2025 :
Analyse des Cor-
respondances
Pour un développement humain élevé", IRES, 2006.
Multiples (ACM) https ://www.ires.ma/images/modele-de-
developpement/perspectives.pdf
2 Analyse du lien entre le mode de consommation (variable
qualitative) et la CSP (variable qualitative).
3 Analyse des ménages (individus) selon leurs caractéristiques
socioéconomiques (variables qualitatives). Exemple : "Enquête
nationale sur la consommation et les dépenses des ménages
2014", HCP, 2019.
https ://www.hcp.ma/file/212376/

4/93
Analyse de
données
Analyse des données : Objectifs communs
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
• Dégager et synthétiser les principales caractéristiques d’un
Correspon-
dances (AFC)
grand nombre de données.
Analyse des Cor- • Relever le lien entre plusieurs variables (quantitatives ou
respondances
Multiples (ACM) qualitatives).
• Détecter des profils particuliers des individus suivant
certaines caractéristiques (quantitatives ou qualitatives).
• Et plus : Discrimination, score, labellisation, classification,
prédiction, . . . .
⇒ L’analyse de données (ou analyse multivariée ou analyse fac-
torielle) : méthodes qui mettent en évidence les structures perti-
nentes d’une masse volumineuse de données.

5/93
Analyse de
données
Analyse des données : Spécifités et couplages
Introduction potentiels
Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

6/93
Analyse de
données
Analyse des données : Domaines d’utilisation
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

7/93
Analyse de
données
Analyse des données : Evolution
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

8/93
Analyse de
données
Plan
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

9/93
Analyse de
données

Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)
Analyse en Composantes Principales (ACP)
Analyse des Cor-
respondances
Multiples (ACM)

10/93
Analyse de
données
Table of Contents
Introduction

Analyse en 1. Introduction
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
2. Analyse en Composantes Principales (ACP)
Etude des variables 2.1 Données - Exemples
Aide à l’interprétation

Analyse
2.2 Etude des individus
Factorielle des
Correspon-
2.3 Etude des variables
dances (AFC) 2.4 Aide à l’interprétation
Analyse des Cor-
respondances
Multiples (ACM) 3. Analyse Factorielle des Correspondances (AFC)
3.1 Données
3.2 Modèle d’indépendance
3.3 Les nuages et leur ajustement
3.4 Pourcentages d’inertie et inertie en AFC
3.5 Représentation simultanée des lignes et des colonnes
3.6 Aides à l’interprétation

4. Analyse des Correspondances Multiples (ACM)

11/93
Analyse de
données
Quel type de données ?
L’ACP s’intéresse à des tableaux de données rectangulaires avec
Introduction

Analyse en
des individus en lignes et des variables quantitatives en colonnes.
Composantes
Principales (ACP)
Pour la variable k, on note :
Données - Exemples
Etude des individus I
la moyenne : x k = 1I
P
Etude des variables xik
Aide à l’interprétation
s i=1
Analyse
Factorielle des
I
2
l’écart-type : sk = 1I
P
Correspon- (xik − x k )
dances (AFC)
i=1
Analyse des Cor-
respondances
Multiples (ACM)

Figure – Tableau de données en ACP.

12/93
Analyse de
données
Exemples
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
• Analyse sensorielle : note du descripteur k pour le produit i
Aide à l’interprétation
• Ecologie : concentration du polluant k dans la rivière i
Analyse
Factorielle des
Correspon-
• Economie : valeur de l’indicateur k pour l’année i
dances (AFC)

Analyse des Cor-


• Génétique : expression du gène k pour le patient i
respondances
Multiples (ACM) • Biologie : mesure k pour l’animal i
• Marketing : valeur d’indice de satisfaction k pour la marque i
• Sociologie : temps passé à l’activité k par les individus de la
CSP i
• etc.

13/93
Analyse de
données
Les données température
Introduction

Analyse en
Composantes
• 15 individus (lignes) : villes de France
Principales (ACP)
Données - Exemples
• 14 variables (colonnes) :
Etude des individus
• 12 températures mensuelles moyennes (sur 30 ans)
Etude des variables
Aide à l’interprétation • 2 variables géographiques (latitude, longitude)
Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

14/93
Analyse de
données
Problèmes-objectifs
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation Le tableau peut être vu comme un ensemble de lignes ou un en-
Analyse semble de colonnes.
Factorielle des
Correspon- Etude des individus
dances (AFC)

Analyse des Cor- • Quand dit-on que 2 individus se ressemblent du point de vue
respondances
Multiples (ACM) de l’ensemble des variables ?
• Si beaucoup d’individus, peut-on faire un bilan des
ressemblances ?
⇒ construction de groupes d’individus, partition des individus

15/93
Analyse de
données
Problèmes-objectifs
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Etude des variables
Aide à l’interprétation • Recherche des ressemblances entre variables
Analyse
Factorielle des • Entre variables, on parle plutôt de liaisons
Correspon-
dances (AFC)
• Liaisons linéaires sont simples, très fréquentes et résument
Analyse des Cor-
respondances de nombreuses liaisons ⇒ coefficient de corrélation
Multiples (ACM)
⇒ visualisation de la matrice des corrélations ⇒ recherche d’un
petit nombre d’indicateurs synthétiques pour résumer beaucoup
de variables (ex. d’indicateur synthétique a priori : la moyenne,
mais ici on recherche des indicateurs synthétiques a posteriori, à
partir des données)

16/93
Analyse de
données
Problèmes-objectifs
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Lien entre les deux études
Etude des individus
Etude des variables
• Caractérisation des classes d’individus par les variables
Aide à l’interprétation
⇒ besoin de procédure automatique
Analyse
Factorielle des • Individus spécifiques pour comprendre les liaisons entre
Correspon-
dances (AFC) variables
Analyse des Cor-
respondances
⇒ utilisation d’individus extrêmes (en terme de variables :
Multiples (ACM)
langage abstrait mais puissant, revenir aux individus pour
voir les choses plus simplement)
Objectifs de l’ACP
• Descriptif - exploratoire : visualisation de données par
graphiques simples
• Synthèse - résumé de grands tableaux individus × variables

17/93
Analyse de
données
Deux nuages de points
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

18/93
Analyse de
données
Table of Contents
Introduction

Analyse en 1. Introduction
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
2. Analyse en Composantes Principales (ACP)
Etude des variables 2.1 Données - Exemples
Aide à l’interprétation

Analyse
2.2 Etude des individus
Factorielle des
Correspon-
2.3 Etude des variables
dances (AFC) 2.4 Aide à l’interprétation
Analyse des Cor-
respondances
Multiples (ACM) 3. Analyse Factorielle des Correspondances (AFC)
3.1 Données
3.2 Modèle d’indépendance
3.3 Les nuages et leur ajustement
3.4 Pourcentages d’inertie et inertie en AFC
3.5 Représentation simultanée des lignes et des colonnes
3.6 Aides à l’interprétation

4. Analyse des Correspondances Multiples (ACM)

19/93
Analyse de
données
Le nuage des individus N I
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
1 individu = 1 ligne du tableau ⇒ 1 point dans un espace à K dim
Etude des individus
Etude des variables
• Si K = 1 : Représentation axiale
Aide à l’interprétation

Analyse
• Si K = 2 : Nuage de points
Factorielle des
Correspon- • Si K = 3 : Représentation + difficile en 3D
dances (AFC)

Analyse des Cor-


• Si K = 4 : Impossible à représenter MAIS le concept est
respondances
Multiples (ACM) simple
Notion de ressemblance : distance (au carré) entre individus i et
i′ :
K
2
X
d 2 (i, i ′ ) = (xik − xi ′ k )
k =1

Etude des individus ⇔ Etude de la forme du nuage N I

20/93
Analyse de
données
Le nuage des individus N I
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

• Etudier la structure, i.e. la forme du nuage des individus


• Les individus vivent dans RK

21/93
Analyse de
données
Centrage – réduction des données
Introduction

Analyse en
Composantes
Principales (ACP)
• Centrer les données ne modifie pas la forme du nuage ⇒
Données - Exemples
Etude des individus
toujours centrer
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

• Réduire les données est indispensable si les unités de


mesure sont différentes d’une variable à l’autre
xik − x k
xik →
sk

22/93
Analyse de
données
Centrage – réduction des données
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

ACP ⇔ Analyse du tableau centré-réduit


Difficile de voir le nuage NI ⇒ on essaie d’en avoir une image
approchée

23/93
Analyse de
données
Ajustement du nuage des individus
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus L’ACP vise à fournir une image simplifiée de N I la + fidèle possible
Etude des variables
Aide à l’interprétation
⇔ Trouver le sous-espace qui résume au mieux les données
Analyse Qualité d’une image :
Factorielle des
Correspon- • Restitue fidèlement la forme générale du nuage
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

24/93
Analyse de
données
Ajustement du nuage des individus
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables L’ACP vise à fournir une image simplifiée de N I la + fidèle possible
Aide à l’interprétation
⇔ Trouver le sous-espace qui résume au mieux les données
Analyse
Factorielle des Qualité d’une image :
Correspon-
dances (AFC) • Restitue fidèlement la forme générale du nuage (animation)
Analyse des Cor-
respondances • Meilleure représentation de la diversité, de la variabilité
Multiples (ACM)
• Ne perturbe pas les distances entre individus
Comment quantifier la qualité d’une image ?
A l’aide de la notion de dispersion ou variabilité appelée Inertie
Inertie ⇔ variance généralisée à plusieurs dimensions

25/93
Analyse de
données
Ajustement du nuage des individus
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

Figure – Quel animal ?

26/93
Analyse de
données
Ajustement du nuage des individus
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

Figure – Quel animal ?

26/93
Analyse de
données
Ajustement du nuage des individus
Introduction

Analyse en
Composantes
Principales (ACP)
Comment trouver la meilleure image approchée du nuage ?
Données - Exemples
Etude des individus
1 Trouver l’axe (facteur) qui déforme le moins possible le nuage
2 2
Etude des variables
Aide à l’interprétation
(iHi ) petit avec Hi ∈ axe ⇔ (OHi ) grand (Pythagore) ⇒ on
P 2
Analyse veut i (OHi ) grand
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

P 2
2 Trouver le meilleur plan : maximiser i (OHi ) avec Hi ∈ plan
Meilleur plan contient le meilleur axe : on cherche u2 ⊥ u1 et
P 2
maximisant i (OHi )
3 on peut chercher un 3ème axe, etc. d’inertie maximum

27/93
Analyse de
données
Exemple : graphe des individus
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

Comment interpréter les axes ? Qu’est-ce qui oppose Lille à Nice ?


⇒ Besoin de variables pour interpréter ces dimensions de variabi-
lité

28/93
Analyse de
données
Interprétation du graphe des individus grâce
Introduction aux variables
Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

29/93
Analyse de
données
Interprétation du graphe des individus grâce
Introduction aux variables
Analyse en
Composantes
Principales (ACP)
Données - Exemples
Considérons les coordonnées des individus sur les axes comme
Etude des individus des variables
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

30/93
Analyse de
données
Interprétation du graphe des individus grâce
Introduction aux variables
Analyse en
Composantes
Principales (ACP)
Données - Exemples
Corrélations entre la variable x.k et F.1 (et F.2 )
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

⇒ Cercle des corrélations

31/93
Analyse de
données
Interprétation du graphe des individus grâce
Introduction aux variables
Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

32/93
Analyse de
données
Interprétation du graphe des individus grâce
Introduction aux variables
Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

32/93
Analyse de
données
Interprétation du graphe des individus grâce
Introduction aux variables
Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

Toutes les variables sont corrélées à F1 .


Comment interpréter le 1er axe ?
Comment interpréter le 2ème ?
Principaux facteurs de variabilité :
1 villes chaudes et froides ;
2 à T° moyenne constante : l’amplitude thermique

33/93
Analyse de
données
Interprétation du graphe des individus grâce
Introduction aux variables
Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

Toutes les variables sont corrélées à F1 .


Comment interpréter le 1er axe ?
Comment interpréter le 2ème ?
Principaux facteurs de variabilité :
1 villes chaudes et froides ;
2 à T° moyenne constante : l’amplitude thermique

33/93
Analyse de
données
Interprétation du graphe des individus grâce
Introduction aux variables
Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

Toutes les variables sont corrélées à F1 .


Comment interpréter le 1er axe ?
Comment interpréter le 2ème ?
Principaux facteurs de variabilité :
1 villes chaudes et froides ;
2 à T° moyenne constante : l’amplitude thermique

33/93
Analyse de
données
Table of Contents
Introduction

Analyse en 1. Introduction
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
2. Analyse en Composantes Principales (ACP)
Etude des variables 2.1 Données - Exemples
Aide à l’interprétation

Analyse
2.2 Etude des individus
Factorielle des
Correspon-
2.3 Etude des variables
dances (AFC) 2.4 Aide à l’interprétation
Analyse des Cor-
respondances
Multiples (ACM) 3. Analyse Factorielle des Correspondances (AFC)
3.1 Données
3.2 Modèle d’indépendance
3.3 Les nuages et leur ajustement
3.4 Pourcentages d’inertie et inertie en AFC
3.5 Représentation simultanée des lignes et des colonnes
3.6 Aides à l’interprétation

4. Analyse des Correspondances Multiples (ACM)

34/93
Analyse de
données
Nuage des variables N K
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)
1 variable = 1 point dans un espace à I dimensions
<x.k , x.l >
cos (θkl ) =
∥x.k ∥∥x.l ∥
I
P
xik xil
= s i=1 s
I I
xik2 xil2
P P
i=1 i=1

Comme les variables sont centrées : cos (θkl ) = r (x.k , x.l )


Si variables réduites ⇒ points sur une hypersphère de rayon 1
35/93
Analyse de
données
Ajustement du nuage des variables
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Même règle que pour les individus : recherche d’axes orthogonaux
Factorielle des
Correspon-
dances (AFC)
K
2
X
Analyse des Cor- argmax r (v1 , x.k )
respondances v1 ∈RI k =1
Multiples (ACM)

⇒ v1 est la variable synthétique qui résume au mieux les variables


Trouver le 2ème axe, puis le 3ème, etc.

36/93
Analyse de
données
Ajustement du nuage des variables
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

⇒ Même représentation que précédemment !


• aide pour interpréter les individus
• représentation optimale du nuage des variables
• visualisation de la matrice des corrélations
37/93
Analyse de
données
Projections
Introduction

Analyse en
Composantes r (A, B) = cos(θA,B )
Principales (ACP)
Données - Exemples
cos(θA,B ) ≈ cos(θHA ,HB ) si les variables sont bien projetées
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

Seules les variables bien projetées peuvent être interprétées !

38/93
Analyse de
données
Table of Contents
Introduction

Analyse en 1. Introduction
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
2. Analyse en Composantes Principales (ACP)
Etude des variables 2.1 Données - Exemples
Aide à l’interprétation

Analyse
2.2 Etude des individus
Factorielle des
Correspon-
2.3 Etude des variables
dances (AFC) 2.4 Aide à l’interprétation
Analyse des Cor-
respondances
Multiples (ACM) 3. Analyse Factorielle des Correspondances (AFC)
3.1 Données
3.2 Modèle d’indépendance
3.3 Les nuages et leur ajustement
3.4 Pourcentages d’inertie et inertie en AFC
3.5 Représentation simultanée des lignes et des colonnes
3.6 Aides à l’interprétation

4. Analyse des Correspondances Multiples (ACM)

39/93
Analyse de
données
Pourcentage d’inertie
Introduction

Analyse en Pourcentage d’information (d’inertie) expliqué par chaque axe


Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

⇒ Choix d’un nombre de dimensions à interpréter

40/93
Analyse de
données
Pourcentage d’inertie si indépendance entre
Introduction variables
Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

Figure – Quantile à 95% du pourcentage d’inertie des 2 premières dimensions


de 10000 PCA obtenue avec des variables indépendantes

41/93
Analyse de
données
Pourcentage d’inertie si indépendance entre
Introduction variables
Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

Figure – Quantile à 95% du pourcentage d’inertie des 2 premières dimensions


de 10000 PCA obtenue avec des variables indépendantes

42/93
Analyse de
données
Information supplémentaire
Introduction

Analyse en 1 Pour les variables quantitatives : projection des variables


Composantes
Principales (ACP)
Données - Exemples
2 Pour les modalités : projection au barycentre des individus
Etude des individus
Etude des variables
qui prennent cette modalité
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

⇒ Information supp. ne participe pas à la construction des axes

43/93
Analyse de
données
Qualité de représentation – contribution
Introduction

Analyse en
Composantes
Principales (ACP)
• Qualité de représentation d’une variable et d’un individu
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)
⇒Seuls les éléments bien projetés peuvent être interprétés
Analyse des Cor-
respondances
Multiples (ACM)
• Contribution d’1 var. et d’1 individu à la construction de l’axe
s:

⇒ Eléments avec une forte coordonnée contribuent le plus

44/93
Analyse de
données
Qualité de représentation – contribution
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

45/93
Analyse de
données
Qualité de représentation – contribution
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

46/93
Analyse de
données
Description des dimensions
Introduction

Analyse en
Par les variables quantitatives :
Composantes
Principales (ACP)
• calcul des corrélations entre chaque variable et la dimension
Données - Exemples
Etude des individus
s
Etude des variables
Aide à l’interprétation
• tri des coefficients de corrélation (significatifs)
Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)

47/93
Analyse de
données
Description des dimensions
Introduction

Analyse en
Composantes
Principales (ACP) Par les variables qualitatives :
Données - Exemples
Etude des individus
• Analyse de variance des coordonnées des individus sur l’axe
Etude des variables
Aide à l’interprétation
s (variable Y ) expliqués par la variable qualitative
Analyse
• un test F par variable
Factorielle des
Correspon-
• un test t de Student par modalité pour comparer la moyenne
dances (AFC) de la modalité avec la moyenne générale
Analyse des Cor-
respondances
Multiples (ACM)

48/93
Analyse de
données
Pratique de l’ACP
Introduction

Analyse en
Composantes
Principales (ACP)
Données - Exemples
Etude des individus
Etude des variables
Aide à l’interprétation
1 Choisir les variables actives
Analyse 2 Choisir de réduire ou non les variables
Factorielle des
Correspon-
dances (AFC) 3 Réaliser l’ACP
Analyse des Cor-
respondances
4 Choisir le nombre de dimensions à interpréter
Multiples (ACM)
5 Interpréter simultanément le graphe des individus et celui
des variables
6 Utiliser les indicateurs pour enrichir l’interprétation
7 Revenir aux données brutes pour interpréter

49/93
Analyse de
données

Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance Analyse Factorielle des Correspondances
Les nuages et leur
ajustement
Pourcentages
(AFC)
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

50/93
Analyse de
données
Table of Contents
Introduction

Analyse en 1. Introduction
Composantes
Principales (ACP)

Analyse 2. Analyse en Composantes Principales (ACP)


Factorielle des
Correspon- 2.1 Données - Exemples
dances (AFC)
Données 2.2 Etude des individus
Modèle
d’indépendance 2.3 Etude des variables
Les nuages et leur
ajustement 2.4 Aide à l’interprétation
Pourcentages
d’inertie et inertie en
AFC
Représentation
3. Analyse Factorielle des Correspondances (AFC)
simultanée des
lignes et des 3.1 Données
colonnes
Aides à
l’interprétation
3.2 Modèle d’indépendance
Analyse des Cor-
3.3 Les nuages et leur ajustement
respondances
Multiples (ACM)
3.4 Pourcentages d’inertie et inertie en AFC
3.5 Représentation simultanée des lignes et des colonnes
3.6 Aides à l’interprétation

4. Analyse des Correspondances Multiples (ACM)

51/93
Analyse de
données
Tableau de correspondances
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes xij : nombre d’individus appartenant à l’élément i de l’ensemble I, à l’élément j de
Aides à
l’interprétation l’ensemble J
Analyse des Cor-
respondances Exemple 1.1
Multiples (ACM)
• Personnages d’un texte : Nombre de fois que le personnage i a
utilisé le mot j
• Parfums : Nombre de fois où le parfum i a été décrit par le mot j
• Milieux : Abondance de l’espèce j dans le milieu i
⇒ Exemples où le test d’indépendance du χ2 peut être appliqué
52/93
Analyse de
données
Données sur les prix Nobel
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Y a-t’il un lien entre les pays et les catégories de prix ? Certains
Multiples (ACM) pays ont-ils des spécificités ?

53/93
Analyse de
données
Données
Introduction

Analyse en
Composantes
Principales (ACP) n individus et 2 variables qualitatives
Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

Distribution des n individus dans les I × J cases du tableau

54/93
Analyse de
données
Du tableau de contingences au tableau de
Introduction probabilités
Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

Liaison entre V1 et V2 : écart entre les données observées et le


modèle d’indépendance
55/93
Analyse de
données
Table of Contents
Introduction

Analyse en 1. Introduction
Composantes
Principales (ACP)

Analyse 2. Analyse en Composantes Principales (ACP)


Factorielle des
Correspon- 2.1 Données - Exemples
dances (AFC)
Données 2.2 Etude des individus
Modèle
d’indépendance 2.3 Etude des variables
Les nuages et leur
ajustement 2.4 Aide à l’interprétation
Pourcentages
d’inertie et inertie en
AFC
Représentation
3. Analyse Factorielle des Correspondances (AFC)
simultanée des
lignes et des 3.1 Données
colonnes
Aides à
l’interprétation
3.2 Modèle d’indépendance
Analyse des Cor-
3.3 Les nuages et leur ajustement
respondances
Multiples (ACM)
3.4 Pourcentages d’inertie et inertie en AFC
3.5 Représentation simultanée des lignes et des colonnes
3.6 Aides à l’interprétation

4. Analyse des Correspondances Multiples (ACM)

56/93
Analyse de
données
Liaisons et indépendance entre deux variables
Introduction qualitatives
Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des Modèle d’indépendance :
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Evènements indépendants : P(A et B) = P(A) × P(B)
Pourcentages
d’inertie et inertie en
AFC
Représentation Variables qualitatives indépendantes : ∀i, ∀j, fij = fi. × f.j
simultanée des
lignes et des
colonnes
Aides à
l’interprétation
⇒ Probabilité conjointe = produit des probabilités marginales
Analyse des Cor-
respondances
fij fij
Multiples (ACM)
Autres écritures : fi. = f.j ou f.j = fi.

⇒ Probabilité conditionnelle = probabilité marginale

57/93
Analyse de
données
Liaisons entre deux variables qualitatives
Introduction

Analyse en
Composantes
Principales (ACP) Ecart entre données obs (fij ) et modèle d’indépendance (fi. f.j )
Analyse
Factorielle des 1 Significativité de la liaison (de l’écart) : test du χ2
Correspon-
dances (AFC)
I X J I X J
Données
2
X (eff. observé - eff. théorique)2 X (nfij − nfi. f.j )2
Modèle χobs = =
d’indépendance
i=1 j=1
effectif théorique i=1 j=1
nfi. f.j
Les nuages et leur
ajustement
Pourcentages I X J
d’inertie et inertie en 2
X (probabilité observée - probabilité théorique)2 2
AFC χobs = n = nΦ
Représentation
i=1 j=1
probabilité théorique
simultanée des
lignes et des
colonnes
Aides à
2 Intensité de la liaison = Φ2 = écart entre probabilités théoriques et observées
l’interprétation
3 Nature de la liaison = association entre modalités
Analyse des Cor-
respondances
Multiples (ACM)
L’AFC travaille sur le tableau des probabilités
ne dit rien sur la significativité
visualise la nature de la liaison entre les deux variables

58/93
Analyse de
données
Comment l’AFC appréhende l’écart à
Introduction l’indépendance ?
Analyse en
Composantes
fij
Principales (ACP) Analyse par lignes : fi. = f.j
Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

Approche multidimensionnelle de l’écart à l’indépendance

59/93
Analyse de
données
Comparaison du profil ligne au profil moyen
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

Les Italiens obtiennent-ils des prix Nobel dans des disciplines par-
ticulières ?

60/93
Analyse de
données
Comment l’AFC appréhende l’écart à
Introduction l’indépendance ?
Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

Approche multidimensionnelle de l’écart à l’indépendance

61/93
Analyse de
données
Comparaison du profil colonne au profil moyen
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

La répartition par pays des prix Nobel en littérature est elle la


même que la répartition de l’ensemble des prix Nobel ?

62/93
Analyse de
données
Table of Contents
Introduction

Analyse en 1. Introduction
Composantes
Principales (ACP)

Analyse 2. Analyse en Composantes Principales (ACP)


Factorielle des
Correspon- 2.1 Données - Exemples
dances (AFC)
Données 2.2 Etude des individus
Modèle
d’indépendance 2.3 Etude des variables
Les nuages et leur
ajustement 2.4 Aide à l’interprétation
Pourcentages
d’inertie et inertie en
AFC
Représentation
3. Analyse Factorielle des Correspondances (AFC)
simultanée des
lignes et des 3.1 Données
colonnes
Aides à
l’interprétation
3.2 Modèle d’indépendance
Analyse des Cor-
3.3 Les nuages et leur ajustement
respondances
Multiples (ACM)
3.4 Pourcentages d’inertie et inertie en AFC
3.5 Représentation simultanée des lignes et des colonnes
3.6 Aides à l’interprétation

4. Analyse des Correspondances Multiples (ACM)

63/93
Analyse de
données
Le nuage des (profils) lignes
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

J  2
1 fij fi ′ j
Distance entre deux profils : dχ22 (i, i ′ ) =
P
f.j fi. − fi ′ .
j=1
J  2
1 fij
Distance au profil moyen GI : dχ22 (i, GI ) =
P
f.j fi. − f.j
j=1

64/93
Analyse de
données
Le nuage des (profils) colonnes
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

I  2
1 fij fij ′
Distance entre deux profils : dχ22 (j, j ′ ) =
P
fi. f.j − f.j ′
i=1
I  2
1 fij
dχ22 (j, GJ )
P
Distance au profil moyen GJ : = fi. f.j − fi.
i=1

65/93
Analyse de
données
Que se passe-t-il s’il y a indépendance ?
Introduction

Analyse en
Composantes fij
Principales (ACP) Pour tout i, fi. = f.j
Analyse
Factorielle des
Correspon-
⇒ les profils sont confondus avec le profil moyen ⇒ NI réduit à GI
dances (AFC) ⇒ L’inertie du nuage est nulle
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

fij
Idem pour les colonnes : pour tout j, f.j = fi.

66/93
Analyse de
données
Ecart à l’indépendance et inertie
Introduction

Analyse en Plus les données s’écartent de l’indépendance et plus les profils


Composantes
Principales (ACP) s’écartent de l’origine
Analyse
Factorielle des I I
Correspon- X X
dances (AFC) Inertie(NI /GI ) = Inertie(i/GI ) = fi. dχ22 (i, GI )
Données
Modèle i=1 i=1
d’indépendance  
Les nuages et leur I J  2
ajustement X X 1 f ij
Pourcentages = fi.  − f.j 
d’inertie et inertie en
AFC f.j fi.
Représentation
i=1 j=1
simultanée des
lignes et des I X
J 2
colonnes X (fij − fi. f.j ) χ2
Aides à = = = Φ2
l’interprétation
fi. f.j n
Analyse des Cor- i=1 j=1
respondances
Multiples (ACM)
Φ2 mesure l’intensité de la liaison
Etudier l’inertie de NI revient à étudier l’écart à l’indépendance
Idem pour NJ : Inertie(NJ /GJ ) = Inertie(NI /GI ) (dualité)

67/93
Analyse de
données
Représentation du nuage des lignes (ou des
Introduction colonnes)
Analyse en
Composantes
Décomposition de l’inertie de NI par analyse factorielle
Principales (ACP) Projection de NI sur une suite d’axes orthogonaux d’inertie maxi-
Analyse
Factorielle des
mum
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)
I
P 2
Trouver P tel que fi. (OH i ) est maximum
i=1
u1 axe d’inertie maximum
u2 axe d’inertie maximum avec u2 ⊥ u1
I 2
fi. (OH si ) = λs
P
Inertie associée à l’axe s :
i=1
68/93
Analyse de
données
Règles d’interprétation sur l’exemple
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances 1er axe : opposition sciences - autre catégorie
Multiples (ACM)
2ème axe : opposition physique/chimie - science éco

69/93
Analyse de
données
Table of Contents
Introduction

Analyse en 1. Introduction
Composantes
Principales (ACP)

Analyse 2. Analyse en Composantes Principales (ACP)


Factorielle des
Correspon- 2.1 Données - Exemples
dances (AFC)
Données 2.2 Etude des individus
Modèle
d’indépendance 2.3 Etude des variables
Les nuages et leur
ajustement 2.4 Aide à l’interprétation
Pourcentages
d’inertie et inertie en
AFC
Représentation
3. Analyse Factorielle des Correspondances (AFC)
simultanée des
lignes et des 3.1 Données
colonnes
Aides à
l’interprétation
3.2 Modèle d’indépendance
Analyse des Cor-
3.3 Les nuages et leur ajustement
respondances
Multiples (ACM)
3.4 Pourcentages d’inertie et inertie en AFC
3.5 Représentation simultanée des lignes et des colonnes
3.6 Aides à l’interprétation

4. Analyse des Correspondances Multiples (ACM)

70/93
Analyse de
données
Pourcentages d’inertie
1 Qualité de représentation de NI par l’axe de rang s
Introduction
I
f i.(OH si )2
P
Analyse en
Composantes inertie projetée de NI sur us i=1 λs
Principales (ACP) = =
inertie totale de NI PI
2
K
P
Analyse
f i.(OM i ) λk
Factorielle des i=1 k =1
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des ⇒ Ecart à l’indépendance bien résumé par les deux premiers axes (79 %)
lignes et des
colonnes 2 Inerties projetées s’additionnent d’un axe à l’autre (axes orthogonaux)
Aides à
l’interprétation K
2
X
Analyse des Cor- λk = Inertie(NI ) = Φ
respondances k =1
Multiples (ACM)
Ici nΦ2 = 570 × 0.1522 = χ2 = 86.75 ⇒ Proba.critique = 2.77 × 10−6
3 La décroissance des inerties suggère le nombre d’axes à conserver

71/93
Analyse de
données
Inerties (= valeurs propres)
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse En AFC : 0 ≤ λs ≤ 1 En ACP (normée) : 1 ≤ λ1


Factorielle des
Correspon-
dances (AFC) A quelle structure correspond une valeur propre de 1 ?
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

⇒ Partition en deux classes des lignes et des colonnes


Association exclusive des classes

72/93
Analyse de
données
Inerties (= valeurs propres)
Introduction Données : reconnaissance de trois saveurs (sucré, acide, amer)
Analyse en
Composantes
Pour chaque saveur, on a demandé à dix personnes de recon-
Principales (ACP) naître la saveur d’une solution qui leur était présentée
Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

73/93
Analyse de
données
Inerties (= valeurs propres)
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation
λ1 = 0.0833 ≪ 1 ⇒ on est loin d’une association exclusive entre
Analyse des Cor- une ligne et une colonne
respondances
Multiples (ACM)

Φ2 = 0.1522 ≪ 5 ⇒ on est loin d’une liaison parfaite, i.e. d’une


association exclusive entre les modalités des deux variables

74/93
Analyse de
données
Table of Contents
Introduction

Analyse en 1. Introduction
Composantes
Principales (ACP)

Analyse 2. Analyse en Composantes Principales (ACP)


Factorielle des
Correspon- 2.1 Données - Exemples
dances (AFC)
Données 2.2 Etude des individus
Modèle
d’indépendance 2.3 Etude des variables
Les nuages et leur
ajustement 2.4 Aide à l’interprétation
Pourcentages
d’inertie et inertie en
AFC
Représentation
3. Analyse Factorielle des Correspondances (AFC)
simultanée des
lignes et des 3.1 Données
colonnes
Aides à
l’interprétation
3.2 Modèle d’indépendance
Analyse des Cor-
3.3 Les nuages et leur ajustement
respondances
Multiples (ACM)
3.4 Pourcentages d’inertie et inertie en AFC
3.5 Représentation simultanée des lignes et des colonnes
3.6 Aides à l’interprétation

4. Analyse des Correspondances Multiples (ACM)

75/93
Analyse de
données
Représentation simultanée des lignes et
Introduction colonnes
Analyse en
Composantes
Relation de transition = propriétés barycentriques
Principales (ACP)
J
Analyse 1 X fij
Factorielle des Fs (i) = Gs (j)
Correspon- λs fi.
dances (AFC) j=1
Données | {z }
Modèle
d’indépendance Fs (i) : coord. de la ligne i sur l’axe de rang s
Les nuages et leur fij
ajustement
fi. : jème élément du profil i
Pourcentages
d’inertie et inertie en
AFC
Gs (j) : coord. de la colonne j sur l’axe de rang s
Représentation
simultanée des
λs : inertie associée à l’axe s (en AFC λs ≤ 1)
lignes et des
colonnes
Aides à
l’interprétation Le long de l’axe de rang s, on calcule le barycentre de toutes les
Analyse des Cor-
respondances
colonnes, chaque colonne j étant affectée du poids fij /fi.
Multiples (ACM)

Le barycentre √ est ensuite d’autant plus écarté de l’origine que λs


est petit : 1/ λs ≥ 1
I
1 X fij
Gs (j) = Fs (i)
λs f.j
i=1
76/93
Analyse de
données
Représentation simultanée et inertie
Introduction I
1 X fij
Analyse en
Composantes
Gs (j) = Fs (i)
Principales (ACP) λs f.j
i=1
Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

77/93
Analyse de
données
Représentation simultanée et inertie
Introduction I
1 X fij
Analyse en
Composantes
Gs (j) = Fs (i)
Principales (ACP) λs f.j
i=1
Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

78/93
Analyse de
données
Propriété barycentrique
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

79/93
Analyse de
données
Propriété barycentrique
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

80/93
Analyse de
données
Propriété barycentrique
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

81/93
Analyse de
données
Propriété barycentrique
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

82/93
Analyse de
données
Table of Contents
Introduction

Analyse en 1. Introduction
Composantes
Principales (ACP)

Analyse 2. Analyse en Composantes Principales (ACP)


Factorielle des
Correspon- 2.1 Données - Exemples
dances (AFC)
Données 2.2 Etude des individus
Modèle
d’indépendance 2.3 Etude des variables
Les nuages et leur
ajustement 2.4 Aide à l’interprétation
Pourcentages
d’inertie et inertie en
AFC
Représentation
3. Analyse Factorielle des Correspondances (AFC)
simultanée des
lignes et des 3.1 Données
colonnes
Aides à
l’interprétation
3.2 Modèle d’indépendance
Analyse des Cor-
3.3 Les nuages et leur ajustement
respondances
Multiples (ACM)
3.4 Pourcentages d’inertie et inertie en AFC
3.5 Représentation simultanée des lignes et des colonnes
3.6 Aides à l’interprétation

4. Analyse des Correspondances Multiples (ACM)

83/93
Analyse de
données
Aides à l’interprétation : qualité de
Introduction représentation
Analyse en
Composantes
Principales (ACP)
Indicateur de qualité de représentation d’un point (idem nuage) :
Analyse
Factorielle des
2
Correspon-
inertie projetée de Mi sur us fi. (OH si ) →
= cos2 (OMi , us )
dances (AFC)
Données = 2
Modèle inertie projetée de Mi fi. (OM i )
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

Indicateur montre dans quelle mesure l’écart d’un profil au profil


moyen est complètement représenté par l’axe (ou par un plan)

84/93
Analyse de
données
Qualité de représentation : exemple
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)
⇒ Interprétation des graphes basée sur points remarquables ayant
une bonne qualité de représentation

85/93
Analyse de
données
Aides à l’interprétation : contribution
Introduction

2
Indicateur brut : inertie projetée de Mi sur us = fi. (OH si )
Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon- 2
dances (AFC) inertie proj de Mi sur us fi. (OH si )
Données Indicateur relatif : =
Modèle
d’indépendance
inertie projetée de l’axe s λs
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
• On peut additionner les contributions de plusieurs éléments
lignes et des
colonnes • Elles indiquent dans quelle mesure on peut considérer qu’un
Aides à
l’interprétation
axe est dû à un élément ou à quelques éléments
Analyse des Cor-
respondances • Compromis opérationnel entre distance à l’origine et poids
Multiples (ACM)
• Utiles pour les grands tableaux pour sélectionner un
sous-ensemble d’éléments au début de l’interprétation
(conjointement à la qualité de représentation)

86/93
Analyse de
données
Contribution : exemple
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

⇒ Les points extrêmes ne sont pas nécessairement ceux qui contri-


buent le plus à la construction des axes

87/93
Analyse de
données
Eléments supplémentaires
Introduction
I
Analyse en
1 X fij
Composantes
Principales (ACP) Gs (j) = Fs (i)
λs f.j
Analyse i=1
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation

Analyse des Cor-


respondances
Multiples (ACM)

Les mathématiques sont du côté de la France et de la Russie, et


du côté de la littérature et de la paix, à l’opposé des sciences
88/93
Analyse de
données
Equivalence distributionnelle
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Equivalence distributionnelle : si plusieurs lignes ayant le même
Correspon-
dances (AFC)
profil sont regroupées en une seule, les résultats de l’AFC sont
Données strictement équivalents (idem pour le regroupement de colonnes)
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en Application en analyse textuelle : Grâce à l’équivalence distri-
AFC
Représentation butionnelle, si 2 mots (ou plus) sont employés dans les mêmes
simultanée des
lignes et des
colonnes
circonstances, leurs coordonnées sont proches et faire l’analyse
Aides à
l’interprétation
avec les deux termes ou avec un terme unique qui regroupe ces
Analyse des Cor-
deux notions est strictement équivalent
respondances
Multiples (ACM)
⇒ notion très utile (regroupement des singuliers et pluriels, des
conjugaisons des verbes, etc.)

89/93
Analyse de
données
Nombre maximum d’axes et V de Cramer
Introduction

Analyse en
Composantes
Principales (ACP) Nuage des lignes : I points dans un espace à J dimensions
Analyse
Factorielle des 
Correspon- J dim. mais 1 contrainte (profils) ⇒ S ≤ J − 1
dances (AFC) S ≤ min(I − 1, J − 1)
Données
I points évoluent dans au plus I - 1 dim. ⇒ S ≤ I − 1
Modèle
d’indépendance
Les nuages et leur min(I−1,J−1)
ajustement X
Pourcentages
d’inertie et inertie en
⇒ Φ2 = λk ≤ min(I − 1, J − 1)
AFC
k =1
Représentation
simultanée des
lignes et des
colonnes
d’où l’idée d’un indicateur borné de la liaison entre 2 variables :
Aides à
l’interprétation
Φ2
Analyse des Cor- V de Cramer = ∈ [0; 1]
respondances
Multiples (ACM)
min(I − 1, J − 1)

Prix Nobel Trois saveurs Trois saveurs


V de Cramer 0.1522/5 = 0.03044 1.375/2 = 0.6875 1.042/2 = 0.521

90/93
Analyse de
données
Bilan sur l’exemple
Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)
Données
Modèle
d’indépendance
Les nuages et leur
ajustement
Pourcentages
d’inertie et inertie en
AFC
Représentation
simultanée des
lignes et des
colonnes
Aides à
l’interprétation L’AFC apporte une visualisation synthétique de l’écart à l’indépendance
Analyse des Cor- qui aide la compréhension du tableau (a fortiori avec de grands tableaux)
respondances
Multiples (ACM)
Sur ces données
• L’essentiel de l’écart à l’indépendance est structuré par une
opposition sciences - autres et dans une moindre mesure une
opposition physique/chimie - science économique
• La position des pays illustre leur spécificité dans l’obtention des prix
Nobel
91/93
Analyse de
données
Conclusion
Introduction

Analyse en
Composantes
Pour étudier la liaison entre deux variables qualitatives, on construit
Principales (ACP)
un tableau de contingence
Analyse
Factorielle des
Correspon- Cette liaison réside dans l’écart entre le tableau de contingence et
dances (AFC)
Données le modèle d’indépendance
Modèle
d’indépendance
Les nuages et leur L’analyse des correspondances :
ajustement
Pourcentages
d’inertie et inertie en
• construit un nuage des lignes (et un nuage des colonnes)
AFC
Représentation
dont l’inertie totale mesure l’intensité de l’écart à
simultanée des
lignes et des l’indépendance
colonnes
Aides à
l’interprétation
• décompose cette inertie totale sur une suite d’axes
Analyse des Cor- d’importance décroisante représentant chacun un aspect
respondances
Multiples (ACM) synthétique de la liaison entre les deux variables
• fournit une représentation des lignes et des colonnes dans
laquelle la position d’un point reflète sa participation à l’écart
à l’indépendance

92/93
Analyse de
données

Introduction

Analyse en
Composantes
Principales (ACP)

Analyse
Factorielle des
Correspon-
dances (AFC)

Analyse des Cor-


respondances
Multiples (ACM)
Analyse des Correspondances Multiples
(ACM)

93/93

Vous aimerez peut-être aussi