Vous êtes sur la page 1sur 128

Analyse et valorisation de Données

Analyse Factorielle des


Correspondances
Correspondence Analysis

Nhân-Quy NGUYEN
Chair Connected Innovation
LIST3N

Université de Technologie de Troyes, France


Sommaire
1. Introduction
2. Notion clés
▪ Tableau de contingence
▪ Modèle d’indépendence: Distance 𝜒 2 et le nuages des points
▪ Dualité lignes – colonnes
3. Aide à interprétation
▪ Contribution à la construction factorielle
▪ Qualité de représentation
4. Pour aller plus loins
▪ Point de réflexion: Nuage des points et son ratio d'aspect
▪ Technique d’analyse: Groupement de modalités
▪ Application 1 : Analyse des reseaux
▪ Application 2 : Clustering et Hiérarchisation
▪ Histoire: Association statistique: De la corrélation à l’AFC

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 2


Introduction

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 3


La valorisation des données
Un processus qui prend des points de données bruts et les données une
signification, une utilité:
→Une transformation de donnée en information.

SCHÉMA DE LA MANIPULATION DE DONNÉES

Donnée Analyse préliminaire Hiérarchiser des Identification des sources de données


brute (statistique multivariée) éléments pertinentes (valable information)
Compréhension globale
Structure
Caractéristiques

Traitement de
Système de aide à la
données par rapport
décision
au structure
Choix intelligente des méthodes dans la librairie
(Humain/AI/Analytics)
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 4
Un schéma plus large
Analyse de donnée et l’aide à la décision

Nouveaux aspects à
prendre en compte

Méthodes de
Analyse du Analyse des
resolution
problème données
(Système AAD)

Les méthodes
s’adaptent

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 5


Analyse préliminaire (Statistique multivariée)
Exemple : Quelques méthodes d'analyses de grands tableaux rectangulaires de données (Excel, SQL, …)

▪ Méthodes descriptives
▪ Analyse factorielle et analyse des correspondances :
déterminer et à hiérarchiser des facteurs corrélés aux
données placées en colonnes.
▪ Partitionnement de données (Data Clustering) : diviser un
ensemble de données en différents « paquets »
homogènes

▪ Méthodes explicatives
▪ L'analyse de régression multiple : permettant d’approcher
une variable à partir d’autres qui lui sont corrélées.
▪ L'analyse de la variance ANOVA : mesure une ou plusieurs
variables explicatives catégorielle qui ont de l'influence sur
la loi d'une variable continue Source IMG: Wikipedia

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 6


Analyse des correspondances : Contexte par Dylan Glynn
L'analyse des correspondances est une
technique exploratoire pour les données
catégorielles complexes
Elle identifie les modèles d'association et de
dissociation dans ces données.

La technique présente ses résultats sous la


forme d'un graphique à deux dimensions*, qui
visualise ces relations de manière intuitive.
Ces graphiques offrent des représentations
riches des relations entre différentes facettes
de données complexes.
*ou plus dans les extensions, Note de Nguyen

Glynn, D. (2014). Correspondence analysis. Methods for Semantics: Quantitative Studies in Polysemy and Synonymy

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 7


Analyse des correspondances
▪ Souvent, une association statistiquement significative est trouvée,
mais il n'existe pas d'outils simples pour détecter quelles parties du
tableau sont responsables de cette association.

▪ L'analyse des correspondances est un outil qui peut combler cette


lacune, permettant à l'analyste de données de voir le modèle
d'association dans les données et de générer des hypothèses qui
peuvent être testées dans une étape ultérieure de la recherche.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 8


Readlist
▪ Greenacre, Michael. 2013. “Contribution Biplots.” Journal of Computational and Graphical
Statistics 22 (1): 107–22. http://dx.doi.org/10.1080/10618600.2012.702494.
▪ Nenadic, O., and M. Greenacre. 2007. “Correspondence Analysis in R, with Two- and Three-
Dimensional Graphics: The ca Package.” Journal of Statistical Software 20 (3): 1–13.
http://www.jstatsoft.org.
▪ GLYNN, Dylan. Correspondence analysis. Methods for Semantics: Quantitative Studies in Polysemy
and Synonymy (Amsterdam: John Benjamins Publishing Company, 2014, p. 443-485.
▪ Husson, Francois, Sebastien Le, and Jérôme Pagès. 2017. Exploratory Multivariate Analysis by
Example Using R. 2nd ed. Boca Raton, Florida: Chapman; Hall/CRC.
http://factominer.free.fr/bookV2/index.html.
▪ van Dam, A., Dekker, M., Morales-Castilla, I., Rodríguez, M. Á., Wichmann, D., & Baudena, M.
(2021). Correspondence analysis, spectral clustering and graph embedding: applications to
ecology and economic complexity. Scientific reports, 11(1), 1-14.
▪ Cuadras, C. M., & Greenacre, M. (2022). A short history of statistical association: From
correlation to correspondence analysis to copulas. Journal of Multivariate Analysis, 188,
104901.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 9


Cas d’étude :
Analyse des données des défauts de tricot brute
Projet Chaire Connected
Innovation (UTT) et Petit
Bateau (Nguyen,
Ouazenne, Yalaoui)
Démarche
d’optimisation de la
qualité de production
dans le trico brute
Figure 1. Métier de tricotage Figure 2. Machine de visitage

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 10


Quelque types de défauts

TROU EPARSE MAILLE ARRACHEE FINESSE GROSSEUR COUPURE LYCRA

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 11


Donnée
Nombre de valeurs distinctes Nombre de valeurs manquantes
Client 2 valeurs : PETIT BATEAU ou LSF 1745 données manquantes (janvier à mars)
N° de métier 47 valeurs Aucune donnée manquante
Mise en route du métier 2 valeurs : OUI ou NON 1767 données manquantes (janvier à avril)
N° de pièce 59 valeurs 13 lignes "?"
Bonnetier 1 1827 lignes vides et 2 lignes valeur "Vide" pour le
16 valeurs + "Vide"
Bonnetier 2 Bonnetier 1
Contrôle suite à un défaut signalé 2 valeurs : OUI ou NON 1750 lignes vides
Code support complet 232 valeurs 10 lignes "SF"
N° OF 1023 valeurs 95 lignes "SF"
Poids théorique visité en kg 69 valeurs Aucune donnée manquante
Métrage réel visité en ml 142 valeurs 733 données manquantes (janvier à mars)
Code défaut 23 valeurs + "VIDE" Aucune donnée manquante
1746 données manquantes (janvier à mars)
Imputation 5 valeurs
100 lignes "Non connue"
Demande d'intervention 2 valeurs : OUI ou NON 32 lignes vides
Aucune donnée manquante
Décision 5 valeurs
(17 lignes "en attente de décision")

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 12


Notions clés

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 13


Donnée complete
Contrôl
Qté déclassée réelle en
e suite Code
Poids théorique Métrage réel Qté défaut en Qté défaut en kg (Stock S + rapport
Date du visitage Client N° de métier Mise en route (métier froid) N° de pièce à un support N°OF Code Défaut Nom défaut Type défaut OBSERVATION
visité en kg visité en ml nombre ml contrôle non valorisé en
défaut complet
stock S)
signalé
PETIT
22/03/2021 103 OUI 4 NON 23642001 301173630 28.5 88 TOPA Trous éparses Continu/Discontinu 7 Vide 0
BATEAU
PETIT
22/03/2021 106 OUI 1 OUI 22652001 301173622 19 106 MALI Mailles libres Continu Vide 50 9
BATEAU
PETIT
22/03/2021 222 OUI 16 NON 28112004 301173636 28.5 127 TOPA Trous éparses Continu/Discontinu 5 Vide 0
BATEAU
PETIT
22/03/2021 223 OUI 6 NON 28145110 301173562 28.5 129 VIDE Pas de défauts 0 Vide Vide RAS 0
BATEAU
PETIT
22/03/2021 228 OUI 14 NON 22528001 301173564 28.5 127 TOPA Trous éparses Continu/Discontinu 5 Vide 0
BATEAU
Qté déclassée réelle en
PETIT
22/03/2021 228
Qté défaut en Qté défaut en NON 1 S + rapport
kg (Stock NON 28111622 301173635 28.5 127 TOPA Trous éparses Continu/Discontinu 3 Vide 0
Type défaut BATEAU OBSERVATION Quantité d'imputation en ml Imputation Demande d'intervention Volume accepté Volume refusé Volume dérogé Décision
nombre ml contrôle non valorisé en
PETIT
22/03/2021 229 OUI 1
stock S) NON 22526001 301173618 28.5 128 TOPA Trous éparses Continu/Discontinu 1 Vide 0
BATEAU
PETIT
22/03/2021
Continu/Discontinu 7 229Vide OUI 2 0 NON 22526001 301173618
0 28.5 128
Non connue TOPA Trous éparses Continu/Discontinu
28.5 0 3 Vide 0 accepté 0
BATEAU

Continu Vide 50 9 50 Non connue NON 10 9 0 refusé

Continu/Discontinu 5 Vide 0 0 Non connue NON 28.5 0 0 accepté

0 Vide Vide RAS 0 0 Non connue NON 28.5 0 0 accepté

Continu/Discontinu 5 Vide 0 0 Non connue NON 28.5 0 0 accepté

Continu/Discontinu 3 Vide 0 0 Non connue 28.5 0 0 accepté

Continu/Discontinu 1 Vide 0 0 Non connue NON 28.5 0 0 accepté

Continu/Discontinu 3 Vide 0 0 Non connue NON 28.5 0 0 accepté

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 14


Individus et Modalités: Support vs Défaut
VARIABLE 1 VARIABLE 2 Les modalités de Les modalités de
la variable 1 (V1) la variable 2 (V2)
FAMILLE DE CODE BABE
LIGNE SUPPORT DEFAUT BARU
1 JERSEY TOPA BOUCLETTE
DESS
2 JERSEY VIDE COTE
INTERLOCK
FIGO
3 JERSEY FIGO LYRA
INDIVIDUS JERSEY
4 JERSEY FIGO MALI
MOLLETON
5 JERSEY FIGO VELOURS MAMO
6 COTE VIDE MATO
7 COTE TOPA PLAC
8 COTE TOPA TACH
9 COTE MALI TAIG
10 COTE TACH THUI
11 INTERLOCK TOPA TOLI
TOPA
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 15
Tableau de contingence
(Tableau croisé)

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 16


Tableau de contingence (Tableau croisé)

Support\Défaut BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA Somme

BOUCLETTE 0 3 0 0 0 4 0 0 0 0 0 0 0 0 7

COTE 235 44 39 538 5 203 59 358 0 35 35 49 26 1108 2734

INTERLOCK 42 15 28 119 0 143 10 53 3 5 9 41 3 159 630

JERSEY 120 76 0 141 18 133 5 12 0 33 2 18 3 163 724

MOLLETON 74 27 0 66 0 22 0 3 0 19 3 31 3 213 461

VELOURS 1 28 0 12 0 13 1 0 0 0 0 0 0 5 60

Somme 472 193 67 876 23 518 75 426 3 92 49 139 35 1648 4616

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 17


Tableau de contingence : Notions
Variables qualitatives
𝑗 𝐽
𝑉1 𝑉2 1
1

𝑖 𝑥𝑖𝑗 𝑥𝑖. = ෍ 𝑥𝑖𝑗


𝑗
Individus

𝑙 𝑖 𝑗 𝑥𝑖𝑗 nombre d’individus possédant à


la fois la modalité 𝑖 de 𝑉1 et la
modalité 𝑗 de 𝑉2

𝐼
𝑥.𝑗 = ෍ 𝑥𝑖𝑗 𝑛 = 𝑥.. = ෍ ෍ 𝑥𝑖𝑗
𝑖 𝑖 𝑗
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 18
Tableau des correspondances
Les correspondance
On transforme le tableau croisé en divisant tout par 𝑛 sont les probabilités
𝟏 𝒇𝒊 . densité
𝒇𝒊𝒋 = 𝒏 𝒙𝒊𝒋 ➔ Densité bivariée de l'échantillon associées aux lignes et marginale de
aux colonnes l’échantillon

BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA Somme

BOUCLETTE 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

COTE 0.05 0.01 0.01 0.12 0.00 0.04 0.01 0.08 0.00 0.01 0.01 0.01 0.01 0.24 0.59

INTERLOCK 0.01 0.00 0.01 0.03 0.00 0.03 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.03 0.14

JERSEY 0.03 0.02 0.00 0.03 0.00 0.03 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.04 0.16

MOLLETON 0.02 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.05 0.10

VELOURS 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01

Somme 0.10 0.04 0.01 0.19 0.00 0.11 0.02 0.09 0.00 0.02 0.01 0.03 0.01 0.36 1.00

𝒇.𝒋 densité marginale de l’échantillon

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 19


Objectifs de AFC
▪ Analyse des interactions entre deux variables, dans notre cas
d’études les interactions entre les types de support et les défauts.

▪ Etude d’association (ou similarité) des modalités:


• « Attraction » : Une modalité peut faciliter l’autre ?
• « Repoussé » : Une modalité peut empêcher l’autre ?
• Indifférence (ou indépendance) : pas d’interactions des modalités?

▪ Représentabilité des données en dimensions réduites

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 20


Test d’indépendance

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 21


Modèle d’association (ou Modèle d’indépendance)
Support\Défaut BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA Somme

BOUCLETTE 0 3 0 0 0 4 0 0 0 0 0 0 0 0 7

COTE 235 44 39 538 5 203 59 358 0 35 35 49 26 1108 2734

INTERLOCK • 42Est-ce15qu’il 28
existe119 0 d’attraction
une forte 143 10 entre 53 la modalité
3 5 de support
9 41
Côte 3 159 630
et la modalité de défaut TOPA voire le nombre d’occurrence est très élevé ?
JERSEY 120 76 0 141 18 133 5 12 0 33 2 18 3 163 724
• Ou c’est juste que ce sont des modalités les plus populaire (voire les
MOLLETON 74 sommes
27 marginales)
0 66 alors
0 ca tombe
22 0 par hasard
3 (sans
0 une conclusion
19 3 31 sur 3 213 461
une forte interaction des deux modalités) que le nombre d’ occurrences
VELOURS 1 28 0 12 0 13
jointes 1soit grande
0 0 0 0 0 0 5 60

Somme 472 193 67 876 23 518 75 426 3 92 49 139 35 1648 4616

Pour répondre à ces question, on mène un test d’indépendance

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 22


𝟐
Test du 𝝌 de Pearson
Le test du 𝜒 2 de Pearson est utilisé pour déterminer s'il existe une
différence statistiquement significative entre les fréquences attendues
et les fréquences observées dans une ou plusieurs catégories d'un
tableau de contingence.

Il y a trois types de test:


1. Un test de qualité d'ajustement établit si une distribution de fréquence
observée diffère d'une distribution théorique.
2. Un test d'homogénéité compare la distribution des comptes pour deux
groupes ou plus à l'aide de la même variable catégorique.
3. Un test d'indépendance évalue si les observations constituées de mesures
sur deux variables, exprimées dans un tableau de contingence, sont
indépendantes l'une de l'autre

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 23


Test d’indépendance: Rappel
Trois étapes du test

1. Calculez la statistique de test du 𝜒 2 qui ressemble à une somme


normalisée des écarts au carré entre les fréquences observées et
théoriques.

2. Déterminez les degrés de liberté de cette statistique et sélectionnez


le niveau de confiance souhaité.

3. Prendre une décision

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 24


𝟐
La valeur de la statistique de test 𝝌
𝐼 𝐽 ∗ 2
2
𝑥𝑖𝑗 − 𝑥𝑖𝑗
𝜒 = ෍෍ ∗
𝑥𝑖𝑗
𝑖=1 𝑗=1
Avec:
▪ 𝑥𝑖𝑗 valeur observé

▪ 𝑥𝑖𝑗 valeur théorique par hypothèse du test

Qu’est ce que c’est l’hypothèse du test 𝝌𝟐 ?

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 25


𝟐
La valeur de la statistique de test 𝝌
Qu’est ce que c’est l’hypothèse du test 𝝌𝟐 ?

➔L’hypothèse null (𝐻0 ) du test est que 𝑉1 et 𝑉2 sont indépendants, or

𝒇∗𝒊𝒋 = 𝒇𝒊. 𝒇.𝒋 ∀𝒊, 𝒋

Si deux événement A et B sont indépendants alors P(A et B) = P(A).P(B)

Qu'est ce que cela signifie

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 26


𝟐
La valeur de la statistique de test 𝝌
𝒇∗𝒊𝒋 = 𝒇𝒊. 𝒇.𝒋 ∀𝒊, 𝒋 qu'est ce que cela signifie?
Si le support est indépendants aux défauts, la probabilité de défaut de type
TOPA sur le support Côte est égal au produit des probabilités marginales de
TOPA et de Côte: 𝐏 ∗ 𝑻𝑶𝑷𝑨 𝒆𝒕 𝑪𝒐𝒕𝒆 = 𝑷 𝑻𝑶𝑷𝑨 𝑷(𝑪𝒐𝒕𝒆)
BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA Somme

BOUCLETTE 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

COTE 0.05 0.01 0.01 0.12 0.00 0.04 0.01 0.08 0.00 0.01 0.01 0.01 0.01 0.24 0.59

INTERLOCK 0.01 0.00 0.01 0.03 0.00 0.03 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.03 0.14

JERSEY 0.03 0.02 0.00 0.03 0.00 0.03 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.04 0.16

MOLLETON 0.02 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.05 0.10

VELOURS 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01

Somme 0.10 0.04 0.01 0.19 0.00 0.11 0.02 0.09 0.00 0.02 0.01 0.03 0.01 0.36 1.00

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 27


𝟐
La valeur de la statistique de test 𝝌

Une autre forme


𝐼 𝐽 ∗ 2 𝐼 𝐽 ∗ 2
𝑥𝑖𝑗 − 𝑥𝑖𝑗 𝑛𝑓𝑖𝑗 − 𝑛𝑓𝑖𝑗
𝜒2 = ෍෍ ∗ = ෍෍
𝑥𝑖𝑗 𝑛𝑓𝑖𝑗∗
𝑖=1 𝑗=1 𝑖=1 𝑗=1

𝑰 𝑱 𝟐
𝟐
𝒇𝒊𝒋 − 𝒇𝒊. 𝒇.𝒋
𝝌 = 𝒏෍෍
𝒇𝒊. 𝒇.𝒋
𝒊=𝟏 𝒋=𝟏

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 28


Déterminez les degrés de liberté

𝒅𝒇 = 𝑰 − 𝟏 𝑱 − 𝟏
Pour quoi 𝑰 − 𝟏?
En statistique, le nombre de degrés de liberté est le nombre de valeurs
dans le calcul final d'une statistique qui sont libres de varier.
Car 𝑓.𝑘 = 1 − σ 𝑖∈𝐼∖ 𝑘 𝑓.𝑖

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 29


Intervalle de confiance: Rappel

L'hypothèse nulle (𝐻0 ) est


Tableau des types d'erreurs
Vrai Faux
Erreur de type II
Inférence correcte
Accepter (faux négatif)
Décision sur (vrai négatif)
(probabilité = β)
l'hypothèse nulle (probabilité = 1−α)
(𝐻0 ) Erreur de type I Inférence correcte
Rejecter (faux positif) (vrai positif)
(probabilité = α) (probabilité = 1−β)

Type I and type II errors. In Wikipedia, The Free Encyclopedia


Analyse Factorielle des Correspondances Nhân-Quy Nguyen 30
Prendre une
décision
Pour notre tableau,
𝝌𝟐 = 1170,534

Avec 𝒅𝒇 = 𝟓 × 𝟏𝟑 et 𝜶 = 𝟎, 𝟓
la valeur critique est trouvé par la
distribution de Khi-deux 𝟐𝟐, 𝟑𝟔

p-value < 2.2e-16

➔ Alors on rejette l’hypothèse


d’indépendance Copyright © 2006-2022 Palmmicro Communications Inc. All Rights Reserved

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 31


Distance et inertie

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 32


Profils lignes
𝐽 Nuage des
1 𝑗
points des
profils lignes
est noté 𝑵𝑰
𝑓𝑖𝑗 dans l’espace
𝑖 Profil ligne 𝑖
𝑓𝑖. ℝ𝑱

𝑮𝑰 est le
𝐼
Profil ligne centre gravité
𝑓.1 … 𝑓.𝑗 … 𝑓.𝐽 de 𝑵𝑰
moyen 𝐺𝐼

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 33


Distance entre deux profils lignes
Distance entre deux profil 𝑖1 et 𝑖2
𝑱 𝟐
𝟏 𝒇𝒊𝟏𝒋 𝒇𝒊𝟐 𝒋
𝒅𝟐𝝌𝟐 𝒊𝟏 , 𝒊𝟐 =෍ −
𝒇.𝒋 𝒇𝒊𝟏 . 𝒇𝒊𝟐 .
𝒋=𝟏
→ Elle attribue donc plus de poids aux écarts correspondants à des
modalités 𝑗 de faible effectif
Distance entre profil 𝑖 et le centre 𝐺𝐼
𝑱 𝟐 𝑱 𝟐
𝟐 𝟏 𝒇𝒊𝒋 𝒇𝒊𝒋 − 𝒇𝒊. 𝒇.𝒋
𝒅𝝌𝟐 𝒊, 𝑮𝑰 = ෍ − 𝒇.𝒋 = ෍
𝒇.𝒋 𝒇𝒊. 𝒇.𝒋 𝒇𝟐𝒊.
𝒋=𝟏 𝒋=𝟏

Pourquoi cette distance, pourquoi il est noté 𝜒 2 ?

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 34


Distance entre deux profils lignes
𝑱 𝟐
𝟏 𝒇𝒊𝟏𝒋 𝒇𝒊𝟐 𝒋
𝒅𝟐𝝌𝟐 𝒊𝟏 , 𝒊𝟐 =෍ −
𝒇.𝒋 𝒇𝒊𝟏 . 𝒇𝒊𝟐 .
𝒋=𝟏
∗ 𝑓𝑖𝑗
L’hypothèse 𝐻0 de l’indépendance: 𝑓.𝑗 = pour toute les 𝑖 et 𝑗
𝑓𝑖 .
𝒇𝒊𝟏 𝒋 𝒇𝒊𝟐 𝒋
Alors si 𝑯𝟎 est valide: =
𝒇𝒊𝟏 . 𝒇𝒊𝟐 .
Sinon elle mesure la différence des écarts à l’indépendance de 𝑉2 de chaque
profil ligne.

La distance est d’autant plus grande que 𝑖1 et 𝑖2 sont réparties de faço


n différente dans les modalités de 𝑉2

On voir cette effet plus clairement avec la distance au centre.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 35


Principe d'inertie de Sylvester
▪ Sylvester analyse l'énergie que l'on doit transmettre
à un solide pour lui donner une vitesse de rotation
vr.
▪ Il remarque que le vecteur propre représente dans
ce contexte un axe de rotation privilégié.
▪ La valeur propre correspond à la grandeur appelée
en physique moment d'inertie, elle est inversement
proportionnelle à l'énergie à fournir pour atteindre
une vitesse de rotation vr
▪ L'approche de Sylvester est utilisée dans de
nombreux domaines pour comprendre la
géométrie d'un phénomène.

Eigenvalues and eigenvectors. In Wikipedia, The Free Encyclopedia.


Analyse Factorielle des Correspondances Nhân-Quy Nguyen 36
Effet de visualisation
▪ Les techniques statistiques de dépouillements de sondage en sont un
parfait exemple. Soit un sondage, réalisé sur un échantillon de cent
personnes et contenant six critères. S'il est possible d'évaluer chaque
question par un critère numérique, alors une analyse en composante
principale est possible. Elle permet d'interpréter les résultats du
sondage.
▪ Les résultats du sondage, sont dans un premier temps normalisés
pour qu'un critère, qui par exemple prend des valeurs entre un et
cent ne soit pas dix fois plus important qu'un autre prenant des
valeurs de un à dix. Le résultat du sondage est alors considéré comme
un solide dans un espace comportant autant de dimensions que de
critères.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 37


Inertie
▪ Notion physique du moment inertie = la somme des produits de poids
des point avec sa distance au centre au carré:
𝐼 = ෍ 𝑚𝑖 𝑟𝑖2
𝑖

▪ Si on donne un « poids » 𝑓𝑖. à chaque profil ligne, le calcul d’inertie est


𝑱 𝟐
𝟐 𝟐
𝒇𝒊𝒋 − 𝒇𝒊. 𝒇.𝒋
𝚽 = ෍ 𝒇𝒊 . 𝒅𝝌𝟐 𝒊, 𝑮𝑰 = ෍
𝒇.𝒋 𝒇𝒊.
𝒊 𝒋=𝟏

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 38


Inertie totale du nuage des profils
▪ Si on donne un « poids » 𝑓𝑖. à chaque profil ligne, le calcul d’inertie est
𝑰 𝑱 𝟐
𝟐 𝟐
𝒇 𝒊𝒋 − 𝒇 𝒊. 𝒇.𝒋
𝚽 = ෍ 𝒇𝒊 . 𝒅𝝌𝟐 𝒊, 𝑮𝑰 = ෍ ෍
𝒇.𝒋 𝒇𝒊.
𝒊 𝒊=𝟏 𝒋=𝟏

𝑰 𝑱 𝟐
𝟐
𝒇𝒊𝒋 − 𝒇𝒊. 𝒇.𝒋
𝝌 = 𝒏෍෍ = 𝐧𝚽 𝟐
𝒇𝒊. 𝒇.𝒋
𝒊=𝟏 𝒋=𝟏

Alors 𝚽 est inertie totale du nuage 𝑵𝑰 qui mesure l’écart entre les
profils avec l’hypothèse indépendance ou la dispersion du nuage de
points

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 39


Remarques
▪ Donner un poids 𝒇𝒊. à chaque profil ligne alors plus une modalité est
fréquente plus elle influence la construction du nuages

𝟏
▪ La coefficient va donner la distance de telle sorte elle devient une
𝒇.𝒋
contribution d’un profil ligne à l’inertie total du nuage

▪ Le distance est nommé 𝜒 2 car elle contribution au valeur statistique


du test d’indépendance

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 40


Profils colonnes Profil
colonne
moyen 𝐺𝐽
𝑗 𝐽 Nuage des
1 𝑓1.
points des
… profils lignes
est noté 𝑵𝑱
𝑓𝑖𝑗 𝑓𝑖. dans l’espace
𝑖
𝑓.𝑗 ℝ𝑰
Profil
colonne j

𝑓𝐼.
𝑮𝑱 est le
𝐼
centre gravité
de 𝑵𝑱

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 41


Symétriquement le même
Distance entre deux profil 𝒋𝟏 et 𝒋𝟐

Distance entre profil 𝒋 et le centre 𝑮𝑱

Inertie

Inertie totale

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 42


Représentation en plan factoriel

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 43


Analyse factorielle : Construction du nuage de profil lignes
Trouver un repère qui préserve au mieux les distances entre les individus :
▪ Discerner le mieux possible les individus
▪ Maximiser l’inertie totale

Recherche des dimensions factorielles


Décomposition orthogonale (projection) sur l’axe qui maximise l’inertie :
1ère dimension : 𝝀𝟏 = σ𝑰𝒊=𝟏 𝒇𝒊 . 𝑭𝟐𝟏 (𝒊, 𝑶)
𝜆1 : dispersion de la dimension 1

𝐹12 (𝑖, 𝑂)

Analyse des correspondances Nhân-Quy Nguyen 44


Représentation optimale
▪ Pour une représentation optimale des profils lignes on chercher un
suite d’axes orthogonale s qui maximise
𝑰

෍ 𝒇𝒊. 𝑭𝟐𝒔 (𝒊, 𝑮𝑰 )


𝒊=𝟏

▪ Pour une représentation optimale des profils colonnes on chercher un


suite d’axes orthogonale s qui maximise
𝑱

෍ 𝒇.𝒋 𝑭𝟐𝒔 (𝒋, 𝑮𝑱 )


𝒋=𝟏

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 45


Nombre de dimension nécessaire
La somme des coordonnées des profils ligne : σ𝑗 𝑓𝑖𝑗 /𝑓.𝑗 = 1
→ Dégrée de liberté = J-1
→ Le nuage 𝑵𝑰 peut être représenté dans un sous espace ℝ𝑱−𝟏
Exemple:
Nuage des points en trois dimension suivant
(1,2,3) (2,2,4) (5,9,14)
On remarque que 𝑧 = 𝑥 + 𝑦 pour tout les points alors ce nuage est
représentable parfaitement dans un sous espace de deux dimension

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 46


Nombre de dimension nécessaire
Même remarque pour les profils colonnes
→ Dégrée de liberté = I-1
→ Le nuage 𝑁𝐽 peut être représenté dans un sous espace ℝ𝐼−1

On remarque également 𝑁𝐼 peut représenter par 𝑁𝐽 et réciproquement


(plus de détails dans la section suivante « Représentation
superposée »)

Alors chaque nuages de point a besoin 𝒎𝒊𝒏 𝑰 − 𝟏, 𝑱 − 𝟏 dimensions


pour se représenter parfaitement

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 47


Représentation
optimale des
profils lignes

Nhân-Quy Nguyen Analyse Factorielle des Correspondances 48


Représentation
optimale des
profils
colonnes

Nhân-Quy Nguyen Analyse Factorielle des Correspondances 49


Rappel

Support\Défaut BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA Somme

BOUCLETTE 0 3 0 0 0 4 0 0 0 0 0 0 0 0 7

COTE 235 44 39 538 5 203 59 358 0 35 35 49 26 1108 2734

INTERLOCK 42 15 28 119 0 143 10 53 3 5 9 41 3 159 630

JERSEY 120 76 0 141 18 133 5 12 0 33 2 18 3 163 724

MOLLETON 74 27 0 66 0 22 0 3 0 19 3 31 3 213 461

VELOURS 1 28 0 12 0 13 1 0 0 0 0 0 0 5 60

Somme 472 193 67 876 23 518 75 426 3 92 49 139 35 1648 4616

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 50


Rappel

BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA 𝒇𝒊.

BOUCLETTE 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

COTE 0.05 0.01 0.01 0.12 0.00 0.04 0.01 0.08 0.00 0.01 0.01 0.01 0.01 0.24 0.59

INTERLOCK 0.01 0.00 0.01 0.03 0.00 0.03 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.03 0.14

JERSEY 0.03 0.02 0.00 0.03 0.00 0.03 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.04 0.16

MOLLETON 0.02 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.05 0.10

VELOURS 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01

𝒇.𝒋 0.10 0.04 0.01 0.19 0.00 0.11 0.02 0.09 0.00 0.02 0.01 0.03 0.01 0.36 1.00

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 51


BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA
BOUCLETTE 0.00 0.43 0.00 0.00 0.00 0.57 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
COTE 0.09 0.02 0.01 0.20 0.00 0.07 0.02 0.13 0.00 0.01 0.01 0.02 0.01 0.41
INTERLOCK 0.07 0.02 0.04 0.19 0.00 0.23 0.02 0.08 0.00 0.01 0.01 0.07 0.00 0.25
JERSEY 0.17 0.10 0.00 0.19 0.02 0.18 0.01 0.02 0.00 0.05 0.00 0.02 0.00 0.23
MOLLETON 0.16 0.06 0.00 0.14 0.00 0.05 0.00 0.01 0.00 0.04 0.01 0.07 0.01 0.46
VELOURS 0.02 0.47 0.00 0.20 0.00 0.22 0.02 0.00 0.00 0.00 0.00 0.00 0.00 0.08
𝐺𝐼 0.10 0.04 0.01 0.19 0.00 0.11 0.02 0.09 0.00 0.02 0.01 0.03 0.01 0.36

BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA 𝐺𝐽
BOUCLETTE 0.00 0.02 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
COTE 0.50 0.23 0.58 0.61 0.22 0.39 0.79 0.84 0.00 0.38 0.71 0.35 0.74 0.67 0.59
INTERLOCK 0.09 0.08 0.42 0.14 0.00 0.28 0.13 0.12 1.00 0.05 0.18 0.29 0.09 0.10 0.14
JERSEY 0.25 0.39 0.00 0.16 0.78 0.26 0.07 0.03 0.00 0.36 0.04 0.13 0.09 0.10 0.16
MOLLETON 0.16 0.14 0.00 0.08 0.00 0.04 0.00 0.01 0.00 0.21 0.06 0.22 0.09 0.13 0.10
VELOURS 0.00 0.15 0.00 0.01 0.00 0.03 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 52


Représentation superposée
lignes-colonnes

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 53


Représentation en deux dimension
▪ Au fur et à mesure que la dimensionnalité du sous-espace d'affichage
est augmentée, la capacité de l'affichage à représenter avec précision
les points de profil est améliorée. Il y a cependant un compromis dans
le sens où la visualisation des points devient de plus en plus complexe
au-delà de deux dimensions. Les affichages bidimensionnels sont
généralement les affichages de choix.
▪ Les axes principaux sont imbriqués ; c'est-à-dire que le premier axe
principal trouvé dans la solution unidimensionnelle est identique au
premier axe principal dans la solution bidimensionnelle, et ainsi de
suite. Augmenter la dimensionnalité de l'affichage implique
simplement d'ajouter de nouveaux axes principaux à ceux déjà
trouvés

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 54


Dualité lignes - colonnes
Les observations
▪ Les nuages 𝑁𝐼 et 𝑁𝐽 ont le même inertie totale Φ2
▪ Ils ont le même inertie en projetant sur la même dimension 𝑠
𝑰 𝑱

෍ 𝒇𝒊. 𝑭𝟐𝒔 (𝒊, 𝑮𝑰 ) = ෍ 𝒇.𝒋 𝟐 (𝒋, 𝑮𝑱 ) = 𝝀𝒔


𝒔
𝒊=𝟏 𝒋=𝟏

▪ La coordonnées d’une ligne est au barycentre des colonnes: Dualité


lignes - colonne

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 55


Représentation barycentrique

Colonne par lignes Lignes par colones


▪ Soit 𝑭𝒔 (𝒊) la coordonnée de la ▪ Soit 𝑮𝒔 (𝒊) la coordonnée de la
ligne 𝒊 sur la dimension 𝒔 colonne 𝒋 sur la dimension 𝒔
▪ La coordonnée barycentrique de ▪ La coordonnée barycentrique de
la colonne 𝑗 sur la dimension 𝒔 : la ligne 𝑖 sur la dimension 𝒔 :

𝐼 𝐽
𝒇𝒊𝒋 𝒇𝒊𝒋
𝐺𝑠 𝑗 = ෍ 𝑭𝒔 𝒊 𝐹𝑠 𝑖 = ෍ 𝐺𝑠 𝑗
𝒇.𝒋 𝒇𝒊.
𝑖=1 𝑗=1

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 56


Représentation en barycentre exacte (carte
asymétrique)
Une carte asymétrique est une carte dans laquelle les points de ligne et
de colonne sont mis à l'échelle différemment, par ex. les points lignes
en coordonnées principales (représentant les profils lignes) et les
points colonnes en coordonnées standards (représentant les sommets
colonnes). Il y a donc deux tracés asymétriques possibles, selon que
l'analyse en lignes ou en colonnes est d'intérêt principal.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 57


Représentation en barycentre exacte

Lignes en coordonnées principales et colonnes Colonnes en coordonnées principales et lignes


en coordonnées barycentrique (exacte) en coordonnées barycentrique (exacte)

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 58


Représentation quasi-barycentrique

Colonne par lignes Lignes par colonne


▪ Soit 𝑭𝒔 (𝒊) la coordonnée de la ▪ Soit 𝑮𝒔 (𝒊) la coordonnée de la
ligne 𝒊 sur la dimension 𝒔 colonne 𝒋 sur la dimension 𝒔
▪ La coordonnée barycentrique de ▪ La coordonnée barycentrique de
la colone 𝑗 sur la dimension 𝒔 : la ligne 𝑖 sur la dimension 𝒔 :

𝐼 𝐽
𝟏 𝒇𝒊𝒋 𝟏 𝒇𝒊𝒋
𝐺𝑠 𝑗 = ෍ 𝑭𝒔 𝒊 𝐹𝑠 𝑖 = ෍ 𝐺𝑠 𝑗
𝝀𝒔 𝑖=1 𝒇.𝒋 𝝀𝒔 𝑗=1 𝒇𝒊.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 59


Représentation
superposée
(Quasi-
Barycentrique)

Nhân-Quy Nguyen Analyse Factorielle des Correspondances 60


Représentation superposée

▪ Désavantages : l'inter-distance entre les lignes et les colonnes ne


peut pas être interprétée. Seules des déclarations générales peuvent
être faites sur le modèle.

▪ Avantages:
✓Interprétation synthétique
✓Visualisation des associations
✓Proximité synthétique des points

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 61


Aides à interprétation

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 62


Inertie
projetée =
Valeur propre
des plans
factoriels
Pourcentage
d’inertie
projetée
Inertie projetée = Valeur propre des plans factoriels
dim 1 dim 2 dim 3 dim 4 dim 5
La consultation des valeur propre est importante 0.141 0.054 0.037 0.020 0.001

▪ L’effet de dilatation. Seulement quand 𝜆𝑠 = 1 que 𝑁𝐽 ne soit pas


inférieur à 𝑁𝐼 et réciproquement.
▪ Quand 𝜆𝑠 < 1: toute ce qu’on peut observer sur le graphique est
seulement une « tendance » même si cette tendance est très
significative.
▪ Inertie associée à un axe est une part de la liaison entre deux
variables
▪ Valeur propre d’un axe suggère son importance de focus

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 65


Pourcentage d’inertie
projetée

▪ Critère de qualité globale de représentation du nuage

▪ Mesure la déformation d’inertie (d’information) de 𝑁𝐼


(ou 𝑁𝐽 ) sur une dimension = la fiabilité des proximités
entres points dim 1 dim 2 dim 3 dim 4 dim 5
55.7% 21.2% 14.7% 7.9% 0.4%
▪ Si le pourcentage est faible = autre phénomène à
examiner

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 66


Inertie projetée = Valeur propre des plans factoriels

Il est plus important de focaliser sur cet axe

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 67


Contribution à l’inertie totale
BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA Somme
BOUCLETTE 0.06% 2.14% 0.01% 0.11% 0.00% 1.12% 0.01% 0.06% 0.00% 0.01% 0.01% 0.02% 0.00% 0.21% 3.77%
COTE 0.61% 3.69% 0.00% 0.06% 0.47% 3.00% 0.41% 3.78% 0.15% 0.60% 0.11% 1.15% 0.11% 1.52% 15.66%
INTERLOCK 0.67% 0.42% 3.32% 0.00% 0.27% 6.32% 0.00% 0.04% 1.40% 0.39% 0.07% 2.19% 0.06% 1.65% 16.78%
JERSEY 2.44% 5.90% 0.90% 0.01% 4.91% 2.82% 0.33% 3.84% 0.04% 2.04% 0.36% 0.06% 0.10% 3.01% 26.75%
MOLLETON 1.31% 0.26% 0.57% 0.45% 0.20% 1.46% 0.64% 3.14% 0.03% 0.90% 0.06% 1.80% 0.01% 1.22% 12.04%
VELOURS 0.37% 22.13% 0.07% 0.00% 0.03% 0.50% 0.00% 0.47% 0.00% 0.10% 0.05% 0.15% 0.04% 1.08% 25.00%
Somme 5.45% 34.55% 4.88% 0.64% 5.86% 15.22% 1.39% 11.33% 1.62% 4.03% 0.66% 5.37% 0.32% 8.69% 100.00

Les contributions des cellules à l'inertie sont parfois appelées contributions du chi carré car elles
sont identiques aux contributions relatives de chaque cellule à la statistique χ2.

L'autre décomposition majeure de l'inertie se fait par rapport aux axes


principaux ou «le long» de ceux-ci.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 68


Contribution d’un point
à l’inertie d’un axe
• Contribution d’un points à l’inertie Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
d’un axe  à la construction BOUCLETTE 4.7 1.5 3.1 0.4 90.2
factorielle d’un axe : COTE 23.9 1.6 12.2 2.9 0.2
• Inertie de i projetée sur s / INTERLOCK 0.4 69.8 8.0 7.1 1.0
inertie projetée totale sur s JERSEY 40.0 2.3 9.7 32.1 0.2
MOLLETON 1.0 24.8 16.7 47.2 0.3
𝟐 𝟐 VELOURS 30.0 0.0 50.3 10.3 8.1
𝒇𝒊. 𝑶𝑯𝒔𝒊 𝒇𝒊. 𝑶𝑯𝒔𝒊
• 𝒄𝒕𝒓𝒔 𝒊 = 𝟐 = Somme 100.0 100.0 100.0 100.0 100.0
σ𝑵 𝒇𝒊′ . 𝑶𝑯𝒔′ 𝝀𝒔
𝑰 𝒊

Analyse des correspondances multiples Nhân-Quy Nguyen 69


Contribution d’un
point à l’inertie
de deux axes
𝒄𝒕𝒓𝟏−𝟐 𝒊 = 𝒄𝒕𝒓𝟏 𝒊 + 𝒄𝒕𝒓𝟐 𝒊

Les axes principaux sont imbriqués

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 70


Contribution d’un
point à l’inertie
de deux axes
𝒄𝒕𝒓𝟏−𝟐 𝒋 = 𝒄𝒕𝒓𝟏 𝒋 + 𝒄𝒕𝒓𝟐 𝒋

Les axes principaux sont imbriqués

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 71


Qualité de
représentation 𝑖

𝑰𝒏𝒆𝒓𝒕𝒊𝒆 𝒔𝒖𝒓 𝒑𝒍𝒂𝒏 𝒔


𝒒𝒍𝒕𝒔 𝒊 =
𝒊𝒏𝒆𝒓𝒕𝒊𝒆 𝒕𝒐𝒕𝒂𝒍𝒆 𝒅𝒆 𝒊
𝟐
𝑶𝑯𝑺𝒊
𝒒𝒍𝒕𝒔 𝒊 = = 𝐜𝐨𝐬𝟐 𝝓𝒔𝒊
𝑶𝒊𝟐
𝜙𝑖𝑠
𝑂 𝐻𝑖𝑠

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 72


Qualité de
représentation
Dim 1 Dim 2 Dim 3 Dim 4 Dim 5 Somme
𝑰𝒏𝒆𝒓𝒕𝒊𝒆 𝒔𝒖𝒓 𝒑𝒍𝒂𝒏 𝒔
𝒒𝒍𝒕𝒔 𝒊 = BOUCLETTE 0.70 0.08 0.12 0.01 0.09 1.00
𝒊𝒏𝒆𝒓𝒕𝒊𝒆 𝒕𝒐𝒕𝒂𝒍𝒆 𝒅𝒆 𝒊
COTE 0.85 0.02 0.12 0.01 0.00 1.00
𝟐 INTERLOCK 0.01 0.88 0.07 0.03 0.00 1.00
𝑶𝑯𝑺𝒊
𝒒𝒍𝒕𝒔 𝒊 = = 𝐜𝐨𝐬𝟐 𝝓𝒔𝒊 JERSEY 0.83 0.02 0.05 0.10 0.00 1.00
𝑶𝒊𝟐 MOLLETON 0.05 0.44 0.20 0.31 0.00 1.00
VELOURS 0.67 0.00 0.30 0.03 0.00 1.00

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 73


Cos2 vs Contrib: Profil lignes

Contrib Dim 1 Dim 2 Dim 3 Dim 4 Dim 5 Cos2 Dim 1 Dim 2 Dim 3 Dim 4 Dim 5 Somme
BOUCLETTE 4.7 1.5 3.1 0.4 90.2 BOUCLETTE 0.70 0.08 0.12 0.01 0.09 1.00
COTE 23.9 1.6 12.2 2.9 0.2 COTE 0.85 0.02 0.12 0.01 0.00 1.00
INTERLOCK 0.4 69.8 8.0 7.1 1.0 INTERLOCK 0.01 0.88 0.07 0.03 0.00 1.00
JERSEY 40.0 2.3 9.7 32.1 0.2 JERSEY 0.83 0.02 0.05 0.10 0.00 1.00
MOLLETON 1.0 24.8 16.7 47.2 0.3 MOLLETON 0.05 0.44 0.20 0.31 0.00 1.00
VELOURS 30.0 0.0 50.3 10.3 8.1 VELOURS 0.67 0.00 0.30 0.03 0.00 1.00
Somme 100.0 100.0 100.0 100.0 100.0

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 74


Cos2 vs Contrib Profil lignes

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 75


Cos2 vs Contrib: Profils colonnes
Contrib Dim 1 Dim 2 Dim 3 Dim 4 Dim 5 Cos2 Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
BABE 1.97 9.59 14.65 1.96 0.10 BABE 0.20 0.37 0.40 0.03 0.00
BARU 52.03 2.21 30.90 6.75 0.56 BARU 0.84 0.01 0.13 0.02 0.00
DESS 0.93 19.45 0.12 2.18 10.39 DESS 0.11 0.85 0.00 0.04 0.01
FIGO 0.06 0.26 0.67 3.97 35.48 FIGO 0.05 0.09 0.16 0.50 0.21
LYRA 4.36 1.04 3.58 33.67 3.27 LYRA 0.41 0.04 0.09 0.46 0.00
MALI 11.73 37.05 2.96 3.42 28.54 MALI 0.43 0.52 0.03 0.02 0.01
MAMO 1.08 0.66 3.56 1.47 1.95 MAMO 0.43 0.10 0.38 0.08 0.01
MATO 14.16 2.52 16.15 6.63 1.08 MATO 0.70 0.05 0.21 0.05 0.00
PLAC 0.01 6.17 1.02 1.69 5.16 PLAC 0.00 0.81 0.09 0.08 0.01
TACH 2.33 5.99 9.32 1.16 0.01 TACH 0.32 0.32 0.34 0.02 0.00
TAIG 0.86 0.68 0.15 0.13 0.02 TAIG 0.73 0.22 0.03 0.02 0.00
THUI 0.23 2.42 16.71 28.32 4.06 THUI 0.02 0.10 0.46 0.42 0.00
TOLI 0.46 0.13 0.18 0.05 0.44 TOLI 0.81 0.09 0.08 0.01 0.01
TOPA 9.80 11.83 0.03 8.59 8.94 TOPA 0.63 0.29 0.00 0.08 0.00
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 76
Cos2 vs Contrib Profils colonnes

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 77


Cos2 vs Contrib Profils colonnes Cos2 Dim 1 Dim 2
BARU 0.84 0.01
▪ Les modalités « extrêmes » sont très bien DESS 0.11 0.85

représentées sur les 2 dimensions 1 et 2 MATO 0.70 0.05


PLAC 0.00 0.81
TACH 0.32 0.32
▪ Modalité FIGO au centre est très mal présenté TAIG 0.73 0.22
TOLI
sur dimension 1 et 2 mais bien présenté sur 0.81 0.09

dimension 5 FIGO 0.05 0.09 0.16 0.50 0.21

FIGO 0.06 0.26 0.67 3.97 35.48


▪ FIGO aide à la construction de axe 5 aussi
Analyse cette axe
→ Remets en question de l’interprétation de pour voir quelles
«l’indépendance » de FIGO au début du cours. sont les
C’est un défaut très « populaire » particularités?

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 78


Cos2 vs Contrib Profils colonnes
FIGO Somme %
BOUCLETTE 0 7 0%
On remarque: Une répartition COTE 538 2734 20%
assez uniforme des supports INTERLOCK 119 630 19%
avec le défaut FIGO, sauf le JERSEY 141 724 19%
MOLLETON 66 461 14%
support bouclette. VELOURS 12 60 20%
Somme 876 4616 19%

Vérifier avec la contrib de Contrib Dim 1 Dim 2 Dim 3 Dim 4 Dim 5


BOUCLETTE
bouclette en dim5 4.7 1.5 3.1 0.4 90.2

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 79


Chercher l’axe sur laquelle une
modalité particulière s’exprime
bien (dans notre cas: FIGO)
Aide à
interprétation: On cherche à interpréter les
significations avec les données
Contrib et brutes grâce à ce guidage
Cos2
Remets en question des modalité
extrême (BOUCLETTE)

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 80


Point de
réflexion:
Nuage des points
et son ratio
d'aspect

Analyse Factorielle
des Correspondances Nhân-Quy Nguyen 81
NON OUI Total général
Nuages des BABE
BARU
321
156
178
48
499
204

points BRID
DESS
FIN
144
4
65
69
2
21
213
6
86
GRO 486 210 696
LYCR 8 1 9
On prendre un exemple simple: MAAR 36 12 48
nom de défauts correspondence MALI 430 71 501
au démarrage au froid d’un MAMO 43 10 53
métier: MTEL 60 52 112
MTPA 286 227 513
▪ V1: Défaut (Lignes) PLIM 25 5 30
REPI 17 14 31
▪ V2: Etat de démarrage TACH 75 35 110
(Colonnes) TAIG 28 9 37
THUI 108 48 156
TOLI 21 20 41
TOPA 1087 558 1645
UNIS 2 1 3
VOLA 52 17 69
ZREG 6 29 35
AVG 3460 1637 5097

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 82


Nuages des points
DEFAUT – MISE EN
ROUTE METIER
▪ Aspect Ratio = 1

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 83


Nuages des points DEFAUT – MISE EN ROUTE METIER

Echantillon Modèle indépendence

Aspect Ratio = 1
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 84
Nuages des points
DEFAUT – MISE EN
ROUTE METIER
▪ Exprimé en pourcentage

𝑓𝑖𝑗 𝑥𝑖𝑗
▪ =σ
𝑓𝑖. 𝑗 𝑥𝑖𝑗

▪ Les axes sont déformé

▪ Axe “NON” est “dilatée” par


sa propabilité marginale

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 85


𝟐
Distance 𝝌

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 86


𝟐
Distance 𝝌
▪ Centré

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 87


𝟐
Distance 𝝌
▪ Pourquoi les points se
trouvent sur une ligne?

▪ Car le nombre de dimension


optimale est min{𝐼 − 1, 𝐽 − 1} = 1

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 88


Interprétation
Total
NON OUI général
BABE 321 178 499
BARU 156 48 204
BRID 144 69 213
DESS 4 2 6
FIN 65 21 86
GRO 486 210 696
LYCR 8 1 9
MAAR 36 12 48
MALI 430 71 501
MAMO 43 10 53
MTEL 60 52 112
MTPA 286 227 513
PLIM 25 5 30
REPI 17 14 31
TACH 75 35 110
TAIG 28 9 37
THUI 108 48 156
TOLI 21 20 41
TOPA 1087 558 1645
UNIS 2 1 3
VOLA 52 17 69
ZREG 6 29 35
AVG 3460 1637 5097

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 89


Interprétation
▪ On ne peut pas observé les
caractéristiques de donnée avec le
nuage de points initiale (ou TOPA
est une pôle information)

▪ ZREG et LYCR sont des défauts très


dépendants au l’état de démarrage
des machine : ZREG créent plus de
défauts au froid et LYCR crée plus
de défauts au chaud.

▪ On peut observer un effet de


clustering des défauts sous point
de vu démarrage au froid OUI-
NON des métiers

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 90


Mosaic plot L’AFC « comptabilise » les résidus (écarts) par rapport à
l'indépendance

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 91


Remarques
▪ On peut observer qu’aussi facilement les dernières remarques sans
tracer les nuages de points en métrique 𝜒 2 .

▪ Toutefois, cette exemple est volontairement choisie pour être facile


(deux modalités pour V2)

▪ Si le nombre de dimensions augmente, AFC est très utile pour


visualiser des données complexes

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 92


Technique d’analyse:
Groupement de modalités

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 93


Groupement des
défauts
On vas essayer de grouper le défaut en trois
groupes

1. Continu
2. Discontinu
3. Mixte

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 94


Groupement
des défauts Total
Continu Discontinu Mixte général
• On vas essayer de grouper le BOUCLETTE 3 3 16 22
défaut en trois groupes
COTE 180 651 1816 2647
INTERLOCK 229 236 352 817
• Continu
JERSEY 144 224 398 766
• Discontinu
• Mixte MOLLETON 40 133 279 452
VELOURS 28 15 44 87
Test 𝝌𝟐 de Pearson: Total général 624 1262 2905 4791
𝜒 2 = 364.22,
𝑑𝑓 = 10,
𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 2.2𝑒 − 16

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 95


Plot
asymétrique
Profil lignes
Plot
asymétrique
Profil lignes
Biplot
Contribution Lignes et Colonnes

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 99


Qualité de représentation Lignes - Colonnes
Pourquoi nous ne sommes pas intéressé par cette information dans cet
étude ?

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 100


Application:
Analyse des
réseaux

Analyse Factorielle
des Correspondances Nhân-Quy Nguyen 101
Donnée mobilité Erasmus 2013-14
▪ On concentre sur la réseau mobilité entrant et sortant

▪ Les profils lignes sont les pays de départ (Blue) et les profils colonnes
sont les pays de destination (Rouge)

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 102


Graphique
du réseau

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 103


Tableau
croisée

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 104


Coordonnée
𝟐
𝝌 des lignes
▪ Interpréter comme la
composition des
destinations (sous le
points de vue des pays de
depart)

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 105


Coordonnée
𝟐
𝝌 des cols
▪ Interpréter comme la
composition des mobilité
de départ (sous le points
de vue des pays de
destination)

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 106


Contribution des pays de départ (ligne) sur dim1-2

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 107


Contribution des pays de destination (Cols) sur dim1-2

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 108


Biplot

Sending/Receiving

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 109


Clustering et Hiérarchisation
Application de AFC

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 110


Différentes interprétations des vecteurs propres et
des valeurs propres issues de l'AC.
▪ van Dam, A., Dekker, M., Morales-Castilla, I., Rodríguez, M. Á., Wichmann, D., & Baudena, M. (2021).
Correspondence analysis, spectral clustering and graph embedding: applications to ecology and economic
complexity. Scientific reports, 11(1), 1-14.

Interprétation des
AFC comme: Valeurs propres d’interprétation
vecteurs propres
Analyse de gradient à l’aide de
Variable latente Force de corrélation entre les
l’analyse de corrélation
scores de ligne et de colonne
canonique
Étiquettes
Partitionnement graphique à Qualité du partitionnement
approximatives des
l’aide de la coupe normalisée (donnée par coupe normalisée)
clusters
Réduction de la dimensionnalité Coordonnées dans
à l’aide de Intégration l’espace Variation expliquée
graphiques d’incorporation
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 111
Hiérarchisation de données
▪ Exemple: Déchiffrer l'état de silence immunitaire chez les patients
mortels atteints de COVID-19
▪ AFC:
Composition cellule avec ScRNA-SEQ

Bost, P., De Sanctis, F., Canè, S., Ugel, S., Donadello, K.,
Castellucci, M., ... & Bronte, V. (2021). Deciphering the state of
immune silence in fatal COVID-19 patients. Nature
communications, 12(1), 1-15.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 112


Hiérarchisation de
données

Les individus est placé dans deux


dimension 2 et 3
Moins grave Plus grave
Coloré par la gravité des symptôme

Remarque: Axe 2 très associée avec


la grabité

Bost, P., De Sanctis, F., Canè, S., Ugel, S., Donadello, K.,
Castellucci, M., ... & Bronte, V. (2021). Deciphering the state of
immune silence in fatal COVID-19 patients. Nature
communications, 12(1), 1-15.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 113


Hiérarchisation de
données

On chercher à hiérarchiser les


facteurs de gravité en cherchant la
corrélation de ces modalité (ou leurs
contribution) avec la dimension 2

Bost, P., De Sanctis, F., Canè, S., Ugel, S., Donadello, K.,
Castellucci, M., ... & Bronte, V. (2021). Deciphering the state of
immune silence in fatal COVID-19 patients. Nature
communications, 12(1), 1-15.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 114


Conclusion de l’auteur
La dimension CA 2 était positivement associée à la concentration
plasmatique d'IL-1RA et au nombre de neutrophiles et négativement
associée au nombre d'érythrocytes et à la concentration
d'hémoglobine

Pris ensemble, notre analyse du compartiment lymphoïde a révélé que


la présence d'une population de lymphocytes T naïfs dans le BAL est
associée à une sévérité clinique élevée, alors que le sang du COVID-19
sévère est caractérisé par l'activation des cellules NK et γδ-T.
Bost, P., De Sanctis, F., Canè, S., Ugel, S., Donadello, K.,
Castellucci, M., ... & Bronte, V. (2021). Deciphering the state of
immune silence in fatal COVID-19 patients. Nature
communications, 12(1), 1-15.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 115


Clustering et ordination
van Dam, A., Dekker, M., Morales-Castilla, I., Rodríguez, M. Á., Wichmann, D., & Baudena, M.
(2021). Correspondence analysis, spectral clustering and graph embedding: applications to
ecology and economic complexity. Scientific reports, 11(1), 1-14.

▪ Une matrice « présence-absence »


avec 234 pays (lignes) et
1 239 produits (colonnes), dans
laquelle une « présence » indique
qu'un pays était un exportateur
important d'un produit en 2016
(voir Supplément matériel B pour
une description exacte de cette
procédure).

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 116


Clustering et ordination

van Dam, A., Dekker, M., Morales-Castilla, I., Rodríguez, M. Á., Wichmann, D., & Baudena, M.
(2021). Correspondence analysis, spectral clustering and graph embedding: applications to
ecology and economic complexity. Scientific reports, 11(1), 1-14.
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 117
Clustering et ordination
▪ Le premier axe CA est connu sous le nom d'ICE et explique 3,5 % de la
variation totale. Le deuxième axe explique 2,5 % de la variation totale
et semble distinguer les pays spécialisés dans l'habillement et le
textile des autres pays.
▪ Les couleurs indiquent les clusters obtenus lors de l'exécution de k-
Means avec K = 3 sur l'intégration couverte par les 20 premiers axes
CA. (d) : PIB par habitant en fonction du premier axe CA (ECI). La ligne
pointillée est la régression linéaire de log(GDPpc) avec ECI (R2=0,49).

van Dam, A., Dekker, M., Morales-Castilla, I., Rodríguez, M. Á.,


Plus de détail sur le k-mean dans Wichmann, D., & Baudena, M. (2021). Correspondence analysis,
la prochaine partie du cours spectral clustering and graph embedding: applications to
ecology and economic complexity. Scientific reports, 11(1), 1-14.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 118


Association
statistique: De la
corrélation à l’AFC
Cuadras, C. M., & Greenacre, M. (2022). A short
history of statistical association: From correlation to
correspondence analysis to copulas. Journal of
Multivariate Analysis, 188, 104901.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 119


Association des tailles des enfants avec leurs parents
▪ Francis Galton, contemporain de Mendel et cousin de Darwin, a reconnu le
concept de corrélation inhérent à la fonction de densité normale bivariée,
mais la définition mathématique a été laissée à Pearson quelques années
plus tard.

▪ Les données qui ont donné l'idée à Galton concernaient 𝑛 = 934 enfants
de 𝑚 = 205 familles, avec 𝑝 = 4 variables : la taille de la fille 𝑌1 , la taille
du fils 𝑌2 , la taille de la mère 𝑋1 et la taille du père 𝑋2 .

▪ Galton a augmenté 8% des tailles des femmes: 𝑿𝟏 = 𝟏. 𝟎𝟖𝑿𝟏 et 𝒀𝟏 =


𝟏. 𝟎𝟖𝒀𝟏
𝟏
▪ Parent moyen 𝑿 = (𝑿𝟏 + 𝑿𝟐 )
𝟐

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 120


Les nuages des points

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 121


Les nuages
des points

Nhân-Quy Nguyen Analyse Factorielle des Correspondances 122


Corrélation de
Pearson
Alors que la corrélation de Pearson prend des valeurs
comprises entre -1 et 1, 0 indiquant l'absence de
corrélation, son carré, classiquement noté 𝑅2 , est
bien compris entre 0 et 1, indiquant la force de
l'association.
On dit aussi que 𝑅2 mesure la proportion de la
variance de Y expliquée par X et vice versa, ce qui est
un concept symétrique dans ce cas bivarié simple.
Pour la figure la corrélation a été estimée à 0,497, ce
qui correspond à un 𝑅2 de 0,247, donc près d'un
quart de la variance des enfants s'explique par la
taille des mi-parents et, de manière équivalente,
près d'un quart de la variance des mi-parents
s'explique par la taille des enfants.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 123


Analyse des
correspondances
principales
• ACP reliant la variable de réponse
bivariée {taille de la fille, taille du fils}
à la variable explicative bivariée {taille
de la mère, taille du père}.
• Les pourcentages sur les axes sont
le pourcentage de variance expliquée
• par rapport à la part de variance
des tailles des enfants expliquée
par la taille des parents, et
d'autre part
• par rapport à la variance totale
des tailles des enfants.

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 124


Analyse des
correspondances
principales
A partir de la variance des tailles des enfants, la
combinaison linéaire optimale de
0,5932 × taille de la mère + 0,8466 × taille du père
a un 𝑅2 de 0,3867.

les vecteurs mère et père ont des coordonnées


égales aux coefficients des combinaisons linéaires,
et la configuration des points montre
l'unidimensionnalité de la solution.

Le plus fort effet de la taille du père sur la taille


des enfants peut être observé comme la
coordonnée la plus élevée sur l’axe 1 (dimension
1)

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 125


AFC : Analyse canonique des corrélations

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 126


AFC : Analyse canonique
des corrélations 0 None
0.01–0.09 Negligible
▪ Inertie de la table de Galton
2
0.10–0.29 Weak
𝜒
Φ2 = = 0.4404 0.30–0.59 Moderate
𝑁
Alors Φ = 0.6636 0.60–0.74 Strong
Cooeficient de contigence
𝚽𝟐 0.75–0.99 Very strong
𝑪= 𝟐
= 𝟎. 𝟓𝟓𝟐𝟗
𝟏+𝚽
Blaikie (2003) a alors proposé une
1 Perfect
classification de force d'association:
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 127
AFC : Analyse canonique des corrélations

Analyse Factorielle des Correspondances Nhân-Quy Nguyen 128

Vous aimerez peut-être aussi