Académique Documents
Professionnel Documents
Culture Documents
Nhân-Quy NGUYEN
Chair Connected Innovation
LIST3N
Traitement de
Système de aide à la
données par rapport
décision
au structure
Choix intelligente des méthodes dans la librairie
(Humain/AI/Analytics)
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 4
Un schéma plus large
Analyse de donnée et l’aide à la décision
Nouveaux aspects à
prendre en compte
Méthodes de
Analyse du Analyse des
resolution
problème données
(Système AAD)
Les méthodes
s’adaptent
▪ Méthodes descriptives
▪ Analyse factorielle et analyse des correspondances :
déterminer et à hiérarchiser des facteurs corrélés aux
données placées en colonnes.
▪ Partitionnement de données (Data Clustering) : diviser un
ensemble de données en différents « paquets »
homogènes
▪ Méthodes explicatives
▪ L'analyse de régression multiple : permettant d’approcher
une variable à partir d’autres qui lui sont corrélées.
▪ L'analyse de la variance ANOVA : mesure une ou plusieurs
variables explicatives catégorielle qui ont de l'influence sur
la loi d'une variable continue Source IMG: Wikipedia
Glynn, D. (2014). Correspondence analysis. Methods for Semantics: Quantitative Studies in Polysemy and Synonymy
Support\Défaut BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA Somme
BOUCLETTE 0 3 0 0 0 4 0 0 0 0 0 0 0 0 7
VELOURS 1 28 0 12 0 13 1 0 0 0 0 0 0 5 60
𝐼
𝑥.𝑗 = 𝑥𝑖𝑗 𝑛 = 𝑥.. = 𝑥𝑖𝑗
𝑖 𝑖 𝑗
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 18
Tableau des correspondances
Les correspondance
On transforme le tableau croisé en divisant tout par 𝑛 sont les probabilités
𝟏 𝒇𝒊 . densité
𝒇𝒊𝒋 = 𝒏 𝒙𝒊𝒋 ➔ Densité bivariée de l'échantillon associées aux lignes et marginale de
aux colonnes l’échantillon
BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA Somme
BOUCLETTE 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
COTE 0.05 0.01 0.01 0.12 0.00 0.04 0.01 0.08 0.00 0.01 0.01 0.01 0.01 0.24 0.59
INTERLOCK 0.01 0.00 0.01 0.03 0.00 0.03 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.03 0.14
JERSEY 0.03 0.02 0.00 0.03 0.00 0.03 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.04 0.16
MOLLETON 0.02 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.05 0.10
VELOURS 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01
Somme 0.10 0.04 0.01 0.19 0.00 0.11 0.02 0.09 0.00 0.02 0.01 0.03 0.01 0.36 1.00
BOUCLETTE 0 3 0 0 0 4 0 0 0 0 0 0 0 0 7
INTERLOCK • 42Est-ce15qu’il 28
existe119 0 d’attraction
une forte 143 10 entre 53 la modalité
3 5 de support
9 41
Côte 3 159 630
et la modalité de défaut TOPA voire le nombre d’occurrence est très élevé ?
JERSEY 120 76 0 141 18 133 5 12 0 33 2 18 3 163 724
• Ou c’est juste que ce sont des modalités les plus populaire (voire les
MOLLETON 74 sommes
27 marginales)
0 66 alors
0 ca tombe
22 0 par hasard
3 (sans
0 une conclusion
19 3 31 sur 3 213 461
une forte interaction des deux modalités) que le nombre d’ occurrences
VELOURS 1 28 0 12 0 13
jointes 1soit grande
0 0 0 0 0 0 5 60
BOUCLETTE 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
COTE 0.05 0.01 0.01 0.12 0.00 0.04 0.01 0.08 0.00 0.01 0.01 0.01 0.01 0.24 0.59
INTERLOCK 0.01 0.00 0.01 0.03 0.00 0.03 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.03 0.14
JERSEY 0.03 0.02 0.00 0.03 0.00 0.03 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.04 0.16
MOLLETON 0.02 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.05 0.10
VELOURS 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01
Somme 0.10 0.04 0.01 0.19 0.00 0.11 0.02 0.09 0.00 0.02 0.01 0.03 0.01 0.36 1.00
𝑰 𝑱 𝟐
𝟐
𝒇𝒊𝒋 − 𝒇𝒊. 𝒇.𝒋
𝝌 = 𝒏
𝒇𝒊. 𝒇.𝒋
𝒊=𝟏 𝒋=𝟏
𝒅𝒇 = 𝑰 − 𝟏 𝑱 − 𝟏
Pour quoi 𝑰 − 𝟏?
En statistique, le nombre de degrés de liberté est le nombre de valeurs
dans le calcul final d'une statistique qui sont libres de varier.
Car 𝑓.𝑘 = 1 − σ 𝑖∈𝐼∖ 𝑘 𝑓.𝑖
Avec 𝒅𝒇 = 𝟓 × 𝟏𝟑 et 𝜶 = 𝟎, 𝟓
la valeur critique est trouvé par la
distribution de Khi-deux 𝟐𝟐, 𝟑𝟔
𝑮𝑰 est le
𝐼
Profil ligne centre gravité
𝑓.1 … 𝑓.𝑗 … 𝑓.𝐽 de 𝑵𝑰
moyen 𝐺𝐼
𝑰 𝑱 𝟐
𝟐
𝒇𝒊𝒋 − 𝒇𝒊. 𝒇.𝒋
𝝌 = 𝒏 = 𝐧𝚽 𝟐
𝒇𝒊. 𝒇.𝒋
𝒊=𝟏 𝒋=𝟏
Alors 𝚽 est inertie totale du nuage 𝑵𝑰 qui mesure l’écart entre les
profils avec l’hypothèse indépendance ou la dispersion du nuage de
points
𝟏
▪ La coefficient va donner la distance de telle sorte elle devient une
𝒇.𝒋
contribution d’un profil ligne à l’inertie total du nuage
𝑓𝐼.
𝑮𝑱 est le
𝐼
centre gravité
de 𝑵𝑱
Inertie
Inertie totale
𝐹12 (𝑖, 𝑂)
Support\Défaut BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA Somme
BOUCLETTE 0 3 0 0 0 4 0 0 0 0 0 0 0 0 7
VELOURS 1 28 0 12 0 13 1 0 0 0 0 0 0 5 60
BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA 𝒇𝒊.
BOUCLETTE 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
COTE 0.05 0.01 0.01 0.12 0.00 0.04 0.01 0.08 0.00 0.01 0.01 0.01 0.01 0.24 0.59
INTERLOCK 0.01 0.00 0.01 0.03 0.00 0.03 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.03 0.14
JERSEY 0.03 0.02 0.00 0.03 0.00 0.03 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.04 0.16
MOLLETON 0.02 0.01 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.05 0.10
VELOURS 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01
𝒇.𝒋 0.10 0.04 0.01 0.19 0.00 0.11 0.02 0.09 0.00 0.02 0.01 0.03 0.01 0.36 1.00
BABE BARU DESS FIGO LYRA MALI MAMO MATO PLAC TACH TAIG THUI TOLI TOPA 𝐺𝐽
BOUCLETTE 0.00 0.02 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
COTE 0.50 0.23 0.58 0.61 0.22 0.39 0.79 0.84 0.00 0.38 0.71 0.35 0.74 0.67 0.59
INTERLOCK 0.09 0.08 0.42 0.14 0.00 0.28 0.13 0.12 1.00 0.05 0.18 0.29 0.09 0.10 0.14
JERSEY 0.25 0.39 0.00 0.16 0.78 0.26 0.07 0.03 0.00 0.36 0.04 0.13 0.09 0.10 0.16
MOLLETON 0.16 0.14 0.00 0.08 0.00 0.04 0.00 0.01 0.00 0.21 0.06 0.22 0.09 0.13 0.10
VELOURS 0.00 0.15 0.00 0.01 0.00 0.03 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01
𝐼 𝐽
𝒇𝒊𝒋 𝒇𝒊𝒋
𝐺𝑠 𝑗 = 𝑭𝒔 𝒊 𝐹𝑠 𝑖 = 𝐺𝑠 𝑗
𝒇.𝒋 𝒇𝒊.
𝑖=1 𝑗=1
𝐼 𝐽
𝟏 𝒇𝒊𝒋 𝟏 𝒇𝒊𝒋
𝐺𝑠 𝑗 = 𝑭𝒔 𝒊 𝐹𝑠 𝑖 = 𝐺𝑠 𝑗
𝝀𝒔 𝑖=1 𝒇.𝒋 𝝀𝒔 𝑗=1 𝒇𝒊.
▪ Avantages:
✓Interprétation synthétique
✓Visualisation des associations
✓Proximité synthétique des points
Les contributions des cellules à l'inertie sont parfois appelées contributions du chi carré car elles
sont identiques aux contributions relatives de chaque cellule à la statistique χ2.
Contrib Dim 1 Dim 2 Dim 3 Dim 4 Dim 5 Cos2 Dim 1 Dim 2 Dim 3 Dim 4 Dim 5 Somme
BOUCLETTE 4.7 1.5 3.1 0.4 90.2 BOUCLETTE 0.70 0.08 0.12 0.01 0.09 1.00
COTE 23.9 1.6 12.2 2.9 0.2 COTE 0.85 0.02 0.12 0.01 0.00 1.00
INTERLOCK 0.4 69.8 8.0 7.1 1.0 INTERLOCK 0.01 0.88 0.07 0.03 0.00 1.00
JERSEY 40.0 2.3 9.7 32.1 0.2 JERSEY 0.83 0.02 0.05 0.10 0.00 1.00
MOLLETON 1.0 24.8 16.7 47.2 0.3 MOLLETON 0.05 0.44 0.20 0.31 0.00 1.00
VELOURS 30.0 0.0 50.3 10.3 8.1 VELOURS 0.67 0.00 0.30 0.03 0.00 1.00
Somme 100.0 100.0 100.0 100.0 100.0
Analyse Factorielle
des Correspondances Nhân-Quy Nguyen 81
NON OUI Total général
Nuages des BABE
BARU
321
156
178
48
499
204
points BRID
DESS
FIN
144
4
65
69
2
21
213
6
86
GRO 486 210 696
LYCR 8 1 9
On prendre un exemple simple: MAAR 36 12 48
nom de défauts correspondence MALI 430 71 501
au démarrage au froid d’un MAMO 43 10 53
métier: MTEL 60 52 112
MTPA 286 227 513
▪ V1: Défaut (Lignes) PLIM 25 5 30
REPI 17 14 31
▪ V2: Etat de démarrage TACH 75 35 110
(Colonnes) TAIG 28 9 37
THUI 108 48 156
TOLI 21 20 41
TOPA 1087 558 1645
UNIS 2 1 3
VOLA 52 17 69
ZREG 6 29 35
AVG 3460 1637 5097
Aspect Ratio = 1
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 84
Nuages des points
DEFAUT – MISE EN
ROUTE METIER
▪ Exprimé en pourcentage
𝑓𝑖𝑗 𝑥𝑖𝑗
▪ =σ
𝑓𝑖. 𝑗 𝑥𝑖𝑗
1. Continu
2. Discontinu
3. Mixte
Analyse Factorielle
des Correspondances Nhân-Quy Nguyen 101
Donnée mobilité Erasmus 2013-14
▪ On concentre sur la réseau mobilité entrant et sortant
▪ Les profils lignes sont les pays de départ (Blue) et les profils colonnes
sont les pays de destination (Rouge)
Sending/Receiving
Interprétation des
AFC comme: Valeurs propres d’interprétation
vecteurs propres
Analyse de gradient à l’aide de
Variable latente Force de corrélation entre les
l’analyse de corrélation
scores de ligne et de colonne
canonique
Étiquettes
Partitionnement graphique à Qualité du partitionnement
approximatives des
l’aide de la coupe normalisée (donnée par coupe normalisée)
clusters
Réduction de la dimensionnalité Coordonnées dans
à l’aide de Intégration l’espace Variation expliquée
graphiques d’incorporation
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 111
Hiérarchisation de données
▪ Exemple: Déchiffrer l'état de silence immunitaire chez les patients
mortels atteints de COVID-19
▪ AFC:
Composition cellule avec ScRNA-SEQ
Bost, P., De Sanctis, F., Canè, S., Ugel, S., Donadello, K.,
Castellucci, M., ... & Bronte, V. (2021). Deciphering the state of
immune silence in fatal COVID-19 patients. Nature
communications, 12(1), 1-15.
Bost, P., De Sanctis, F., Canè, S., Ugel, S., Donadello, K.,
Castellucci, M., ... & Bronte, V. (2021). Deciphering the state of
immune silence in fatal COVID-19 patients. Nature
communications, 12(1), 1-15.
Bost, P., De Sanctis, F., Canè, S., Ugel, S., Donadello, K.,
Castellucci, M., ... & Bronte, V. (2021). Deciphering the state of
immune silence in fatal COVID-19 patients. Nature
communications, 12(1), 1-15.
van Dam, A., Dekker, M., Morales-Castilla, I., Rodríguez, M. Á., Wichmann, D., & Baudena, M.
(2021). Correspondence analysis, spectral clustering and graph embedding: applications to
ecology and economic complexity. Scientific reports, 11(1), 1-14.
Analyse Factorielle des Correspondances Nhân-Quy Nguyen 117
Clustering et ordination
▪ Le premier axe CA est connu sous le nom d'ICE et explique 3,5 % de la
variation totale. Le deuxième axe explique 2,5 % de la variation totale
et semble distinguer les pays spécialisés dans l'habillement et le
textile des autres pays.
▪ Les couleurs indiquent les clusters obtenus lors de l'exécution de k-
Means avec K = 3 sur l'intégration couverte par les 20 premiers axes
CA. (d) : PIB par habitant en fonction du premier axe CA (ECI). La ligne
pointillée est la régression linéaire de log(GDPpc) avec ECI (R2=0,49).
▪ Les données qui ont donné l'idée à Galton concernaient 𝑛 = 934 enfants
de 𝑚 = 205 familles, avec 𝑝 = 4 variables : la taille de la fille 𝑌1 , la taille
du fils 𝑌2 , la taille de la mère 𝑋1 et la taille du père 𝑋2 .