Vous êtes sur la page 1sur 119

UNIVERSITE MARIEN NGOUABI

INSTITUT SUPERIEUR DE GESTION

Dr Rodnellin Onesime MALOUATA

1ère édition
Brazzaville 2015
Dr Rodnellin Onesime Malouata 2 La photocopie non autorisée est un délit
Table des matières

1 Analyse en Composantes Principales 7


1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Données et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Pondération des individus et des variables . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1 Poids des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Poids des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Transformation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.1 Centrage des variables du tableau X . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2 Réduction des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.3 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Principe de représentation géométrique d'un tableau des données . . . . . . . . . . . . 13
1.5.1 L'espace des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.2 L'espace des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.6.1 Ajustement du nuage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6.2 Eléments principaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.7 Formules de reconstitutions des données . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.8 Interprétation des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.1 Étude de l'inertie des facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8.2 Qualité des représentations sur les plans principaux . . . . . . . . . . . . . . . . 25
1.8.3 Aides à l'interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2 Analyse Factorielle des Correspondances 31


2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Données et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1 Les marges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.2 Dénition (Indépendance) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4 Transformation des données en prols . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.1 Notion de prol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5 Ressemblance entre prols : Distance du χ2 . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.1 L'équivalence distributionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.2 ACP non centrées et facteur trivial . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6 Critère à maximiser et matrice à diagonaliser . . . . . . . . . . . . . . . . . . . . . . . 36
2.6.1 Projection du nuage N (I) sur un axe . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6.2 Matrice des variances-covariances . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6.3 Notion d'inetie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6.4 Variabilité expliquée du nuage N (I) . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6.5 Axes factoriels et facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6.6 Relation de transition entre les deux espaces . . . . . . . . . . . . . . . . . . . . 38

3
TABLE DES MATIÈRES

2.6.7 Relation de transition (ou quasi-barycentrique) . . . . . . . . . . . . . . . . . . 38


2.7 Formule de reconstitution des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.8 Règle d'interprétation : Inertie, contribution et cosinus . . . . . . . . . . . . . . . . . . 39
2.8.1 Inertie et test d'indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.8.2 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.8.3 Cosinus carré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3 Analyse Factorielle Discriminante 43


3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Formulation du problème et notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3 Inertie du nuage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4 Fonctions linéaires discriminantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4.1 Calcul des fonctions linéaires discriminantes . . . . . . . . . . . . . . . . . . . . 47
3.4.2 Diagonalisation d'une matrice symétrique . . . . . . . . . . . . . . . . . . . . . 48
3.5 Principes des règles d'aectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.1 Le modèle bayésien d'aectation (ou de classement) . . . . . . . . . . . . . . . 49
3.5.2 Estimation de de la densité par noyaux . . . . . . . . . . . . . . . . . . . . . . . 49
3.6 Cas de deux classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4 Analyse des correspondances multiples 51


4.1 Domaine d'application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2 Données et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.1 Codage condensé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.2 Tableau disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2.3 Hypertableau de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.4 Tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.4 Principes de l'analyse des correspondances multiples . . . . . . . . . . . . . . . . . . . 55
4.4.1 Nuage des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4.2 Nuage des modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4.3 Axes factoriels et facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4.4 Facteurs et relations quasi-barycentriques . . . . . . . . . . . . . . . . . . . . . 57
4.4.5 Inertie du nuage des modalités et conséquences pratiques . . . . . . . . . . . . . 57
4.5 Analyse du tableau de contingence de Burt . . . . . . . . . . . . . . . . . . . . . . . . 58

5 Décomposition en valeurs singulières 61


5.1 Matrices carrées diagonalisables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2 Décomposition spectrale de A diagonalisable . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3 Décomposition en valeurs singulières . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.3.1 Valeurs singulières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.3.2 Théorème (DVS1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.3.3 Théorème (DVS2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.3.4 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4 Présentation de l'Analyse en Composantes Principales . . . . . . . . . . . . . . . . . . 63
5.4.1 Décomposition en Valeurs Singulières du triplet . . . . . . . . . . . . . . . . . . 64

6 Analyse en composantes principales sur variables instrumentales 65


6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2 Contexte et notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.3 Dénition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.4 Recherche de la solution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.4.1 Propriété 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.4.2 Propriété 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Dr Rodnellin Onesime Malouata 4 La photocopie non autorisée est un délit


TABLE DES MATIÈRES

6.5 Dénition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.5.1 Propriété 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.5.2 Propriété 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.5.3 Propriété 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

7 Analyse canonique généralisée de Carroll 71


7.1 Introdution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Contexte de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.3 Dénition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.4 Solution d'ordre 1 dans Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.5 Solution d'ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

8 L'approche PLS 75
8.1 L'algorithme NIPALS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

9 LA méthode ACT-STATIS 77
9.1 Contexte des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.2 Dénition et solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9.2.1 Interstructure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9.2.2 Compromis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
9.2.3 Interprétation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.2.4 Intrastructure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

10 STATIS DUALE 83
10.1 Contexte de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
10.2 Dénition et principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
10.3 Procédure de détermination de la solution . . . . . . . . . . . . . . . . . . . . . . . . . 84
10.3.1 Interstructure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
10.3.2 Compromis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
10.3.3 Intrasructure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
10.4 Dénition et solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
10.5 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

11 Analyse conjointe de plusieurs cubes ou tableaux appariés par colonnes 91


11.1 La méthode STATIS duale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
11.1.1 Contexte de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
11.1.2 Dénition et principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
11.1.3 Procédure de détermination de la solution . . . . . . . . . . . . . . . . . . . . . 93
11.2 L'analyse en composantes communes et poids spéciques duale (ACCPS duale) . . . . 94
11.2.1 Contexte de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
11.2.2 Dénition et principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
11.2.3 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
11.3 L'analyse en composantes communes et poids spéciques duale simultanée . . . . . . . 96
11.3.1 Contexte de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
11.3.2 Dénition, principe et solution . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
11.3.3 Procédure de détermination de la solution . . . . . . . . . . . . . . . . . . . . . 96
11.4 L'analyse triadique partielle (ATP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
11.4.1 Contexte de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
11.4.2 Dénition, principe et solution . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
11.5 L'analyse en composantes principales successive d'un multi-tableau vertical . . . . . . 99
11.5.1 Contexte de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
11.5.2 Dénition, principe et solution . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
11.6 L'analyse d'un multi-tableau vertical successive : la méthode AMVs . . . . . . . . . . . 100
11.6.1 Contexte de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Dr Rodnellin Onesime Malouata 5 La photocopie non autorisée est un délit


TABLE DES MATIÈRES

11.6.2 Dénition et principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100


11.6.3 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
11.7 Commentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

12 Analyse canonique 105


12.1 Position du problème et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
12.2 Dénition et principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
12.3 Recherche de la solution dans les espaces des individus . . . . . . . . . . . . . . . . . . 106
12.4 Recherche de la solution dans les espaces des variables . . . . . . . . . . . . . . . . . . 107
12.5 Représentation des variables et des individus . . . . . . . . . . . . . . . . . . . . . . . 108
12.5.1 Représentation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
12.5.2 Représentation des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
12.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

13 Analyse de co-inertie 1 111


13.1 Dénition et principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
13.2 Recherche de la solution dans les espaces d'individus . . . . . . . . . . . . . . . . . . . 112
13.3 Recherche de la solution dans l'espace des variables . . . . . . . . . . . . . . . . . . . . 113

14 Analyse de co-inertie 2 115


14.1 Dénition et solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
14.2 Recherche de la solution dans les espaces individus . . . . . . . . . . . . . . . . . . . . 115
14.3 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

Dr Rodnellin Onesime Malouata 6 La photocopie non autorisée est un délit


Chapitre 1
Analyse en Composantes Principales

1.1 Introduction
L'Analyse en Composantes Principales (ACP) est une méthode ancienne. C'est à Karl Pearson
en 1901 et à Harold Hotelling en 1933 que l'on doit les premières publications traitant de ce sujet.
Cependant l'utilisation de l'ACP est récente et c'est avec l'avènement des ordinateurs que la théorie a
pu être mise en pratique.
Son objectif est de présenter, sous forme de graphique, le maximum d'information conte-
nue dans un tableau de données, constitué en lignes par des individus sur lesquels sont mesurées
des variables quantitatives disposées en colonnes. Les termes individu et variable recouvrent des notions
diérentes. Par exemple, les individus peuvent être des vins et les variables sont des critères décrivant
ces vins (acidité, astringence, etc.). Les questions que l'on se pose sur les individus et celles que l'on
se pose sur les variables ne sont pas de même nature. A propos de deux individus, on essaie d'évaluer
leur ressemblance : deux individus se ressemblent d'autant plus qu'ils possèdent des valeurs proches
pour l'ensemble des valeurs. A propos de deux variables, on essaie d'évaluer leur liaison.
L'ACP est une étude exploratoire. Cette exploration est basée sur deux voies principales :
Un bilan des ressemblances entre individus. On cherche alors à répondre à des questions du type
suivant : Quels sont les individus qui se ressemblent ? Quels sont ceux qui dièrent ? Plus généralement,
on souhaite décrire la variabilité des individus. Pour cela, on cherche à mettre en évidence des groupes
homogènes d'individus dans le cadre d'une typologie des individus. Selon un autre point de vue,
on cherche les principales dimensions de variabilité des individus.
Un bilan des liaisons entre variables. Les questions sont alors : quelles variables sont corrélées
positivement entre elles ? Quelles sont celles qui s'opposent (corrélées négativement) ? Existe-t-il des
groupes de variables corrélées entre elles ? Peut-on mettre en évidence une typologie des variables.

Un autre aspect de l'étude des liaisons entre variables consiste à résumer l'ensemble des variables
par un petit nombre de variables synthétiques appelées ici composantes principales. Ce point
de vue est très lié au précédent : une composante principale peut être considérée comme le représentant
(la synthèse) d'un groupe de variables liées entre elles.
Naturellement, ces deux voies ne sont pas indépendantes du fait de la dualité inhérente à l'étude d'un
tableau rectangulaire : la structure du tableau peut être analysée à la fois par l'intermédiaire de la
typologie des individus et de la typologie des variables.

1.2 Données et notations


Les données sont constituées de mesures de p variables quantitatives réalisées sur n individus. Elles
sont groupées sous forme d'un tableau rectangulaire X , à deux dimensions :

ˆ La première dimension, c'est-à-dire les lignes du tableau X représentent les individus i (i =


1, . . . , n dénies par les p mesures des variables. Ainsi, chaque individu i correspond au vecteur

7
1.2 Données et notations

xi de Rp .

ˆ La deuxième dimension, c'est-à-dire les colonnes du tableau X représentent les variables j


(j = 1, . . . , p) dénies par la liste des n valeurs qu'elles prennent sur les n individus. Ainsi,
chaque variable j correspond à un vecteur xj de Rn .

A l'intersection de la ligne i et de la colonne j se trouve la valeur de la variable j pour l'individu i,


notée xji , avec i = 1, . . . , n et j = 1, . . . , p.
Le tableau des données se présente alors comme suit :

Figure 1.1  Tableau des données


Nous désignons par :

x1i
 
 .. 
 . 
j p
ˆ xi = [xi . . . xi . . . xi ], (i = 1, . . . , n) le vecteur transposé de xi = 
 j 
 xi  dans l'espace R . Une
0 1  p
 .. 
 . 
xpi
ligne i s'interprète comme les valeurs de p variables pour la ième observation.
 j 
x1
 .. 
 . 
ˆ x =
 j 
 xi  : la représentation de la variable j (j = 1, . . . , p) dans l'espace R . La colonne j
j  n
 .. 
 . 
xjp
s'interprète comme les p observation de la variable xj .
 0 
x1
 .. 
 . 
j
ˆ X = X(n,p) = [x . . . x . . . x ] = 
1 j p
 0 
 xi  = (xi )1≤i≤n

 ..  1≤j≤p
 . 
x0n

La matrice X peut être interpréter alors comme donnée par p points xj en Rn (c'est-à-dire chaque
point admet n composantes) ou n points xi en Rp (c'est-à-dire chaque point admet p composantes).
Nous notons ensuite par :

ˆ X 0 la transposée du tableau X

Dr Rodnellin Onesime Malouata 8 La photocopie non autorisée est un délit


Analyse en Composantes Principales

ˆ u un vecteur colonne de Rp et par u0 sa transposée, un vecteur ligne ;

ˆ Im(X) le sous-espace de Rn engendré par les variables de X .

L'analyse des données de composantes principales consiste en l'étude des projections des points du
nuage sur un axe, un plan, ou un hyperplan judicieusement déterminé. Mathématiquement, l'analyse
en composantes principales serait le meilleur ajustement du nuage par un sous-espace vectoriel en Rp .

1.3 Pondération des individus et des variables


1.3.1 Poids des individus
Dans la plupart des cas, les individus jouent le même rôle. Alors leurs poids sont identiques à
n. Toutefois, dans certains cas, on peut souhaiter attribuer des poids diérents aux individus. Cette
1

situation se présente notamment lorsque les individus représentent chacun une sous population ; on
aecte alors à un individu un poids proportionnel à l'eectif de la sous-population qu'il représente. A
chaque individu xi (1 ≤ i ≤ n) est associé un poids pi qui reète l'importance dans cet individu. Par
commodité, on choisit ces poids pi > 0 tels que la masse totale des individus soit égale à 1.
n
X
pi = 1
i=1

Ces poids interviennent dans le calcul de la moyenne (xj ), c'est-à-dire dans la dénition d'un individu
théorique moyen, dans le calcul de la variance (V ar(xj )) de chaque variable xj (1 ≤ i ≤ p) et dans
celui de la mesure de liaison (covariance ou coecient de corrélation) entre variables :
n
pi xji
X
xj =
i=1

n n
pi (xji − xj )2 = pi (xji )2 − (xj )2
X X
V ar(xj ) =
i=1 i=1
n n
0 0
j0 j0 0
pi (xji )(xji pi xji xji − xj xj
X X
j j
Cov(x , x ) = −x −x )=
i=1 i=1

n 0
! 0
! 0
j j0
X xji − xj xji − xj Cov(xj , xj )
Cor(x , x ) = pi =
sj sj 0 sj sj 0
i=1
0
où sj 0 = V ar(xj ) et sj 0 = V ar(xj 0 ) sont respectivement les écart-types des variables xj et xj . Les
p p

n poids des n individus sont rassemblés dans une matrice diagonale D d'ordre n
 
p1 0 . . . . . . 0
 0 ... .. 
. 

 .. ..  = diag(p ; 1 ≤ i ≤ n)
 
D= . pi .  i
 .. ..
 
 . . 0 

0 . . . . . . 0 pn

appelée matrice diagonale des poids des individus


Dans le cas usuel, on utilise
1
D= I
n
avec In la matrice unité d'ordre n.

Dr Rodnellin Onesime Malouata 9 La photocopie non autorisée est un délit


1.3 Pondération des individus et des variables

Propriété 1.1.
Soit X(n,p) un tableau des données et 10n = (1 . . . 1 . . . 1) ∈ Rn . La matrice D des poids des individus
vérie les égalités
10n D1n = 1
Xn
V = X 0 DX = pi xi x0i
i=1
où la matrice V est appelé la matrice de variances-covariances ou matrice de covariances.

Démonstration.
 
p1 0 ... ... 0

1
.. ..
 . 
 . 
. .

 0  . 
.. ..

10n D1n = (1 . . . 1 . . . 1)  .  1 
.
  
pi  . 
.. .. .

. . 0  . 
 

0 . . . . . . 0 pn 1
 
p1
.. 
. 


 
= (1 . . . 1 . . . 1)  pi 
.. 
 
. 


pn
n
X
= pi
i=1
= 1
x01
 
..
.
 
 
On a : X =  x0i  et X 0 = (x1 . . . xi . . . xn )
 
..
 
.
 
 
x0n
 
p1 0 ... ... 0 x01

.. ..  . 
 . 
. .

 0  . 
.. ..

V = X 0 DX = (x1 . . . xi . . . xn ) 
 0 
. .  xi 

pi  . 
.. .. .

. . 0  . 
 

0 . . . . . . 0 pn x0n
0
 
p 1 x1
 ..
 .


0
 
 p i xi
= (x1 . . . xi . . . xn )  
 ..

 .


pn x0n
Xn
= pi xi x0i
i=1

Remarque
La matrice D comprenant sur sa diagonale principale les réels strictement positifs est symétrique
dénie positive.

Dr Rodnellin Onesime Malouata 10 La photocopie non autorisée est un délit


Analyse en Composantes Principales

1.3.2 Poids des variables


Nous avons accordé jusqu'ici la même importance à priori aux diérentes variables. On n'est rare-
ment conduit, dans la pratique, à souhaiter leur aecter des importances diérentes. A tel point que
les programmes courants d'ACP ne le permettent pas. Cette importance peut être modulée à l'aide
d'un coecient appelé poids des variables. A chaque variables xj (j = 1, . . . , p) est associée un poids
mj > 0 tel que
Xp
mj = 1.
j=1

Ces p poids sont regroupés dans une matrice diagonale M d'ordre p telle que
 
m1 0 . . . ... 0
 0 ... .. 
. 

M =  ... ..  = diag(m ; 1 ≤ j ≤ p)
 
. 

mj j
 .. ..
 
 . . 0 

0 ... ... 0 mp

appelée matrice de pondération des variables.


Ces poids mj interviennent dans la formule du calcul de a distance entre deux individus.

Cas particuliers
Le cas le plus usité en statistique est celui des poids uniformément repartis :
mj = 1, j = 1, . . . , p et M = Ip , avec Ip la matrice unité d'ordre p.
mj = 1/s2j , j = 1, . . . , p et M = D1/s2 = diag(1/s2j ; j = 1, . . . , p), la matrice diagonale d'ordre p des
inverses des carrés des variances de chaque variable xj .

1.4 Transformation des données


En ACP , le tableau des données est toujours centré (en pratique, le centrage est inclus dans les
programmes d'ACP). Le centrage élimine les eets dus aux diérences entre moyennes.

1.4.1 Centrage des variables du tableau X


On dit qu'une variable y j est centrée si la moyenne y j est nulle, c'est-à-dire y j = 0.
Le centrage d'une variable xj consiste à soustraire chacune de ses valeurs xji par sa moyenne xj pour
obtenir une nouvelle variable y j de moyenne nulle et de terme général :
n
yij = xji − xj pi xji
X
ou xj = (xj )0 D1n = j = 1, . . . , p
i=1

On note Y le tableau centré associé à X .

x1 − x1 . . . xj1 − xj . . . xp1 − xp
 1 
.. .. ..
. . .
 
 
 j p
 j
Y = Y(n,p) =  xi − x . . . xi − xj
 1 1 . . . xi − x p
 = (yi )1≤i≤n
.. .. .. 1≤j≤p
. . .
 
 
x1n − x1 . . . xjn − xj . . . xpn − xp

Matriciellement, on a :
Y = X − 1n g 0 = (In − 1n 10n D)X

Dr Rodnellin Onesime Malouata 11 La photocopie non autorisée est un délit


1.4 Transformation des données

Cette transformation n'a aucune incidence sur les dénitions de la ressemblance entre individus et de
la liaison entre variables.
L'ACP peut être réalisée sur des données seulement centrées. Toutefois, ses résultats sont alors très
sensibles au choix des unités de mesure. Généralement ce choix est arbitraire.

Propriété 1.2. Le centre de gravité gY du tableau centré Y est l'individu moyen 0


Démonstration.
Par dénition :

gY = Y 0 D1n
= (X − 1n g 0 )0 D1n
= (X 0 − g10n )D1n
= X 0 D1n − g10n D1n or 10n D1n = 1 et g = X 0 D1n
=⇒ g Y = X 0 D1n − X 0 D1n = 0

1.4.2 Réduction des variables


On dit qu'une variable y j est réduite si sa variance est égale à l'unité, c'est-à-dire V ar(y j ) = 1.
La façon classique de s'aranchir de l'arbitraire des unités de mesure est de réduire les données. Ce
faisant, on utilise comme unité de mesure pour la variable xj , son écart-type sj . Toutes les variables
présentent alors la même variabilité et de ce fait la même inuence dans le calcul des distances entre
individus.
La réduction d'une variable y j (centrée) consiste à diviser chacune de ses valeurs par son écart-type sj
pour obtenir une nouvelle variable z j de variance unité et de terme général :

yij xj − xj q
zij = = i ou sj = V ar(y j )
sj sj

Si on note D1/s la matrice diagonale des inverses des écart-types et par D1/s2 la matrice diagonale des
inverses des variances dénies par :
 
1/s1 0 ... ... 0
.. .. 
. . 

 0
D1/s =  ... .. 
 
. 

1/sj
 .. ..
 
 . .

0 
0 ... ... 0 1/sp

On dénit matriciellement le tableau centré-réduit associé à X , noté Z , par la matrice :


 1 1 
x1 −x xj1 −xj xp1 −xp
 s1 ... sj ... sp
. . ..

.. .. .
 
 
 j p

1 1 j p
Z = Z(n,p) =  xi −x . . . xi −x . . . xi −x  = (zij )1≤i≤n
 
 s1 sj sp 1≤j≤p
.. .. ..

 1. 1 . .
 
 

xn −x xjn −xj xpn −xp
s1 . . . sj . . . sp

ou
Z = Y D1/s avec D1/s = diag((1/sj ; j = 1, . . . , p)
ou encore
Z = (X − 1n g 0 )D1/s avec D1/s = diag (1/sj ; j = 1, . . . , p)

Dr Rodnellin Onesime Malouata 12 La photocopie non autorisée est un délit


Analyse en Composantes Principales

Propriété 1.3. Le centre de gravité gZ du tableau centré réduit Z est l'individu moyen 0
Démonstration.
Par dénition :

gZ = Z 0 D1n
0
= (X − 1n g 0 )D1/s D1n


= D1/s (X 0 − g10n )D1n


= D1/s X 0 D1n − g10n D1n


= 0

1.4.3 Commentaires
Dans les études où toutes les variables s'expriment dans la même unité, on peut souhaiter ne pas
réduire les variables. En procédant ainsi, on accorde à chaque variable réduite un poids égal à sa
variance. Selon un autre point de vue, la dénition d(xi , xi0 ) montre que la variance de la variable xj
est égale à la contribution moyenne de la variable xj au carré de la distance entre individus.
La réduction des variables permet d'uniformiser les unités de mesure et implique :
xji −xj
ˆ Les nombres zij = sj (i = 1, . . . , n et j = 1, . . . , p sont sans unité.

ˆ Dans Rn , le cosinus de l'angle entre deux variables s'interprète comme coecient de corrélation
entre ces variables.

1.5 Principe de représentation géométrique d'un tableau des données


Un tableau des données X(n,p) n'est exploitable que dans sa décomposition en deux tableaux de
dissimilarités : l'une sur les lignes (individus) et 'autre sur les colonnes (variables). Ces deux tableaux
de représentation vont donc donner deux représentations géométriques diérentes du tableau X(n,p)
appelées nuage des individus NI et nuage des variables NJ . Ces deux nuages permettent respectivement
la visualisation des proximités entre individus et entre variables dans deux espaces diérents appelés
respectivement espace des individus (Rp ) et espace des variables (Rn ). Ces derniers renferment la même
information contenue dans le tableau X(n,p) . C'est ainsi que les nuages des individus et des variables
jouent des rôles symétriques. D'où la nature duale d'un tableau de données. Mais cette dualité se perd
immédiatement pour une analyse à plus d'un tableau.

1.5.1 L'espace des individus


Chaque individu étant un point déni par p coordonnées est considéré comme un élément d'un
espace vectoriel Rp appelé l'espace des individus. L'ensemble des n individus est alors un  nuage de
points dans Rp et g en est le centre de gravité.
L'espace Rp est muni d'une structure euclidienne an de pouvoir dénir des distances entre indivi-
dus.

1.5.1.1 Nuage des individus


S'intéresser aux individus revient à envisager le tableau en tant que juxtaposition des lignes. A
chaque individu est associée une suite de p nombres. Selon ce point de vue, un individu peut être
représenté comme un point de l'espace vectoriel à p dimensions, noté Rp , dont chaque dimension repré-
sente une variable. L'ensemble des individus constitue le nuage NI = {(xi , pi ) ∈ Rp × [0, 1]/1 ≤ i ≤ n}
dont le centre de gravité g est confondus avec l'origine O des axes du fait du centrage. g représente
l'individu moyen.

Dr Rodnellin Onesime Malouata 13 La photocopie non autorisée est un délit


1.5 Principe de représentation géométrique d'un tableau des données

a) Rôle de la métrique et Distance entre couple d'individus dans Rp


En statistique ce n'est que par pure convention que l'on représente les variables par des axes
perpendiculaires : on aurait pu tout aussi bien prendre des axes obliques. La distance entre couple
d'individus dans Rp est dénie :
d2M (xi , xi0 ) = ||xi − xi0 ||2M = hxi − xi0 , xi − xi0 iM = (xi − xi0 )0 M (xi − xi0 )
où M est une matrice symétrique dénie positive de taille p.
Cette distance est une forme quadratique qui permet de quantier ou de mesurer les ressemblances et
les dissemblances entre individus. Ainsi deux individus sont très proche s'ils ont des valeurs presque
égales pour chaque variable.

L'ensemble des distances inter-individuelles constitue ce que l'on appelle la forme du nuage NI .
Réaliser un bilan de ces distances revient à étudier la forme du nuage NI , c'est-à-dire à y déceler
une partition des points (typologie mentionnée dans l'introduction) ou des directions d'allongement
remarquables (les principales dimensions de variabilité).
Dès que p est supérieur à 3, l'étude directe du nuage NI est impossible du fait de la limitation à trois
de notre sens visuel. D'où l'intérêt des méthodes factorielles en général, et dans ce cas particulier de
l'ACP, qui fournissent des images planes approchant au mieux possible un nuage de points situé dans
un espace de grande dimension.

Remarques
ˆ Le choix délicat de la métrique M dépend de l'idée qu'on se fait de la distance entre individus.
Le fait d'envisager des métriques plus générales introduit une distorsion dans la représentation
des distances. Cependant, dans la plupart des méthodes factorielles, outre D, la métrique M est
diagonale bien qu'il existe des cas où M non diagonale soit utile.
ˆ En ACP les métriques usuelles dans Rp sont en nombre réduit : M = Ip ou M = D1/s2 .
ˆ Le choix naturel de la métrique identité M = Ip conduit à la distance euclidienne classique qui
n'est judicieux ici. C'est pourquoi on préférera la métrique diagonale des inverses des carrés des
variances M = D1/s2 qui présentera l'avantage de donner à chaque variable la même importance
(variance unité), ce qui est utile lorsque les variables sont hétérogènes. Ne pas l'utiliser, revient
à accorder plus d'importance aux variables de forte dispersion qu'à ceux de faible dispersion.
ˆ Il est à noter que travailler avec les données brutes (tableau X ) et M = D1/s2 est équivalent à
travailler avec des données centrées réduites (tableau Z ) et M = Ip .
ˆ En général M peut être n'importe qu'elle matrice dénie positive d'ordre p qui permet de dénir
dans Rp le produit scalaire :
hxi , xi0 i = x0i M xi0
et par conséquent un projecteur M -orthogonal dans Rp :
Pu = u(u0 M u)−1 uM avec u ∈ Rp
PX 0 = X 0 (XM X 0 )−1 XM sur Im(X 0 ) ⊂ Rp

b) Point moyen ou centre de gravité du nuage des individus


Le centre de gravité g du nuage des individus NI est un individu virtuel. Le vecteur g contient les
moyennes arithmétiques des variables xj = ni=1 pi xji et est déni par :
P
 1 
x
 .. 
 . 
1 j p 0
 j 
g=  x  = (x . . . x . . . x )

 .. 
 . 
xp

Dr Rodnellin Onesime Malouata 14 La photocopie non autorisée est un délit


Analyse en Composantes Principales

 
p1 0 ... ... 0

1
..  . 
 . ..
. .

 0  .  X n
.. ..

g = X 0 D1n = (x1 . . . xi . . . xn )  .  1  =. pi xi
  
pi  . 
.. .. .

i=1
. . 0  . 
 

0 . . . . . . 0 pn 1
où 1n ∈ Rn est le vecteur colonne dont toutes les composantes sont égales à 1.

1.5.1.2 Notion de l'inertie


On appelle inertie totale du nuage de points la moyenne pondérée des carrés des distances des
points au centre de gravité :
n
X n
X
0
Ig = pi (xi − g) M (xi − g) = pi ||xi − g||2M
i=1 i=1

L'inertie en un point a quelconque est dénie par :


n
X n
X
Ia = pi (xi − a)0 M (xi − a) = pi ||xi − a||2M
i=1 i=1

On a la relation de Huyghens :

Ia = Ig + (a − g)0 M (a − g) = Ig + ||a − g||2M


n
X
Si g = 0, alors Ig = pi x0i M xi
i=1
Par ailleurs, on démontre aisément que l'inertie totale vérie la relation :
n X
X n n
X
0
2Ig = pi pi0 (xi − xi0 ) M (xi − xi0 ) = pi pi0 ||xi − xi0 ||2M
i=1 i0 =1 i=1

soit la moyenne des carrés de toutes les distances entre les n individus. L'inertie totale est la trace de
la matrice M V (ou V M ) :
Ig = T race(M V ) = T race(V M )
En eet, pi x0i M xi étant un scalaire, grâce à la commutativité sous la trace :
n n
! !
X X
0
Ig = T race pi xi M xi = T race pi M xi xi = T race(M X 0 DX) = T race(M V )
0

i=1 i=1

De même, on pouvait aussi écrire :


n n
! !
X X
Ig = T race pi x0i M xi = T race pi x0i xi M = T race(X 0 DXM ) = T race(V M )
i=1 i=1

- si M = I l'inertie est égale à la somme des variances des p variables ;


p
X
Ig = tr(X 0 X) = V ar(xj )
j=1

- Si M = D1/s2 (variables centrées-réduites) : T race(M V ) = T race(D1/s2 V ) = T race(D1/s V D1/s ), or


d'après ce qui précède R = D1/s V D1/s , d'où

Ig = T race(R) = p

L'inertie est donc égale au nombre de variables et ne dépend pas de leurs valeurs.

Dr Rodnellin Onesime Malouata 15 La photocopie non autorisée est un délit


1.5 Principe de représentation géométrique d'un tableau des données

1.5.2 L'espace des variables


Chaque variable xj est en fait une liste de n valeurs numériques : on la considère comme un vecteur
xj d'un espace Rn à n dimensions appelé espace des variables.

1.5.2.1 Nuage des variables


S'intéresser aux variables revient à envisager le tableau en tant que juxtaposition des colonnes. A
chaque variable est associée une suite de n nombres. Selon ce point de vue, une variable peut être
représenté comme un vecteur de l'espace vectoriel à n dimensions, noté Rn , dont chaque dimension
représente une individu. L'ensemble des extrémités des vecteurs représentant les variables constitue le
nuage NJ = {(xj , mj ) ∈ Rn × [0, 1]/1 ≤ i ≤ p}.

Le choix de la distance dans Rn consiste à aecter à chaque dimension un coecient égal au poids
de chaque individu dans le nuage NI de Rn (on peut avoir l'intuition de ce choix en considérant deux
individus absolument identiques que l'on peut remplacer par un seul ayant un poids double). Si les
données ont été recueillies à la suite d'un tirage aléatoire à probabilité égales, les individus ont tous
même importance, n1 , dans le calcul des caractéristiques de l'échantillon. Il n'en est pas toujours ainsi et
il est utile de travailler avec des poids pi diérents d'un individu à l'autre. pi > 0, ils sont comparables
aux fréquences. Dans le cas général, la distance utilisée est , au coecient pi près, la distance euclidienne
usuelle.

1.5.2.2 Le rôle de la métrique des poids des individus


Pour étudier la proximité des variables entre elles il faut munir cet espace d'une métrique, c'est-
à-dire trouver une matrice d'ordre n dénie positive symétrique. Ici il n'y a pas d'hésitation comme
pour l'espace des individus et le choix se porte sur la matrice diagonale des poids D pour les raisons
suivantes :

1. La norme de chaque vecteur représentant une variable ||xj ||D est égale à son écart-type. Soit
n
(xji − xj )2
X
j
V ar(x ) = ||xj ||2D =
i=1

Ainsi, lorsque les variables sont centrées réduites, chaque variable a pour longueur 1 : le nuage NJ
est alors situé sur une sphère de rayon 1 (on dit aussi hypersphère pour rappeler que Rn est de
dimension supérieur à 3). Pour cette raison, l'ACP sur données centrées-réduites est dite ACP
normée. Lorsque les variables sont seulement centrées, leur longueur est égale à leur écart-type
et on parle alors d'ACP non normée.
0
2. Le cosinus de l'angle formé par les vecteurs représentant les deux variables xj et xj , obtenu en
0
calculant le produit scalaire noté hxj , xj iD entre ces deux vecteurs normés, est égal au coecient
de corrélation entre ces deux variables. Soit
0
j j0 Cov(xj , xj ) 0 0
Cor(x , x ) = p = Cov(xj , xj ) = hxj , xj iD
V ar(xj ) × V ar(xj 0 )
0 0
car V ar(xj ) = ||xj ||2D = 1 et V ar(xj ) = ||xj ||2D = 1

L'interprétation d'un coecient de corrélation comme cosinus est une propriété très importante puis-
qu'elle donne un support géométrique, donc visuel, au coecient de corrélation. cette propriété justie
le choix de la distance 'on dit aussi métrique) dans Rn et implique que , dans la représentation des
variables on s'intéresse surtout aux direction déterminées par les variables, c'est-à-dire aux vecteurs
plutôt à leurs extrémités.
La longueur des vecteurs représentant les variables étant égale à 1, la coordonnée de la projection d'une
variable sur une autre s'interprète comme un coecient de corrélation.

Dr Rodnellin Onesime Malouata 16 La photocopie non autorisée est un délit


Analyse en Composantes Principales

Commentaires
Réaliser un bilan des coecients de corrélation entre les variables revient à étudier les angles entre
les vecteurs dénissant le nuage NJ . Cette directe est impossible du fait de la dimension de Rn . L'intérêt
de l'ACP est de fournir des variables synthétiques qui constituent un résumé de l'ensemble des variables
initiales et sont la base d'une représentation plane approchée des variables et de leurs angles.
Dans Rn , le carré de la distance des variables à l'origine du repère s'interprètent comme la variance
respective de ces variables et le carré de la distance entre deux variables est leur covariance.
Cependant l'analyse dans Rp du nuage des individus se fait par rapport au centre de gravité de g et
celle dans Rn du nuage des variables se fait par rapport à l'origine.

1.5.2.3 Distance entre couples de variables Rn


Pour étudier les distances entre variables dans Rn , le choix de la métrique ne se pose pas, on utilise
toujours la métrique D des poids des individus. C'est ainsi que la métrique des poids des individus.
0
C'est ainsi que la distance entre deux variables xj et xj est dénie par l'expression :
0 0
d2D (xj , xj ) = ||xj − xj ||2D
n
0 0 0 0 0 0
X
d2D (xj , xj ) = hxj − xj |xj − xj iD = (xj − xj )0 D(xj − xj ) = pi (xj − xj )2
i=1
n n n
0 0 0
X X X
d2D (xj , xj ) = pi (xj )2 + pi (xj )2 − 2 p i xj xj
i=1 i=1 i=1

Cas particuliers
0
ˆ Lorsque les variables xj et xj sont centrées, leurs moyennes sont nulles. On peut écrire
n
X
pi (xj )2 = V ar(xj )
i=1
n
0 0
X
pi (xj )2 = V ar(xj )
i=1
n
0 0
X
pi xj xj = Cov(xj , xj )
i=1
0
En substituant ces égalités ci-dessus dans d2D (xj , xj ), on obtient :
0 0 0
d2D (xj , xj ) = V ar(xj ) + V ar(xj ) − 2Cov(xj , xj )
La distance entre couple de variables s'exprime en fonction de la covariance et augmente les
variances. Elle diminue si la liaison (covariance) entre les variables est positive et augmente si la
liaison (covariance) est négative.
0 0
ˆ Si xj = 0 (origine du repère) la dernière relation de d2D (xj , xj ) devient :
d2D (xj , 0) = V ar(xj )
0
ˆ Si de plus les variables xj et xj sont centrée-réduites alors :
0
d2D (xj , 0) = V ar(xj ) = V ar(xj ) = 1 et
0 0
Cov(xj , xj ) = Cor(xj , xj )
0
En substituant dans d2D (xj , xj ), on obtient :
0 0
d2D (xj , xj ) = 2[1 − Cor(xj , xj )] ∈ [0, 4]
Cette dernière relation permet d'interprète la distance entre variables dans Rn en terme de
corrélation. C'est ainsi

Dr Rodnellin Onesime Malouata 17 La photocopie non autorisée est un délit


1.5 Principe de représentation géométrique d'un tableau des données

0 0 0
- Si Cor(xj , xj ) ' 1 les variables xj et xj sont corrélées positivement et d2D (xj , xj ) ' 0 ;
0
donc xj et xj sont très proches dans Rn
0 0 0
- Si Cor(xj , xj ) ' −1 les variables xj et xj sont corrélées négativement et d2D (xj , xj ) ' 4 ;
0
donc xj et xj sont très proches dans Rn
0 0
- Si Cor(xj , xj ) ' 0 alors d2D (xj , xj ) ' 2

Les variables sont à distance moyennes.

Remarques
La métrique D permet de dénir dans Rn le produit scalaire :
0 0
hxj , xj iD = (xj )0 Dxj

et par conséquent un projecteur D-orthogonal dans Rn :

Pv = v(v 0 Dv)−1 v 0 D avec v ∈ Rn

PX = X(X 0 DX)−1 X 0 D sur Im(X) ⊂ Rn

1.5.2.4 Variables engendrées par un tableau de données


A une variable xj on peut associer un axe de l'espace des individus Rp et un vecteur de l'espace
des variables Rn . On peut également déduire de x1 , x2 , . . . , xp de nouvelles variables par combinaison
linéaire, ce qui revient à projeter les individus sur de nouveaux axes de Rn . Considérons un axe Fu
de l'espace des individus engendré par un vecteur unitaire u (c'est-à-dire de M -norme 1 : ||u||2M =
u0 M u = 1) et projetons les individus sur cet axe (projection M -orthogonale)

La liste des coordonnées li des individus sur Fu forme une nouvelle variable ou composante, ψ .
Comme li = u0 M xi = x0i M u = hu, xi iM , on a :
 
l1
 .. 
 .  Xp
aj xj
 
ψ =  li  = XM u = Xa =
 
 ..  j=1
 . 
ln

en posant a = M u.
A la variable ψ sont donc associés trois êtres mathématiques :
- un axe u de Fu de vecteur unitaire u ;
- un vecteur ψ de Rn espace des variables ;
- une forme linéaire a appelée facteur.
L'ensemble des variables ψ que l'on peut engendrer par combinaison linéaire des vecteurs-colonnes
de X forme un sous-espace vectoriel de Rn de dimension égale (ou inférieure) à p.

Dr Rodnellin Onesime Malouata 18 La photocopie non autorisée est un délit


Analyse en Composantes Principales

Remarquons que si u appartient à l'espace des individus Rp , a appartient à son dual (Rp )∗ , et que
si u est M -normé à l, a est M −1 normé à 1 :
u0 M u = a0 M −1 a car a = M u ⇒ u = M −1 a
(Rp )∗ est donc muni de la métrique M −1
(Lorsque M = I ces distinctions disparaissent et on peut identier totalement axes et facteurs).
La variance de ψ vaut alors :
V ar(ψ) = ψ 0 Dψ = a0 V a
En eet : ψ 0 Dψ = (Xa)0 DXa = a0 X 0 DXa

1.6 Analyse
Le principe de la méthode est d'obtenir une représentation approchée du nuage des n individus
dans un sous-espace de dimension faible. Ceci s'eectue par projection.
Le choix de l'espace de projection s'eectue selon le critère suivant qui revient à déformer le moins
possible les distances en projection : le sous-espace de dimension k recherché est tel que la moyenne des
carrés des distances entre projections soit la plus grande possible. (En eet, en projection les distances
ne peuvent que diminuer). En d'autres termes il faut que l'inertie du nuage projeté sur le sous-espace
Fk soit maximale. Soit P l'opérateur de projection M -orthogonale sur Fk : P est tel que P 2 = P et
P 0M = M P .
Le nuage projeté est alors associé au tableau de données XP 0 , car chaque individu xi (ou ligne de
X ) se projette sur Fk selon un vecteur colonne P xi ou un vecteur ligne xi P 0 .

La matrice de variance du tableau XP 0 est pour des variables centrées :


(XP 0 )0 D(XP 0 ) = P V P 0
L'inertie du nuage projeté vaut donc : I = T race(P V P 0 M ). Par des opérations élémentaires on en
déduit :
I = T race(P V P 0 M ) = T race(P V M P ) car P 0 M = M P
= T race(V M P 2 ) car T race(AB) = T race(BA)
= T race(V M P ) car P est idempotent
Le problème est donc de trouver P , projecteur M -orthogonal de rang k maximisant I = T race(V M P )
ce qui déterminera donc Fk .

Si F et G sont deux sous-espaces orthogonaux alors :


IF L G = IF + IG
Il sut de remarquer que le projecteur associé à la somme directe de deux sous-espaces M -orthogonaux
est la somme des projecteurs associés à chacun des espaces.

De ce résultat on déduit le théorème fondamental suivant :

Dr Rodnellin Onesime Malouata 19 La photocopie non autorisée est un délit


1.6 Analyse

Théorème 1.1.
Soit Fk un sous-espace portant l'inertie maximale, alors le sous-espace de dimension k + 1 portant
l'inertie maximale est la somme directe de Fk du sous-espace de dimension 1 M -orthogonal à Fk
portant l'inertie maximale : Les solutions sont  emboitées .
Pour obtenir Fk on pourra donc procéder de proche en proche en cherchant d'abord le sous-espace
de dimension 1 d'inertie maximale, puis le sous-espace de dimension 1 M -orthogonal au précédent
d'inertie maximale, etc.

1.6.1 Ajustement du nuage


1.6.1.1 Coordonnées d'un point en Rp
Soit un point Li de Rp : Li = xi = (xi1 , xi2 , . . . , xij , . . . , xip ).
Soit un axe Fu engendré par un vecteur colonne quelconque u, de norme 1 ; c'est-à-dire :
v
u n
uX
||u|| = t u2i = u0 u = 1
i=1

Par dénition, la coordonnée li est égale au produit scalaire des vecteurs xi et u :


p
X
li = xi .u = xij uj
j=1

1.6.1.1.2 Ajustement du nuage par un axe suivant la méthode des moindres carrés
Soit le nuage de n points L1 , L2 , . . . , Ln en Rp .
Soit un axe Fu engendré par un vecteur unitaire u passant par l'origine des coordonnées :
u0 u = 1

a) Nous projetons les points du nuage sur l'axe Fu , de façon que la somme des carrés des distances
des points à l'axe soit minimale, c'est-à-dire que :
n
X 2
Li li minimale
i=1

Dr Rodnellin Onesime Malouata 20 La photocopie non autorisée est un délit


Analyse en Composantes Principales

2
Alors, minimiser Li li est équivalent à maximiser Oli dans le triangle rectangle OLi li .
2
On sait que Oli = Li .u donc Oli = (Li .u)0 .(Li .u) = u0 L0i Li u = u0 x0i xi u
Et
n n n
X 2 X X
Oli = u0 ( x0i xi )u = u0 X 0 Xu car x0i xi = X 0 X
i=1 i=1 i=1

Finalement, il s'agit de maximiser sous la condition u0 u = 1


u0 X 0 Xu
b) Utilisons la méthode des multiplicateurs de Lagrange : soit L la fonction de Lagrange dans
laquelle λ1 est le multiplicateur de Lagrange.

L(u, λ) = u0 X 0 Xu − λ1 (u0 u − 1)

Dérivons L par rapport à u et λ, on a :

1 ∂L
= X 0 Xu − λ1 u = 0
2 ∂u
∂L 0
=1−u u=0
∂λ1
La première équation conduit à l'équation aux valeurs et vecteurs propres suivante :

X 0 Xu = λ1 u

En plus, u0 X 0 Xu = u0 λ1 u = u0 uλ1 = λ1 .
u est vecteur propre de la matrice X 0 X associé à la plus grande valeur propre λ1 .

1.6.1.3 Ajustement du nuage par un plan suivant la méthode des moindres carrés
Maintenant, nous nous proposons d'ajuster le nuage par un plan, déterminer par l'axe Fu précédent
et par l'axe Fv engendré par un vecteur unitaire v (v 0 v = 1) passant par l'origine des coordonnées et
perpendiculaire à Fu (c'est-à-dire v 0 u = 0).
La meilleure projection du nuage sur le plan ainsi déni est équivalente à maximiser v 0 X 0 Xv sous
la contrainte v 0 v = 1 et v 0 u = 0.
Soit L la fonction de Lagrange dans laquelle λ2 et β sont des multiplicateurs de Lagrange :

L(v, λ2 , µ) = v 0 X 0 Xv − λ2 (v 0 v − 1) − βv 0 u

Dérivons L par rapport à v :


∂L
= 2X 0 Xv − 2λ2 v − βu
∂v
En annulant la dérivée, on a :
2X 0 Xv − 2λ2 v − βu = 0
En multipliant par u0 , on trouve :

2u0 X 0 Xv − 2λ2 u0 v − βu0 u = 0

Nous avons vu que u0 X 0 Xu = λ2 u0 u c'est-à-dire que u0 X 0 X = λ2 u0 et que u0 u = 1. En substituant


cette relation, il en résulte
2λ2 u0 v − 2λ2 u0 v − βu0 u = 0 =⇒ β = 0
Alors,
2X 0 Xv − 2λ2 v = 0 =⇒ X 0 Xv = λ2 v
C'est-à-dire que le vecteur v est vecteur propre de la matrice X 0 X associé à la plus grande valeur
propre λ2 .
Le maximum de v 0 X 0 Xv correspond à la seconde valeur propre λ2 de la matrice X 0 X .
L'axe Fu est le premier axe factoriel, l'axe Fv est le second axe factoriel.

Dr Rodnellin Onesime Malouata 21 La photocopie non autorisée est un délit


1.6 Analyse

1.6.1.4 Ajustement du nuage par un sous-espace vectoriel suivant la méthode des moindres
carrés
En général, on cherche le sous-espace Rq de Rp , de dimension q avec q < p (q << p en pratique).
Les vecteurs uα sont associés aux q plus grandes valeurs propres de X 0 X . On a donc :

X 0 Xuα = λα uα

Coordonnée de la projection du point-individu xi sur l'axe uα : ψ α = xi .uα = x0i .uα .


i
L'inertie des projections des points-individus sur le sous-espace Rq est :
q X
X n q
X
I= ψ 2α = λα
i
α=1 i=1 α=1

En pratique
- On calcule les p valeurs propres de X 0 X .
- On ordonne ces valeurs propres (vecteurs propres associés) de façon que : λ1 > λ2 > . . . > λp .
- Le sous-espace de dimension q et d'inertie maximale correspond aux q premiers vecteurs propres.

Interprétation par des moindres carrés


Les composantes principales sont une série d'ajustements linéaires aux données au sens des moindres
carrés.
Chaque ajustement est orthogonal à tous les ajustements précédents.

1.6.2 Eléments principaux


1.6.2.1 Axes principaux
Nous devons chercher la droite de Rp passant par g maximisant l'inertie du nuage projeté sur cette
droite.
Soit u un vecteur porté par cette droite ; le projecteur M -orthogonal sur la droite est alors :

Pu = u(u0 M u)−1 u0 M

L'inertie du nuage projeté sur cette droite vaut, d'après ce qui précède :

I = T race(V M P ) = T race V M u(u0 M u)−1 u0 M


 

1
= 0 T race(V M uu0 M )
u Mu
T race(u0 M V M u)
=
u0 M u
u0 M V M u
=
u0 M u
puisque u0 M V M u est un scalaire.
La matrice M V M est appelée matrice d'inertie du nuage ; elle dénit la forme quadratique d'inertie
qui, à tout vecteur u de M -norme 1, associe l'inertie projetée sur l'axe déni par u. La matrice d'inertie
ne se confond avec la matrice de variance-covariance que si M = I .
0
Pour obtenir le maximum de u M V Mu
u0 M u il sut d'annuler la dérivée de cette expression par rapport
u:

d u0 M V M u (u0 M u)2M V M u − u0 M V M u2M V u


 
=
du u0 M u (u0 M u)2
 0 
u MV Mu
d'où : MV Mu = Mu
u0 M u

Dr Rodnellin Onesime Malouata 22 La photocopie non autorisée est un délit


Analyse en Composantes Principales

soit : V M u = λu
car M est régulière ; donc u est vecteur propre de V M . S'il en est ainsi, le critère u0 M V M u vaut
λu0 M u = λ. Il faut donc que λ soit la plus grande valeur propre de V M .
La matrice V M étant M -symétrique possède des vecteurs propres M -orthogonaux deux à deux.

D'où le résultat suivant :


Théorème 1.2.
Le sous-espace Fk de dimension k est engendré par les k vecteurs propres de V M associés aux k plus
grandes valeurs propres.
On appelle axes principaux d'inertie les vecteurs propres de V M , M -normés à 1. Ils sont au nombre
de p.
Un calcul élémentaire montre que les axes principaux sont aussi V −1 orthogonaux : on montre
réciproquement que les axes principaux sont le seul système de vecteurs à la fois M et V −1 -orthogonaux.

Détermination des axes


Dans la pratique, on prend souvent M = I . La détermination des axes équivaut à diagonaliser la
matrice symétrique V = X 0 DX .
V = X 0 DX = AΛA−1
où Λ est la matrice diagonale des valeurs propres : Λ = diag(λj , j = 1, . . . , p) avec λ1 > λ2 > . . . > λp .
D'après les propriétés de la trace des matrices, on a :
p
X
−1 −1
I = tr(V ) = tr(AΛA ) = tr(AA Λ) = tr(Λ) = λ1 + λ2 + · · · + λp = λj
j=1

En raison des valeurs numériques décroissantes de λ1 > λ2 > . . ., la somme des premières valeurs
propres représente souvent une proportion importante de la trace de la matrice. Ainsi, dans la pra-
tique, on peut se limiter à trouver s les premières valeurs propres λ1 , λ2 , . . . , λs avec s inférieur à p.
L'information perdue est alors relativement faible

1.6.2.2 Facteurs principaux


A l'axe u est associée la forme linéaire a coordonnée M -orthogonale sur l'axe déni par u.

a est un élément de (Rp )∗ (dual de l'espace des individus) qui dénit une combinaison linéaire des
variables descriptives x1 , x2 , . . . , xp .
A l'axe principal u M -normé à 1 est associé le facteur principal a = M u.
Puisque u était vecteur-propre de V M :
V M u = λu ⇒ M V M u = λM u
Soit : M V a = λa
Les facteurs principaux sont les vecteurs propres M −1 -normés de M V . En eet, on a vu que si Rp
est muni de la métrique M , son dual doit être muni de la métrique M −1 , Donc a0 M a = 1

Les facteurs principaux sont M −1 et V -orthogonaux.

Dr Rodnellin Onesime Malouata 23 La photocopie non autorisée est un délit


1.7 Formules de reconstitutions des données

1.6.2.3 Composantes principales


Ce sont les variables ψ α (éléments de Rn ) dénies par les facteurs principaux :
ψ α = Xaα
ψ α est le vecteur renfermant les coordonnées des projections M -orthogonales des individus sur l'axe
déni par aα avec aα unitaire.
La variance d'une composante principale est égale à la valeur propre λα :
V ar(ψ α ) = λα
En eet V ar(ψ) = ψ 0 Dψ = a0 X 0 DXa = a0 V a or :
V a = λM −1 a
donc :
V ar(ψ) = a0 λM −1 a = λ
Les ψα sont les combinaisons linéaires de x1 , x2 , . . . , xp de variance maximale sous la
contrainte a0 M −1 a = 1.
Les composantes principales sont elles-mêmes vecteurs propres d'une matrice de taille n :
En eet M V a = λa s'écrit M X 0 DXa = λa ; en multipliant à gauche par X et en remplaçant Xa
par ψ on a :
XM X 0 Dψ = λψ
La matrice XM X 0 notée W est la matrice dont le terme général wij est le produit scalaire hxi , xi0 i =
x0i M xi0 .

D'où pour résumer :


Facteurs principaux a M V a = λa M −1 -orthonormés
Axes principaux u V M u = λu M -orthonormés
Composantes principales ψ XM X 0 Dψ = λψ D-orthogonales
ψ = Xa a = Mu

1.7 Formules de reconstitutions des données


Comme Xuα = ψ α en post-multipliant les deux membres par u0α M −1 et en sommant sur α il vient :
p
X p
X
X uα u0α M −1 = ψ α u0α M −1
α=1 α=1
Pp
Or 0
α=1 uα uα M
−1 = I car les uα sont M −1 orthonormés, il sut de vérier que :
p
!
X
uα u0α M −1 uα = uα car u0α M −1 uβ = δαβ
α=1
p
X
donc : X= ψ α u0α M −1
α=1
On peut ainsi reconstituer le tableau de données (centré) au moyen des composantes principales et
facteurs principaux. On a également :
p
X
MV = λα uα u0α M −1
α=1
p
X
VM = λα aα a0α M
α=1
Pp Pp √
Lorsque M = I , X = = α=1 λα wα v 0α où les wα sont les vecteurs propres de norme 1
0
α=1 ψ α uα
de XX 0 les v α les vecteurs propres de X 0 X de norme 1 (décomposition en valeurs singulières).

Dr Rodnellin Onesime Malouata 24 La photocopie non autorisée est un délit


Analyse en Composantes Principales

1.8 Interprétation des résultats


Deux phases principales ont été distinguées :

- Un bilan sur les inerties associées aux diérents facteurs, qui ne se préoccupe pas de la signication
des facteurs, mais se fonde seulement sur des indices numériques.

- L'interprétation proprement dite des facteurs, dicilement formalisable, qui donne une large
place aux connaissances sur le problème étudié extérieures au tableau de données.

1.8.1 Étude de l'inertie des facteurs


La première phase de l'analyse permet d'étudier les grands traits de la forme des nuages et l'im-
portance globale des liaisons entre variables.
Rappelons que la valeur propre (ou l'inertie liée à un facteur) est la variance des coordonnées des
points-individus sur l'axe correspondant. C'est un indice de dispersion du nuage des individus dans la
direction dénie par l'axe.
Il n'existe pas de critères simples et dénitifs qui permettent de se prononcer sur l'importance d'une
valeur propre. La première valeur propre est toujours comprise entre 1 et le nombre de variables p. Elle
vaut 1 lorsque les variables sont toutes non corrélées deux à deux. Elle est égale à p lorsqu'il existe une
liaison linéaire parfaite entre toutes les variables.
Dans le cas limite d'une première valeur propre proche de 1, on est conduit à deux attitudes diérentes
selon l'objectif de l'analyse :

ˆ considérer l'ensemble des dimensions si l'on cherche un résumé des données ;

ˆ ne considérer aucune dimension si l'on s'intéresse aux liaisons entre variables.

Enn, il est quelquefois utile de considérer le nombre de valeurs propres  pratiquement nulles , ce
qui permet de calculer la dimension réelle des données analysées.
Le diagramme des valeurs propres, appelé souvent abusivement histogramme, est utilisé surtout
pour étudier l'allure de la décroissance de ces valeurs. Le principe de lecture de ce diagramme est le
suivant : si deux facteurs sont associés à des valeurs propres presque égales, ils représentent la même
part de variabilité et il n'y a pas lieu a priori de retenir l'un et non l'autre dans l'interprétation.
Réciproquement, une forte décroissance entre deux valeurs propres successives incite à retenir dans
l'interprétation les facteurs précédant cette décroissance.
Dans la pratique, on observe souvent le phénomène suivant : les S premières valeurs propres présentent
une décroissance assez irrégulière ; puis, au delà du rang S , la décroissance est lente et régulière. Cette
allure indique que les S premiers facteurs correspondent chacun à des irrégularités dans la forme
du nuage de points étudié qui demandent à être interprétées et suggère que les facteurs suivants ne
représentent que l'inévitable bruit qui accompagne toute observation de nature statistique.
Cas extrême, une décroissance lente et régulière dès la première valeur propre traduit un nuage à peu
près  sphérique  et donc des données peu structurées dont les facteurs sont peu synthétiques. Un
diagramme de ce type présage un intérêt limité des facteurs.

1.8.2 Qualité des représentations sur les plans principaux


Le but de l'ACP étant d'obtenir une représentation des individus dans un espace de dimension
plus faible que k , la question se pose d'apprécier la perte d'information subie et de savoir combien de
facteurs retenir.

1.6.2.1 Qualité de représentation d'un nuage par un axe


Les pourcentages d'inertie
Le pourcentage d'inertie extrait par un facteur est le rapport entre l'inertie associée au facteur (i.e.
la valeur propre) et l'inertie totale du nuage étudié ; il mesure l'importance relative du facteur dans le

Dr Rodnellin Onesime Malouata 25 La photocopie non autorisée est un délit


1.8 Interprétation des résultats

tableau. Il s'agit d'une mesure globale de la qualité de reproduction de la structure du nuage. Il est
souvent utilisé sous la forme cumulée qui indique le pourcentage d'inertie extrait par les S premiers
facteurs.
Les pourcentages d'inertie des axes dénissent les "pouvoirs explicatifs" des facteurs : ils représentent
la part de la variance (ou inertie) totale prise en compte par chaque facteur. Son appréciation doit
cependant tenir compte du nombre de variables et du nombre d'individus. On mesure la qualité de Fk
par :
λ1 + λ2 + · · · + λk λ1 + λ2 + · · · + λk
QLTN = =
Ig λ1 + λ2 + · · · + · · · + λp

Si par exemple λ1I+λg


2
= 0, 9 on conçoit clairement que le nuage de points est presque aplati sur un
sous-espace à deux dimensions et qu'une représentation du nuage dans le plan des deux premiers axes
principaux sera très satisfaisante.
Un taux d'inertie (relatif à un axe) égal à 10% peut être une valeur importante si le tableau possède
100 variables et faible s'il n'en a que 10.
Du fait de la dualité, il est équivalent de calculer ces pourcentages d'inertie à partir du nuage NI
des individus ou NJ des variables.

1.6.2.2 Qualité de représentation d'un élément (individu ou variable) par un axe


La qualité de représentation d'un élément i par l'axe a est donnée par le rapport de l'inertie de la
projection de l'élément i sur l'axe a et de l'inertie totale de l'élément i.
Il faut en fait envisager pour chaque individu i la qualité de sa représentation. Celle-ci est souvent
dénie par le cosinus de l'angle entre le plan principal et le vecteur a. On le dénit par :

Gi2
QLTa (i) = = cos2 θ
GH 2

où θ est l'angle formé par l'individu i et l'axe a.


Si ce cosinus est grand, i est voisin du plan, on pourra alors examiner la position de sa projection
sur le plan par rapport à d'autres points ; si ce cosinus est faible on se gardera de toute conclusion.
N.B. : Cette mesure du cosinus est d'autant meilleure que i est éloigné de g ; si i est proche de g,
la valeur du cosinus peut ne pas être signicative.

1.8.3 Aides à l'interprétation


a) Des variables actives
Il est naturel de commencer l'examen détaillé des graphiques par ce que l'on connaît le mieux.
Généralement, les variables sont moins nombreuses et plus chargées de sens que les individus.

Interprétation axe par axe


On recense les variables actives les plus liées à chaque axe. Deux situations typiques peuvent se
produire.

? Possibilité d'apparition de l'eet "taille"


Toutes les variables très liées au facteur sont situées d'un même côté de l'axe. Le facteur apparaît
alors comme une synthèse entre ces variables.
L'analyse du nuage des variables se faisant à partir de l'origine, les variables peuvent être toutes
situées du même côté d'un axe factoriel. Une telle disposition apparaît lorsque toutes les variables
sont corrélées positivement entre elles. Si pour un individu, une variable prend une valeur forte,
toutes les autres variables prennent également des valeurs fortes. Cette caractéristique apparaît
le plus souvent sur le premier axe, que l'on appelle alors "eet taille" ou "facteur taille".

Dr Rodnellin Onesime Malouata 26 La photocopie non autorisée est un délit


Analyse en Composantes Principales

Figure 1.2  Exemple d'eet taille

On peut lire, par exemple sur la gure ci-dessus, que les individus 4 et 5 ont des comportements
semblables caractérisés par des valeurs faibles pour les trois variables, alors que les individus 2
et 8 ont au contraire simultanément des bons "scores" pour ces mêmes variables. L'orthogonalité
des axes fait qu'il ne peut exister qu'un seul facteur taille.

? Opposition des variables


Les variables très liées au facteur présentent une coordonnée positive pour les unes et négative
pour les autres. Il faut alors rechercher un dénominateur commun qui, à la fois, relie les variables
situées du même côté et oppose les variables situées de part et d'autre de l'origine.

Interprétation par plan


La méthode la plus naturelle pour donner une signication à une composante principale ψ est de
la relier aux variables initiales xj en calculant les coecients de corrélation linéaire cor(ψ; xj ) et en
s'intéressant aux plus forts coecients en valeur absolue.
En eet :
ψ 0 Dz j ψ 0 Dz j
cor(ψ; xj ) = cor(ψ; z j ) = q = √ car var(ψ) = λ
var(ψ) λ

or ψ = Zu où u, facteur principal associé à ψ , est vecteur propre de R associé à la valeur propre λ :

(z j )0 DZu
cor(ψ; xj ) = √
λ

(z j )0 DZu est la j eme ligne de Z 0 DZ = R, donc (z j )0 DZu est la j eme composante de Ru. Comme
Ru = λu, il vient :

cor(ψ; xj ) = λuj

Ces calculs s'eectuent pour chaque composante principale. Pour un couple de composantes principales
ψ 1 et ψ 2 par exemple on synthétise usuellement les corrélations sur une gure appelée  cercle des
corrélations  où chaque variable xj est repérée par un point d'abscisse cor(ψ 1 ; xj ) et d'ordonnée
cor(ψ 2 ; xj ).
Ainsi la gure ci-dessous montre une première composante principale très corrélée positivement
avec les variables 1, 2 et 3, anticorrélée avec les variables 4 et 5 et non corrélée avec 6, 7 et 8.

Dr Rodnellin Onesime Malouata 27 La photocopie non autorisée est un délit


1.8 Interprétation des résultats

Par contre la deuxième composante principale oppose la variable 8 aux variables 6 et 7. On se


gardera d'interpréter des proximités entre points variables, si ceux-ci ne sont pas proches de la circon-
férence.
Dans le cas de la métrique D1/s2 c'est-à-dire, rappelons-le, de l'ACP sur données centrées-réduites, le
cercle des corrélations n'est pas seulement une représentation symbolique commode : c'est la projection
de l'ensemble des variables centrées-réduites sur le sous-espace engendré par ψ 1 et ψ 2 .
Le cercle de corrélation est donc, dans l'espace des variables, le pendant exact de la projection des
individus sur le premier plan principal.
Pp
Comme λ = j=1 cor
2 (ψ
α
; xj ) on appelle parfois contribution de la variable j à l'axe α le rapport :

cor2 (ψ α ; xj )
(ujα )2 =
λ
mais cette quantité ne présente que peu d'intérêt en ACP et n'apporte rien de plus que le coecient
de corrélation.

b) Des variables supplémentaires


L'ACP permet permet aussi de positionner, dans ce sous-espace, des éléments (points-lignes ou
points-colonnes du tableau de données) n'ayant pas participé à l'analyse qui sont appelés éléments
supplémentaires ou illustratifs. Ces éléments supplémentaires interviennent a posteriori pour carac-
tériser les axes. Leur introduction dans l'analyse factorielle constitue un apport fondamental car elle
permettra d'expliquer et d'enrichir l'interprétation des facteurs.

b) Des individus
Si les individus ne sont pas anonymes pour l'étude, on s'intéresse à ceux qui participent à la
formation des axes.
La contribution de l'individu i (de poids pi ) à l'inertie de l'axe α est dénie par :
pi ψα2 i
Crα (i) =
λα

où λα est l'inertie de l'axe α et pi ψα2 i est la contribution de l'individu i à l'inertie de cet axe. On a :
n
X
Crα (i) = 1
i=1

On s'intéressera surtout aux individus qui ont les plus fortes contributions relatives aux axes.

Dr Rodnellin Onesime Malouata 28 La photocopie non autorisée est un délit


Analyse en Composantes Principales

Lorsque les n individus sont aectés d'une même masse égale à 1/n, l'inertie d'un point varie comme
sa distance au centre de gravité. Les individus qui contribuent le plus à la détermination de l'axe sont les
plus excentrés et l'examen des coordonnées factorielles ou la lecture du graphique susent à interpréter
les facteurs dans ce cas. La représentation des individus sur le plan factoriel permet d'apprécier leur
répartition et de repérer des zones de densités plus ou moins fortes.

Dr Rodnellin Onesime Malouata 29 La photocopie non autorisée est un délit


1.8 Interprétation des résultats

Dr Rodnellin Onesime Malouata 30 La photocopie non autorisée est un délit


Chapitre 2
Analyse Factorielle des Correspondances

2.1 Introduction
L'analyse Factorielle des Correspondances (AFC) a été développée par Benzécri (1969). C'est une
méthode adaptée aux tableaux de contingence et permet d'étudier les éventuelles relations existant
entre deux variables nominales. Le tableau de contingence (dit aussi de dépendance, ou croisé) est
obtenu en ventilant une population selon deux variables. Cette méthode n'est pas un cas particulier
de l'Analyse en Composantes Principales (ACP) bien que l'on puisse se ramener à cette technique en
faisant un changement des variables appropriés (à condition de traiter chaque espace séparément).
L'ensemble des colonnes du tableau désigne les modalités d'une variable et l'ensemble des lignes corres-
pond à celles de l'autre variable. De ce fait, les lignes et les colonnes, désignent deux partitions d'une
même population, jouent des rôles symétriques et sont traitées de façon analogue.

2.2 Données et notations


On considère le tableau de contingence K = [kij ] i∈I à I lignes et J colonnes obtenu en mettant
j∈J
en correspondance deux ensembles que l'on a coutume de noter I et J . kij est le nombre d'individus
possédant à la fois la modalité i de la première variable et la modalité j de la seconde.

Figure 2.1  Tableau des données brutes


On note k = kij le nombre total d'individus.
P P
i∈I j∈J

2.2.1 Les marges


Au tableau brut, on adjoint une ligne de marge dont le j e terme est la somme des nombres inscrits
dans la j e colonne (somme appelée total de la j e colonne ou total marginal k.j ) et une colonne de

31
2.2 Données et notations

marge dont le ie terme est la somme des nombres inscrits dans la ie ligne (somme appelée total de la
ie ligne ou total marginal ki. ).
Le total de la ligne de marge est égal au total de la colonne de marge ; c'est la somme de tous les
nombres inscrits dans le tableau brut : on le note k .
On a les relations suivantes : X X
ki. = kij k.j = kij
j∈J i∈I

On considère souvent le tableau des fréquences relatives F , obtenu en divisant chaque eectif kij par
l'eectif total k . Ce nouveau tableau dénit une mesure de probabilité sur l'ensemble produit I × J .
Ses marges, ou probabilités marginales, ont pour terme général fi. pour la marge-colonne et f.j pour
la marge-ligne (voir gure)

Figure 2.2  Tableau F des fréquences relatives et ses marges

On a les relations suivantes :


kij X X X X XX
fij = fi. = fij f.j = fij fi. = f.j = fij = 1
k
j∈J i∈I i∈I j∈J i∈I j∈J

Un tableau de contingence exprime la liaison entre deux variables qualitatives.

2.2.2 Dénition (Indépendance)


Classiquement, pour une mesure de probabilité, on dit qu'il y a indépendance entre deux variables
lorsque, pour i et pour tout j , on a l'égalité :

fij = fi. f.j

Il y a liaison entre deux variables dès que certaines cases du tableau fij dièrent du produit fi. f.j . Si
fij est supérieur à ce produit, les modalités i et j s'associent plus qu'elles ne le font dans l'hypothèse
d'indépendance : on dit que i et j s'attirent. Au contraire, si fij est inférieur au produit des marges,
i et j s'associent moins que dans l'hypothèse d'indépendance : on dit qu'il y a répulsion entre ces
deux modalités.
L'indépendance s'exprime aussi en considérant le tableau comme un ensemble de lignes. En eet,
l'égalité ci-dessus est équivalente à l'égalité :
fij
= f.j
fi.
La quantité f.j représente le pourcentage de la population totale qui possède la modalité j tandis
f
que fiji. représente ce même pourcentage dans la sous-population possédant la modalité i. Lorsqu'il
y a indépendance, les I sous-populations caractérisées par les modalités i de la première variables se

Dr Rodnellin Onesime Malouata 32 La photocopie non autorisée est un délit


Analyse Factorielle des Correspondances

répartissent selon les J modalités j de la deuxième variable avec les mêmes pourcentages. Toutes les
lignes sont alors proportionnelles. La réciproque est vraie : lorsque les lignes sont proportionnelles,
elles sont proportionnelles à la marge f.j et les deux variables sont indépendantes. Il y a donc liaison
dès lors les lignes ne sont pas toutes proportionnelles à la marge, c'est-à-dire lorsqu'elles ne sont pas
identiques du point de vue de leur association avec l'ensemble des colonnes.
Remarquons que dans un tableau de contingence les lignes et les colonnes jouent un rôle absolument
symétrique : l'indépendance s'exprime de la même façon sur l'ensemble des colonnes. Les deux égalités
ci-dessus sont en eet équivalentes à la suivante :

fij
= fi.
f.j

Il y a indépendance lorsque tous les pourcentages en colonnes sont égaux à la marge fi. , c'est-à-dire
lorsque les colonnes sont proportionnelles. Il y a liaison lorsqu'elles ne le sont pas.

2.3 Objectifs
Bien que le tableau soit de nature très diérente à celui étudié en ACP, les objectifs de l'AFC
peuvent s'exprimer de manière analogue à ceux de l'ACP : on cherche à obtenir une typologie des
lignes, une typologie des colonnes et relier ces typologies entre elles ; mais la notion de ressemblance
entre deux lignes ou entre deux colonnes, est diérente de celle de l'ACP. Dans un tableau de contin-
gence, la ressemblance, entre deux lignes d'une part et entre deux lignes d'autre part, s'exprime de
manière totalement symétrique. Deux lignes sont considérées comme proches s'il elles s'associent de
la même façon à l'ensemble des colonnes, si elles s'associent trop (trop peu) aux mêmes colonnes ; les
termes "trop" et "trop peu" sont pris en référence à la situation d'indépendance. Symétriquement,
deux colonnes sont proches si elles s'associent de la même façons à l'ensemble des lignes.

Schématiquement, l'étude de l'ensemble des lignes revient à mettre en évidence une typologie dans
laquelle on cherche les lignes dont la répartition s'écarte de plus de celle de l'ensemble de la popula-
tion, celles qui se ressemblent entre elles (dans le sens précisé ci-dessus) et celle qui se opposent. Pour
mettre en relation la typologie des lignes avec l'ensemble des colonnes, on caractérise chaque groupe
de lignes par les colonnes auxquelles ce groupe s'associe trop ou trop peu.
L'étude de l'ensemble des colonnes des colonnes est absolument analogue.
Cette approche, grâce à la notion de ressemblance utilisée, permet d'étudier les liaisons entre les deux
variables, c'est-à-dire l'écart du tableau à l'hypothèse d'indépendance. L'analyse de cette liaison est
l'objectif fondamental de l'AFC.

2.4 Transformation des données en prols


2.4.1 Notion de prol
En AFC, le tableau brut n'est pas analysé directement. Dans l'étude des lignes, le tableau des
données est transformé en divisant chaque terme fij de la ligne i par la marge f.j de cette ligne. La
nouvelle ligne est appelée prol-ligne.
On note : fJi le prol de i (ou prol de la ligne i) ; on écrit : fJi = {fij /i = 1, . . . , I}, ensemble des fij
pour j parcourant J .
Cette transformation découle de l'objectif qui vise à étudier la liaison entre les deux variables au travers
de l'écart entre les pourcentages en lignes. Elle se justie aussi de façon directe puisque la comparaison
de deux lignes du tableau brut risque d'être inuencée principalement par leurs eectifs marginaux.

Dr Rodnellin Onesime Malouata 33 La photocopie non autorisée est un délit


2.5 Ressemblance entre prols : Distance du χ2

Figure 2.3  Prol-ligne (à gauche) et prol-colonne (à droite). GI et GJ : prols marginaux

f
Le nombre fiji. représente, par exemple, la probabilité d'occuper un emploi de la catégorie j sachant
que l'on détient le niveau de diplôme i. Le prol-ligne i n'est rien que la loi de probabilité conditionnelle
dénie par i sur l'ensemble des colonnes. Pour analyser l'écart à l'indépendance, on confronte ces prols
au prol ligne marginal (=établit sur l'ensemble de la population) de terme général f.j et noté GI .
Du fait du rôle symétrique joué par les lignes et les colonnes, un raisonnement peut être mené à propos
des colonnes. Il conduit à la notion de prol-colonne.
L'AFC s'intéresse particulièrement aux prols c'est-à-dire aux eectifs marginaux des tableaux.
Dans cette partie, on prend I = n et J = p.
Les transformations opérées sur le tableau des données peuvent s'écrire à partir de trois matrices F ,
Dn et Dp qui dénissent les éléments de base de l'analyse.
F d'ordre (n, p) désigne un tableau des fréquences relatives ; Dn d'ordre (n, n) est la matrice diagonale
dont les éléments diagonaux sont les marges en lignes fi. ; Dp d'ordre (p, p) est la matrice diagonale
dont les éléments diagonaux sont les marges en colonnes f.j .

2.5 Ressemblance entre prols : Distance du χ2


En AFC, la ressemblance entre deux lignes ou deux colonnes est dénie par une distance entre leurs
prols connue sous le nom de distance du χ2 . Elle est dénie de façon symétrique pour les lignes et
pour les colonnes.  
xi1
 .. 
 . 
• Le nuage N (I) est composé des n points-lignes X =   xij , situés dans R , dotés chacun de la
i
  p

 .. 
 . 
xip
f
masse f.j et de coordonnée courante xij = fiji. .
On use N (I) de la métrique du χ2 centrée sur la distribution marginale-colonnes de sorte que
p p
fi0 j 2
 
i i0
X 1 2
X 1 fij
dχ2 (X , X ) = (xij − xi0 j ) = −
f.j f.j fi. fi0 .
j=1 j=1

y1j
 .. 
 . 
• Le nuage N (J) est composé des p points-lignes Y = 
 yij , situés dans R , dotés chacun de la
j
  n

 .. 
 . 
ynj
fij
masse fi. et de coordonnée courante yij = f.j .

Dr Rodnellin Onesime Malouata 34 La photocopie non autorisée est un délit


Analyse Factorielle des Correspondances

On use N (J) de la métrique du χ2 centrée sur la distribution marginale-lignes de sorte que


p n
fij 0 2
 
j
X 1 j0 2
X 1 fij
dχ2 (Y , Y ) = (yij − yij ) =
0 −
fi. fi. f.j f.j 0
j=1 i=1

Pour distinguer les deux nuages N (I) et N (J), il est convenu d'appeler l'un (quelconque) des deux
nuages le "nuage direct" ; l'autre est alors appelé "nuage dual". On distingue ainsi les analyses facto-
rielles, en parlant d'analyse directe et d'analyse duale.

2.5.1 L'équivalence distributionnelle


La distance du χ2 a pour eet d'accorder une même importance, d'une part aux colonnes quelque
soient leurs fréquences relatives dans le calcul de la distance entre deux prols-lignes, et d'autre part
aux lignes s'il s'agit du calcul de la distance entre prols-colonnes.
Le principe d'équivalence distributionnelle s'exprime de la façon suivante : si deux individus i1 et i2
ont même prol, il est logique de les regrouper en une seule de fréquence (fi1 j + fi2 j ), il faut alors que
cette opération ne modie pas les distances entre prols-lignes.
En eet, si deux points-lignes i1 et i2 sont confondus dans Rp , on a :
fi1 j fi j fi j fi j + fi2 j fi j
∀j, = 2 = 0 =⇒ 1 = 0 =⇒ fi1 j + fi2 j = fi0 j
fi1 . fi2 . fi0 . fi1 . + fi2 . fi0 .
car les dénominateurs sont égaux.
0
Les calculs des quantités f.j = ni=1 fij ne sont pas aectés et les distances dχ2 (Y j , Y j ) ne sont pas
P
modiées.
0
Montrons que les distances dχ2 (Y j , Y j ) entre colonnes ne changent pas.
p n
fij 0 2
 
j j0
X 1 2
X 1 fij
dχ2 (Y , Y ) = (yij − yij ) =
0 −
f f f.j f.j 0
j=1 i. i=1 i.

f1j 0 2 fi1 j 0 2 fi2 j 0 2


     
1 f1j 1 fi1 j 1 fi2 j
= − + ··· + − + − + ···
f1. f.j f.j 0 fi1 . f.j f.j 0 fi2 . f.j f.j 0
f 0 2 f 0 2
   
f f
Posons A(i1 ) = fi1 . fi.j1 j − fi1 j0 et A(i2 ) = fi1 . fi.j2 j − fi2 j0 .
1 .j 2 .j

2
fi2 j 0 2
  
1 1 fi1 j fi j 0
fi2 j
=⇒ A(i1 ) + A(i2 ) = + − 1 −
fi1 . f.j
fi2 . f.j f.j 0 f.j 0
2
fi2 j 0 2
  
fi1 j fi1 j 0 fi2 j
= fi1 . − + fi2 . −
fi1 . f.j fi1 . f.j 0 fi2 . f.j fi2 . f.j 0
fi1 j fi2 j fi 0 j
Comme fi 1 . = fi 2 . = fi 0 . et que fi1 j + fi2 j = fi0 j

fi1 j 0 2 fi1 j 0 2
   
fi1 j fi1 j
=⇒ A(i1 ) + A(i2 ) = fi1 . − + fi2 . −
fi1 . f.j fi1 . f.j 0 fi1 . f.j fi1 . f.j 0
 2
fi1 j fi1 j 0
= (fi1 . + fi2 . ) −
fi1 . f.j fi1 . f.j 0
 2
fi1 j fi1 j 0
= fi0 . −
fi1 . f.j fi1 . f.j 0
fi0 j 0 2
 
fi0 j
= fi0 . −
fi0 . f.j fi0 . f.j 0
fi0 j 0 2
 
1 fi0 j
= −
fi0 . f.j f.j 0
= A(i0 )

Dr Rodnellin Onesime Malouata 35 La photocopie non autorisée est un délit


2.6 Critère à maximiser et matrice à diagonaliser

0
D'où l'invariance de la distance dχ2 (Y j , Y j ).
f f
Dans cette démonstration, on peut remarquer que s'il existe deux individus i1 et i2 tels que fii1 j. = fii2 j. ,
1 2
alors on peut remplacer les deux lignes i1 et i2 par une ligne i0 tel que fi1 j + fi2 j = fi0 j sans que
0
les distances dχ2 (Y j , Y j ) à l'intérieur de N (J) soient modiées. Ensuite, il est facile de constater que
fi1 j fi 2 j
fi 1 . = fi 2 . alors dχ2 (X i1 , X i2 ) = 0

2.5.2 ACP non centrées et facteur trivial


Lorsqu'on dispose d'un tableau de contingence, deux ACP sont possibles :

1. Celle du nuage des prols-lignes dans Rn avec :

ˆ le tableau de données : X = F 0 Dn−1 ;


 fi 0 j
2
Pp fij
ˆ la métrique M = Dp−1 et la distance d2 (i, i0 ) = 1
j=1 f.j fi. − fi 0 . ;
ˆ la métrique des poids : = Dn−1

2. Celle du nuage des prols-colonnes dans Rp avec :

ˆ le tableau de données : X = F Dp−1 ;


 fij 0
2
Pn fij
ˆ la métrique M = Dn−1 et la distance d2 (j, j 0 ) = 1
i=1 fi. f.j − f.j 0 ;

ˆ la métrique des poids : = Dp−1

On se place dans les deux espaces aux centres de gravité des nuages. Cependant, et c'est là une des
particularités de l'analyse des correspondances, il est équivalent de procéder à l'analyse par rapport à
l'origine ou par rapport aux centres de gravité, à condition de négliger le premier cas de l'axe factoriel
qui joint l'origine au centre de gravité.
On constate que les deux analyses conduisent aux mêmes valeurs propres et que les facteurs principaux
de l'une sont les composantes principales de l'autre, à coecient multiplicateur près.

2.6 Critère à maximiser et matrice à diagonaliser


Dans l'espace des colonnes Rp , l'AFC consiste à maximiser la fonction :

f (u) = V ar(Xu) sous la contrainte u0 Dp−1 u = 1

Avec X = F Dp−1 , cette fonction peut encore s'écrire :

f (u) = u0 Dp−1 F 0 Dn−1 F Dp−1 u sous la contrainte u0 Dp−1 u = 1

Propriété 2.1. La solution de l'AFC dans l'espace Rp vérie la relation :


F 0 Dn−1 F Dp−1 u = λu

Donc, u est vecteur propre de la matrice S = F 0 Dn−1 F Dp−1 associé à la plus grande valeur propre λ.
f f 0
La matrice S a pour terme général sjj 0 = ni=1 fiji. f.jij0
P

De la même façon, dans Rn , on doit maximiser :

f (v) = v 0 Dn−1 F Dp−1 F 0 Dn−1 v sous la contrainte v 0 Dn−1 v = 1

Par analogie, v est vecteur propre de la matrice T = F Dp−1 F 0 Dn−1 associé à la plus grande valeur
propre λ.

Dr Rodnellin Onesime Malouata 36 La photocopie non autorisée est un délit


Analyse Factorielle des Correspondances

Démonstration. Maximiser une fonction sous contrainte revient à maximiser le Lagrangien, déni par :
L = u0 Dp−1 F 0 Dn−1 F Dp−1 u + λ(1 − u0 Dp−1 u)

En dérivant ce Lagrangien par rapport à u et λ, il en résulte :


∂L
= 2Dp−1 F 0 Dn−1 F Dp−1 u − 2λu = 0
∂u
∂L
= 1 − u0 Dp−1 u = 0
∂λ
La matrice Dp−1 est régulière, alors F 0 Dn−1 F Dp−1 u = λu

2.6.1 Projection du nuage N (I) sur un axe


On projette orthogonalement le nuage N (I) sur un axe (espace vectoriel de dim 1) de vecteur
unitaire u, de telle façon que l'information perdue soit minime.
Comme en ACP, ce qui revient à max u0 Su, sous la condition u0 u = 1, avec S est la matrice des
variances-covarainces de N (I).
Ce qui revient à trouver la valeur propre la plus grande λmax de S .

2.6.2 Matrice des variances-covariances


 
s11 . . . s1j . . . s1p
 .. .. .. 
 . . . 
 
S = S(p,p) = s
 j1 . . . sjj . . . sjp  = (sjj 0 ) 1≤j≤p
 .. .. ..  1≤j 0 ≤p
 . . . 
sp1 . . . spj . . . spp
La variance sjj caractérise la dispersion du nuage tout au long de l'axe j :
n 2 Xn
(fij − fi• f•j )2

X fij
sjj = fi• − f•j =
fi• fi•
i=1 i=1

La covariance sjj 0 est


n   
X fij fij 0
sjj 0 = fi• − f•j − f•j 0
fi• fi•
i=1

2.6.3 Notion d'inetie


a-Variabilité totale du nuage N (I)
On appelle variabilité totale du nuage N (I), la trace de la matrice S
p
X
IS = trace(S) = sjj 0
j=1

On parle aussi de la variabilité totale du nuage projeté C(I) qui sera

IS = λmax

2.6.4 Variabilité expliquée du nuage N (I)


La partie de variabilité expliquée par la projection de N (I), sur u est alors :
Is λmax
δ= =
IB tr(S)

Dr Rodnellin Onesime Malouata 37 La photocopie non autorisée est un délit


2.6 Critère à maximiser et matrice à diagonaliser

2.6.5 Axes factoriels et facteurs

Dans Rp Éléments de constructio Dans Rn


S = F 0 Dn−1 F Dp−1 Matrice à diagonaliser T = F Dp−1 F 0 Dn−1
Suα = λα uα Axe factoriel T v α = λα v α
ψ = Dn−1 F Dp−1 uα , Composante factorielle φα = Dp−1 F 0 Dn−1 v α ,
α
f f
ψ α = pj=1 fi.ijfj. uαi φαi = ni=1 fi.ijfj. vαi
P P
i

Les composantes factorielles sont centrées


n
X p
X
fi. ψ α = f.j φαi = 0
i
i=1 j=1

et de variance
n
X
V ar(ψ ) = fi. ψ 2α = λα
α i
i=1
Xn
V ar(φα ) = fi. φ2αi = λα
i=1

2.6.6 Relation de transition entre les deux espaces


Les vecteurs unitaires uα de S et v α de T vérient les relations dites de transitions :

1 0 −1
 uα = √λα F Dn v α

 v = √1 F D −1 u

α λα p α

Les composantes factorielles ψ et φα sont liées par les formules :


α
 √ −1
 ψ α = λα Dn v α

 φ = √λ D−1 u

α α p α

C'est-à-dire, explicitement  √
λα
 ψ αi =
 fi. v αi



 φ = λα
αj f.j uαj

2.6.7 Relation de transition (ou quasi-barycentrique)


Les composantes des points-lignes et des points-colonnes sur l'axe α, vérient les relations fonda-
mentales quasi barycentriques suivantes :
1 Pp fij

 ψ αi = √λα j=1 fi. φαj (1)

Pn fij
√1

 φ =
αj λα i=1 fi. ψ αi (2)
1. ψ α : projection de la ligne i sur l'axe αi de N (I)
i

2. φαj : projection de la colonne j sur l'axe αj de N (J)


Ainsi, au coecient de dilatation √1λ près, les projections des points représentatifs d'un nuage sont,
α
sur un axe, les barycentres des projections des points représentatifs de l'autre nuage.
La relation (1) montre que la coordonnée de la modalité i d'une des variables est la moyenne des
modalités j de l'autre variable pondérées par les fréquences conditionnelles du prophil de i.
De même, la relation (2) montre que la coordonnée de la modalité j est la moyenne de l'ensemble des
modalités i pondérées par les fréquences conditionnelles du prol de j .

Dr Rodnellin Onesime Malouata 38 La photocopie non autorisée est un délit


Analyse Factorielle des Correspondances

2.7 Formule de reconstitution des données


La formule de reconstitution des données pour des vecteurs ψ et φα de norme 1 est dénie par :
α
p
X p
fij = fi. f.j λα ψ α φαj
i
j=1

Elle s'écrit aussi, en faisant intervenir la première valeur propre qui vaut 1, et les facteurs correspondants
p
X p
fij = fi. f.j (1 + λα ψ α φαj )
i
j=1

Cette formule permet de recalculer les valeurs du tableau initial en fonction des marges et des facteurs.

2.8 Règle d'interprétation : Inertie, contribution et cosinus


Les nuages de points-lignes et des points-colonnes vont être représentés dans les plans de projection
formés par les premiers axes pris deux à deux.

2.8.1 Inertie et test d'indépendance


Dans Rp , le centre de gravité G s'écrit :
n
X fij
gj = fi. = f.j
fi.
i=1

f f
L'analyse par rapport au centre de gravité revient à remplacer fiji. par fiji. − f.j .
En AFC, la valeur de l'inertie globale est liée au test classique du χ2 . L'inertie totale I du nuage de
points par rapport au centre de gravité G s'écrit par dénition
n
X p
X
I= fi. d2 (i, G) = f.j d2 (j, G)
i=1 j=1
 2
Pn fij fi. f.j
or d2 (j, G) = 1
i=1 fi. f.j − f.j , ceci implique
p
n X
X (fij − fi. f.j )2
I=
fi. f.j
i=1 j=1

L'eectif total étant k , on reconnaît en kI la statistique qui est asymptotiquement distribuée suivant
la loi du χ2 à (n − 1)(p − 1) degrés de liberté (sous l'hypothèse d'indépendance) :

χ2 = kI

L'inertie s'exprime également par :


p−1
X
I= λα
jα=1

On pourra rejeter l'hypothèse nulle d'indépendance des variables en lignes et en colonne si la valeur
observée χ2 dépasse la valeur χ20 qui a une probabilité d'être dépassée inférieure à un seuil xé au
préalable.
La valeur de l'inertie est un indicateur de la dispersion du nuage et mesure la liaison entre deux
variables.
L'indicateur χ2 mesure la signicativité (une liaison forte peut ne pas être signicative si elle est
observée sur très peu d'individus ; une liaison faible peut être signicative si elle est observée sur
beaucoup d'individus).

Dr Rodnellin Onesime Malouata 39 La photocopie non autorisée est un délit


2.8 Règle d'interprétation : Inertie, contribution et cosinus

2.8.2 Contribution
Les contributions, parfois appelées contributions absolues, qui expriment la part prise par une
modalité de la variable dans l'inertie (ou variance) expliquée par un facteur. On cherche à connaître
les éléments responsables de la construction de l'axe α.
calculons la variance des coordonnées des n points-ignes i sur l'axe α, chacun d'eux étant muni de la
masse fi. .
L'origine étant prise au centre de gravité, les coordonnées factorielles sont centrées et la variance vaut
λα .
ainsi le quotient :
fi. ψ 2α
i
Crα (i) =
λα
mesure la part de l'élément i dans la variance prise en compte sur l'axe α. Ce quotient est appelé
contribution de l'élément i à l'axe α et permet de savoir dans laquelle proportion un point i contribue
à l'inertie λα du nuage projeté sur l'axe α.
On notera que pour tout axe α
Xn
Crα (i) = 1
i=1
De la même façon, on dénit la contribution de l'élément j à l'axe α par :
fj. φ2αj
Crα (j) =
λα
avec la relation
p
X
Crα (j) = 1
j=1
Pour trouver une éventuelle signication à un axe , on s'intéresse d'abord aux points ayant une forte
contribution. ce sont eux xent la position de l'axe (dans Rp pour les points i, et dans Rn pour les
points j ).

2.8.3 Cosinus carré


Les cosinus carrés, parfois appelés contributions relatives ou qualité de représentation, qui expriment
la part prise par un facteur dans la dispersion d'une modalité de la variable. On cherche à apprécier si
un point est bien représenté sur un sous-espace factoriel.
Les axes factoriels de chaque espace constituent des bases orthonormées
le carré des coordonnées sur ces axes. pour un point i de Rp , on a :
p
f.j f.j 2
 
2
X 1 fij
d (i, G) = −
f.j fi. f.j
j=1

On remarquera que la distance s'annule lorsque le prol du point est égal au prol moyen.
Le carré de la projection de la variable i sur l'axe α vaut
d2α (i, G) = ψ 2α
i

Notons que d2α (i, G) = d2 (i, G)

Figure 2.4  Projection du point i sur l'axe α

Dr Rodnellin Onesime Malouata 40 La photocopie non autorisée est un délit


Analyse Factorielle des Correspondances

La qualité de la représentation du point i sur l'axe α peut-être évaluée par le cosinus de l'angle
entre l'axe et le vecteur joignant le centre du nuage au point i :

d2α (i, G) ψ 2α
cos2α (i) = 2 = 2 i
d (i, G) d (i, G)

Cette quantité, appelée cosinus carré, représente la part de la distance au centre prise en compte dans
la direction α on l'appelle aussi contribution relative du facteur à la position du point i.
Plus le cosinus carré est proche de 1, plus la position du point observé en projection est proche de la
position réelle du point dans l'espace.

Figure 2.5  Qualité de représentation d'un point i sur l'axe α


On apprécie la qualité de représentation d'un point dans un plan en faisant la somme des cosinus
carrés sur les axes étudiés.P
Notons que pour tout i : α cos2α (i) = 1
Ce qui vient d'être dit des n points-lignes peut être transposé aux p éléments de l'autre ensemble. on
mesure la contribution relative du facteur α à la position du point j par le cosinus carré de j :

φ2αj
cos2α (j) =
d2 (j, G)

et l'on a également pour tout j : α cos2α (j) = 1


P
Pour analyser les proximités entre points, on s'intéresse surtout au point ayant un cosinus carré élevé.
Les proximités entre ces points, observés dans le sous-espace factoriel, donnent une image de leurs
proximités réelles.

2.9 Conclusion
L'AFC est une méthode puissante pour synthétiser et résumer de vastes tableaux de contingence. En
pratique elle est appliquée à beaucoup d'autres tableaux, notamment les tableaux individus-variables.
Les individus sont alors considérés comme une variable.
Dans le cas de tableaux de contingence, le principal objectif de cette analyse est de dégager les liaisons
entre deux variables.

Dr Rodnellin Onesime Malouata 41 La photocopie non autorisée est un délit


2.9 Conclusion

Dr Rodnellin Onesime Malouata 42 La photocopie non autorisée est un délit


Chapitre 3
Analyse Factorielle Discriminante

3.1 Introduction
On désigne sous le nom d'analyse discriminante une famille de techniques destinées à classer (aecter
à des classes préexistantes) des individus caractérisés par un certain nombre de variables numériques
ou nominales.
L'origine de cette méthode remonte aux travaux de Ficher ou, de façon moins directe, à ceux de
Mahalanobis (1936). Elle est une des techniques 'analyse multidimensionnelle les plus utilisées en
pratique (prévision de risques, reconnaissance des formes, contrôle qualité, diagnostique automatique,
credit-scoring).
L'analyse factorielle discriminante (AFD) ou analyse linéaire discriminante, est une méthode à la fois
descriptive et prédictive, qui donne lieu, à des calculs d'axes principaux.

3.2 Formulation du problème et notation


On dispose de n individus ou observations décrits par un ensemble de p variables (x1 , x2 , . . . , xp )
et répartis en q classes dénies à priori par la variable y nominale à q modalités (le vecteur y a
des composantes entières donnant les numéros des classes), et Y désigne le tableau disjonctif (n, q)
correspondant.
L'analyse discriminante se propose dans un premier temps de séparer au mieux les q classes à l'aide des
p variables explicatives. Dans un deuxième temps, elle cherche à résoudre le problème de l'aectation
d'individus nouveaux, caractérisés par les p variables, à certaines classes déjà identiées sur l'échantillon
des n individus (appelé échantillon d'apprentissage).
On distingue par conséquent deux démarches successives, d'ordre descriptif puis décisionnel :

ˆ chercher des fonctions linéaires discriminantes sur l'échantillon d'apprentissage de taille n qui
sont les combinaisons linéaires des variables explicatives (x1 , x2 , . . . , xp ) dont les valeurs séparant
au mieux les q classes.

ˆ connaître la classe d'aectation de n0 nouveaux individus décrits par les variables explicatives
(x1 , x2 , . . . , xp ). Il s'agit ici d'un problème de classement dans des classes préexistantes, par
opposition au problème de classication qui consiste à construire des classes les plus homogènes
possibles dans un échantillon.

43
3.2 Formulation du problème et notation

Figure 3.1  Principe de l'analyse discriminante

Considérons pour xer les idées le tableau de données (200, 30) qui contient, pour n = 200 malades,
les valeurs de p = 30 variables issues d'analyses biologiques et d'examens cliniques Il existe par ailleurs
une partition de ces 220 malades selon q = 3 catégories de diagnostics réalisés après des interventions
beaucoup plus coûteuses que les 30 mesures précédentes. On se pose la question suivante : étant donné
des patients supplémentaires (en nombre n0 ) sur lequel on réalise les 30 analyses et examens, peut-on
prévoir leurs catégories de diagnostics ? La question répond ici à un besoin pratique : est-ce que des
mesures nombreuses mais d'accès facile peuvent contenir une information sur un phénomène ou un
état plus dicile à identier ?

Soit le tableau des données X à n lignes (individus ou observations) et p colonnes (variables), de terme
général xji . Les n individus sont partitionnés en q classes. Chaque classe k caractérise un sous-nuage
Ik de nk individus i avec :
q
X
nk = n
k=1

Par xjk on désigne la moyenne de la variable xj dans la classe k . C'est la j ème coordonnée du centre de
gravité du sous-nuage Ik :
1 X j
xjk = xi = gkj
nk
i∈Ik

Figure 3.2  Représentation du nuage des individus partitionnés

La moyenne de la variable xj sur l'ensemble des individus qui correspond à la j ème coordonnée du
centre de gravité G du nuage des individus vaut :

n q
j 1 X j X nk j
x = xi = x = gj
n n k
i=1 k=1

Dr Rodnellin Onesime Malouata 44 La photocopie non autorisée est un délit


Analyse Factorielle Discriminante

3.3 Inertie du nuage


D'après le théorème de Huygens, l'inertie N (I) peut encore s'écrire
q
X
I = IG + Igk
k=1


PqIG est l'inertie entre les classes (inertie interclasse : séparation maximum des centres des classes),
k=1 Igk est l'inertie interne aux classes (inertie intraclasse : homogénéité maximum des classes).

3.4 Fonctions linéaires discriminantes


L'AFD consiste à rechercher les combinaisons linéaires de p variables explicatives (x1 , . . . , xp ), gé-
néralement continues, qui permettent de séparer au mieux les q classes.
La première combinaison linéaire sera celle dont la variance entre (interclasse) est maximale, an d'exal-
ter les diérences entre les classes, et dont la variance à l'intérieur des classes (intraclasses) minimale
pour que l'étendue dans les classes soit délimitée. Puis, parmi les combinaisons linéaires non correlées
à la première, on recherchera celle qui discrimine le mieux les classes, etc. Ces combinaisons linéaires
seront les fonctions linéaires discriminantes.

Soient u(i) la valeur, pour l'individu i, d'une combinaison linéaire u des p variables préalablement
centrées :
p
uj (xji − xj )
X
u(i) =
j=1

La variance var(u) de la nouvelle variable synthétique u(i), puisque u(i) est centrée :
 2
n n p
1 1
uj (xji − xj )
X X X
var(u) = u2 (i) = 
n n
i=1 i=1 j=1

n p p
1 XX X 0 0
var(u) = uj uj 0 (xji − xj )(xji − xj )
n 0
i=1 j=1 j =1

En invertissant les sommations et en posant :


n
1X j 0 0 0
tjj 0 = (xi − xj )(xji − xj ) = cov(xj , xj )
n
i=1

La variance de la combinaison linéaire des variables u peut s'écrire :


p X
p
0
X
var(u) = uj uj 0 cov(xj , xj ) = u0 T u
j=1 j 0 =1

où u désigne le vecteur dont les p composantes sont u1 , . . . , up et T la matrice des covariances des p
variables , de terme général tjj 0 .

Propriété 3.1 (décomposition de la matrice de covariance). Soient T , E et D les matrices d'inertie


respectives de N (I), N (G) et N (I 0 ) (réunion des N (Ik )). Alors T peut être décomposée en une somme
de 2 matrices :
T =D+E
Si u un vecteur quelconque non nul de Rn (non forcément unitaire), alors

u0 T u = u0 Eu + u0 Du

Dr Rodnellin Onesime Malouata 45 La photocopie non autorisée est un délit


3.4 Fonctions linéaires discriminantes

Démonstration. La covariance totale entre deux variables xj et xj s'écrit :


0

q
1XX j
j0 0 0
j
cov(x , x ) = [ (xi − xj )(xji − xj ) = tjj 0 ]
n
k=1 i∈Ik

0
Nous allons décomposer cov(xj , xj ) en somme de covariance intra-classe ("Dans les classes"="within
classes ") et covariance inter-classes ("Entre les classes"="between classes").
Pour cela nous partirons de l'identité, pour i, j , k :

xji − xj = (xji − xjk ) + (xjk − xj )

La somme entre les crochets dans la formule de la covariance se décompose en quatre termes, dont
deux sont nuls.
q
1 XX j 0 0 0 0
tjj 0 = [(xi − xjk ) + (xjk − xj )][(xji − xjk ) + (xjk − xj )] =
n
k=1 i∈Ik

q q q q
1 XX j j 0 0 1 XX j j 0 0 1 XX j 0 0 1 XX j 0 0
(xi −xk )(xji −xjk )+ (xi −xk )(xjk −xj )+ (xk −xj )(xji −xjk )+ (xk −xj )(xjk −xj )
n n n n
k=1 i∈Ik k=1 i∈Ik k=1 i∈Ik k=1 i∈Ik
avec
q q q
1 XX j 0 0 1X 0 0 1 X j 1X 0 0
(xi −xjk )(xjk −xj ) = nk (xjk −xj )( xi −xjk ) = nk (xjk −xj )(xjk −xjk ) = 0 et
n n nk n
k=1 i∈Ik k=1 i∈Ik k=1

q q q
1 XX j 0 0 1X 1 X j0 0 1X 0 0
(xk − xj )(xji − xjk ) = nk (xjk − xj )( xi − xjk ) = nk (xjk − xj )(xjk − xjk ) = 0
n n nk n
k=1 i∈Ik k=1 i∈Ik k=1

Il en résulte alors :
q q
1 XX j 0 0 1X 0 0
tjj 0 = (xi − xjk )(xji − xjk ) + nk (xjk − xj )(xjk − xj )
n n
k=1 i∈Ik k=1

avec
q
1 XX j 0 0
djj 0 = (xi − xjk )(xji − xjk )
n
k=1 i∈Ik
q
nk 0 0
(xjk − xj )(xjk − xj )
X
ejj 0 =
n
k=1

Ces p2 relations se notent sous forme matricielle :

T =D+E

Ainsi, la variance d'une combinaison linéaire u des variables se décompose d'après var(u) = u0 T u en
variance interne et variance externe :

u0 T u = u0 Du + u0 Eu

Rappelons que, parmi toutes les combinaisons linéaires des variables, on cherche celles qui ont
une variance intra-classes minimale et une variance inter-classes maximale. En projection sur l'axe
discriminant u, chaque sous-nuage doit être, dans la mesure du possible, à la fois bien regroupé et bien
séparé des autres sous-nuages.

Dr Rodnellin Onesime Malouata 46 La photocopie non autorisée est un délit


Analyse Factorielle Discriminante

3.4.1 Calcul des fonctions linéaires discriminantes


L'AFD revient à trouver une direction u dans Rp telle que le rapport

Variance intraclasse de u u0 Du
R(u) = = 0 soit minimum
Variance interclasse de u u Eu

or u0 T u = u0 Eu + u0 Du =⇒ u0 Du = u0 T u − u0 Eu, ceci implique

u0 T u
R(u) = −1
u0 Eu
Ce qui revient à maximiser le rapport
u0 Eu
f (u) =
u0 T u
Ce rapport étant une fonction homogène de degré 0 en u c'est-à-dire f (u) = f (βu) ∀β , il est équivalent
de maximiser u0 Eu sous la contrainte de normalisation u0 T u = 1
En utilisant la méthode des multiplicateurs de Lagrange, le Lagrangien s'écrit :

L = u0 Eu + λ(1 − u0 T u)

En dérivant partiellement par rapport à u et λ, on a :


∂L
= 2Eu − 2λT u = 0
∂u
∂L
= 1 − u0 T u = 0
∂λ
Ces deux équations peuvent encore s'écrire :

Eu = λT u
0
u Tu = 1

En supposant que la matrice T est de plein rang, on a :

T −1 Eu = λu

u est vecteur propre de la matrice T −1 E associé à la plus grande valeur propre λ. La valeur propre
λ, quotient de la variance externe dela fonction discriminante par la variance totale, est inférieure à 1.
On l'appelle quelquefois pouvoir discriminant de la fonction u.
Après avoir trouvé le premier vecteur propre u noté u1 , on pourra chercher un deuxième vecteur ortho-
gonal au premier, et itérer le processus de façon à obtenir une base orthonormé {u1 , . . . , uα , . . . , up }.

Remarque
La métrique T −1 est appelé métrique de Mahalanobis.
0 Ev
En rendant maximum le quotient vv0 Dv les combinaisons linéaires v seraient alors les vecteurs propres
de la matrice D E où la matrice D dénit la métrique de mahalanobis. La valeur propre µ corres-
−1 −1

pondant, solution de D−1 Ev = µv est reliée à λ par la formule :


λ
µ=
1−λ
On a évidemment µ ≥ λ, puisque la variance interne est toujours inférieure est toujours inférieure à la
variance totale.
Les vecteurs u et v sont liés par la relation :

u = 1 − λv

Dr Rodnellin Onesime Malouata 47 La photocopie non autorisée est un délit


3.4 Fonctions linéaires discriminantes

3.4.2 Diagonalisation d'une matrice symétrique


La matrice T −1 E n'est pas symétrique. Mais il est possible de se ramener à la diagonalisation d'une
matrice (q, q).(Rappelons que p est le nombre de variables et q le nombre de classes avec dans la plupart
des applications q < p).
Propriété 3.2. En posant, E = C 0 C , la solution de l'AFD vérie l'équation aux valeurs propres
suivante :
CC 0 T −1 Cω = λCω
où C est une matrice à p lignes et q colonnes de terme général :
r
nk j
cjk
(x − xj ) =
n k
Démonstration. En eet, la matrice E de terme général :
q
nk 0 0
(xjk − xj )(xjk − xj )
X
e jj 0 =
n
k=1
est le produit d'une matrice C à p lignes et q colonnes par sa transposée. Avec la décomposition
E = CC 0 , la relation Eu = λT u s'écrit :
CC 0 u = λT u
En posant T u = Cω , ceci implique u = T −1 Cω et cette relation s'écrit alors :
CC 0 T −1 Cω = λCω
Il est clair que tout vecteur propre ω relatif à une valeur propre λ de la matrice de la matrice C 0 T −1 C
d'ordre (q, q) vérie également la relation CC 0 T −1 Cω = λCω . Il sut en pratique d'eectuer la
diagonalisation de cette matrice symétrique, puis d'en déduire u par la transformation u = T −1 Cω .
Propriété 3.3. La solution de l'AFD dans l'espace Rp vérie la relation
−1 −1
T 2 ET 2 v = λv
Démonstration. D'après ce qui précède
T −1 Eu = λu
En décomposant T −1 , il en s'ensuit
−1 −1
T 2 T 2 Eu = λu
1
En pré-multipliant par T , on obtient :
2

−1 1
T 2 Eu = λT 2 u
1 −1
En posant v = T 2 u =⇒ u = T 2 v , il en résulte :
−1 −1
T 2 ET 2 v = λv

Propriété 3.4. Si on note par F (i) = hxi |ui = x0i u, la projection de xi sur u (V ar(F (i)) = n u T u),
1 0

l'AFD revient à rechercher le vecteur ω qui maximise


g(ω) = ω 0 T −1 ET −1 ω sous la contrainte ω 0 T −1 ω = 1
Démonstration. Sous la contrainte ω 0 T ω = 1, on a T −1 ET −1 ω = λT −1 ω .
En posant T −1 ω = u, on obtient T −1 Eu = λu.
La coordonnée F (i) du point xi sur ω est
F (i) = x0i T −1 ω = x0i u
Ainsi diagonaliser T −1 E , puis obtenir l'image des points xi par le produit scalaire canonique x0i u équi-
vaut à réaliser l'analyse factorielle de N (G) selon la métrique T −1 .
En règle générale, il y a q − 1 valeurs propres donc q − 1 axes discriminants. C'est le cas si n > p > q
et si les variables ne sont pas liées linéairement.

Dr Rodnellin Onesime Malouata 48 La photocopie non autorisée est un délit


Analyse Factorielle Discriminante

3.5 Principes des règles d'aectation


Une fois trouvées les fonctions discriminantes qui séparent au mieux les individus répartis en q
classes, on veut trouver la classe d'aectation d'un nouvel individu, pour lequel on connaît les valeurs
des variables (x1 , . . . , xp ). Une règle d'aectation est de choisir la classe dont le centre de gravité
est le plus proche du point-individu. La métrique généralement utilisée dans les applications les plus
courantes est celle de Mahalanobis globale(D−1 ), ou locale (Dk−1 est la matrice des covariances internes
au groupe Ik ).
Cette approche purement géométrique ne prend cependant pas en compte les probabilités à priori des
diérentes classes, qui peuvent être très inégales dans certains applications.

3.5.1 Le modèle bayésien d'aectation (ou de classement)


Au moment de l'aectation d'un individu nouveau noté x, on peut calculer les diérents P (x|Ik )
pour k = 1, . . . , q . Il parait raisonnable d'aecter x à la classe Ik pour laquelle P (x|Ik ) est maximale.
Cependant, ce ne sont pas les probabilité P (x|Ik ) qu'il faudrait connaître mais les probabilités P (Ik |x),
c'est-à-dire la probabilité du groupe Ik sachant que x est réalisé.
D'après le théorème de Bayes permet de donner la formulation classique :
P (x|Ik )P (Ik )
P (Ik |x) = Pq
k=1 P (x|Ik )P (Ik )

Le dénominateur est le même pour toutes les classes. La classe d'aectation de x sera celle pour
laquelle le produit P (x|Ik )P (Ik ) est maximal. Si les probabilités à priori P (Ik ) des classes sont égales
pour toutes les valeurs de k , les classements selon P (Ik |x) et P (x|Ik ) sont identiques.

3.5.2 Estimation de de la densité par noyaux


Une méthode simple de discrimination consisterait à diviser l'espace multidimensionnel de l'échan-
tillon d'apprentissage en cellules en volumes comparables vr puis de compter, à l'intérieur de chaque
classe k , (k ≤ q), les nrk observations contenues dans chaque cellule r.
La méthode des noyaux consiste à estimer la densité de probabilité à l'intérieur de la classe k dans
l'espace Rp par une formule du type :
nk  
1 X x − xi
fk (x) = p K
h nk h
i=1

La fonction K(z) doit vérier les relations K(z) ≥ 0, et K(z)dz = 1. Elle pourra être choisie parmi
R

les densités de probabilité usuelles. On note que l'on a bien dans ces condition :
Z
fk (x)dx = 1

On utilise souvent la densité de la loi normale sphérique :


1
K(z) = (2π)−p/2 exp− z 0 z
2
Le paramètre h qui intervient dans cette formule est la dimension de la fenêtre. Dans le cas des noyaux
sphériques, il correspond à l'écart-type de la densité locale autour de chaque point. Si h est petit, le
lissage risque d'être mauvais ; si h est trop grand, il risque d'être excessif. Le choix de la dimension de
la dimension de la fenêtre est une dicultés de ces méthodes d'estimation directe de densité.

3.6 Cas de deux classes


Lorsqu'il n'y a que deux classes (i.e.q = 2), nous sommes dans le cas d'un problème non sans
importance de détection (et non plus de classication). Dans ce cas, il n'y a donc qu'un seul axe

Dr Rodnellin Onesime Malouata 49 La photocopie non autorisée est un délit


3.6 Cas de deux classes

factoriel discriminant a, déterminé par la droite passant par les centres de gravité des deux classes g1
et g2 . Ainsi nous pouvons écrire :
E = cc0
où le vecteur c de Rp est déni par :
r
n1 n2
ck = (g1 − g2 )
n
Nous avons donc :
T −1 cc0 u = λu
ou encore :
c0 T −1 cc0 u = λc0 u
Donc l'unique valeur propre est donnée par :

λ = c0 T −1 c

et l'unique fonction discriminante par :


u = T −1 c
λ est appelée distance généralisée entre les deux classes ou encore distance de Mahalanobis.
L'AFD peut aussi être vue comme une ACP des centres de gravité gk de chaque classe avec une
pondération pour ces individus donnée par la métrique T −1 .

Dr Rodnellin Onesime Malouata 50 La photocopie non autorisée est un délit


Chapitre 4
Analyse des correspondances multiples

L'analyse des correspondances introduite dans le chapitre précédent peut se généraliser de plusieurs
façons au cas où plus de deux ensembles sont mis en correspondance. Une des généralisations la plus
simple et la plus utilisée est l'analyse des correspondances multiples (ACM) qui permet de décrire de
vastes tableaux binaires.
L'Analyse des Correspondances Multiples (ACM) permet d'étudier une population de des individus
décrits par des variables qualitatives.

4.1 Domaine d'application


L'application la plus courante de l'ACM est le traitement de l'ensemble des réponses à une enquête.
Chaque question constitue une variable dont les modalités sont les réponses proposées (parmi lesquelles
chaque enquêté doit faire un choix unique). L'analyse des correspondances multiples est une analyse
des correspondances simple appliquée non plus à une table de contingence, mais à un tableau disjonctif
complet.

4.2 Données et notations


4.2.1 Codage condensé
Ces données peuvent être rassemblées dans un tableau de type Individus×Variables tout à fait
analogue à celui étudié en ACP. Les lignes représentent les individus, les colonnes représentent les
variables : à l'intersection de la ligne i et de la colonne j , se trouve la valeur ri j (on dit aussi le
codage condensé) de l'individu i pour la variable j . Généralement, rij est le numéro de la modalité (de
la variable j ) possédée par i mais beaucoup de logiciels acceptent pour rij une chaîne de caractères
désignant la modalité (codage dit  alphabétique ).
Naturellement, même lorsque ce sont des nombres, les valeurs xij sont des codications qui ne
possèdent pas de propriétés numériques.
Par exemple à la question :

Etes-vous ?
1 − célibataire, 2 − marié(e) ou vivant maritalement,
3 − veuf(ve), 4 − divorcé(e), 5 − non réponse,

cinq modalités de réponses (dont une non-réponse) sont possibles.


Il est clair que la moyenne entre célibataire et veuf n'a pas grand sens et ne peut être considérée
comme étant marié ! Il n'est donc pas possible de traiter directement ce tableau par ACP (ou AFC) : les
tableaux Individus×Variables qualitatives possèdent des spécicités et leur analyse factorielle nécessite
une méthode spécique.

51
4.2 Données et notations

Une variable continue peut être transformée en variable nominale par le découpage en classes des
valeurs de la variable. Par exemple, à la question "âge de l'enquêté", on prévoit 8 modalités de réponse :

1 − moins de 25 ; 2 − de 25 ans à 29 ans ; 3 − de 30 ans à 34 ans,


4 − de 35 à 39 ans ; 5 − de 40 à 44 ans ; 6 − de 45 à 49 ans ;
7 − de 50 ans et plus ; 8 − non-réponse.

Si l'on désigne par s le nombre des questions posées à n individus, on dispose ainsi d'un tableau
de données R ayant n lignes et s colonnes mis sous forme de codage condensé, illustré sur la gure 4.1
par un tableau pour lequel s = 3 et n = 12
Le terme général riq désigne la modalité de la question q choisie par le sujet i. En notant Pq le
nombre des modalités de réponses à une question q , on a : riq ≤ Pq .

Figure 4.1  Tableau des données sous forme de codage condensé.

4.2.2 Tableau disjonctif complet


Une autre façon de présenter ces mêmes données est de construire un Tableau Disjonctif Complet
(TDC). Dans ce tableau, les lignes représentent les individus et les colonnes représentent les modalités
des variables : à l'intersection de la ligne i et de la colonne j , on trouve zij qui vaut 1 ou 0 selon que
l'individu i possède la modalité j ou non. L'origine de la terminologie  Tableau Disjonctif Complet 
est la suivante : l'ensemble des valeurs zij d'un même individu, pour les modalités d'une même variable,
comporte la valeur 1 une fois (complet) et une fois seulement (disjonctif).
Les colonnes de ce tableau sont des fonctions numériques dénies sur l'ensemble des individus appelées
indicatrices de modalité.
On désigne par I l'ensemble des n sujets ayant répondu au questionnaire et par p le nombre total
des modalités des s questions. On a :
X s
p= pq
q=1

avec pq le nombre et l'ensemble des modalités de la variable j de la question q .

Donc, le terme général zij désigne la modalité j de la question q choisie par le sujet i.

zij = 1 si l'individu i possède la modalité j et zij = 0 sinon.

Les marges
Pp en ligne du tableau disjonctif complet sont constantes et égales au nombre s de questions :
zi. = j=1 zij = s pour tout i
Pn
Les marges en colonne : z.j = i=1 zij correspondent au nombre de sujets ayant choisi la
modalité j de la question q .

On vérie que, pour chaque sous-tableau Zq , l'eectif total est bien :


X
zq = z.j = n
j∈q

Dr Rodnellin Onesime Malouata 52 La photocopie non autorisée est un délit


Analyse des correspondances multiples

La somme des marges dorme l'eectif total z du tableau Z soit :


p
n X
X
z= zij = ns
i=1 j=1

On construit, à partir du tableau de codage condensé, le tableau Z à n lignes et p colonnes décrivant


les s réponses des n individus par un codage binaire. Le tableau Z est la juxtaposition de K sous-
tableaux :
Z = [Z1 , Z2 , . . . , Zq , . . . , Zs ]

Figure 4.2  Tableau des données sous forme disjonctive complète.


Le sous-tableau Zq , à n lignes et pq colonnes, est tel que sa ième ligne contient pq − 1 fois la valeur
0 et une fois la valeur 1 dans la colonne correspondant à la modalité de la question q choisie par le
sujet i. Autrement dit le tableau Zq décrit la partition des n individus induite par les réponses à la
question q .

4.2.3 Hypertableau de contingence


Lorsque le nombre de variables p est réduit à 2, ces mêmes données peuvent être présentées sous
la forme d'un tableau de contingence mettant en correspondance les deux ensembles de modalités.
Pour disposer de toute l'information, on peut construire l'hypertableau de contingence H croisant
les s questions et dont les éléments constituent l'éventail des réponses possibles des sujets enquêtés.
On dispose d'un ensemble-produit des modalités des s questions dont les éléments sont constitués des
suites de p modalités, chacune étant prise dans une question diérente.
Pour s = 3 questions ayant respectivement 3, 2 et 4 modalités, il existe 24 combinaisons possibles
de réponses selon lesquelles sont réparties les individus. Dans le cas de deux questions, l'hypertableau
est le tableau de contingence. Pour un nombre important de questions, le développement de méthodes
générales d'analyse de cet hypertableau est sans intérêt pratique immédiat. Si l'on pose à 1000 individus
12 questions ayant chacune 10 modalités de réponse, le nombre de réponses possibles distinctes vaut
1012 . Au plus une case sur un milliard de l'hypertableau ne sera pas vide.

4.2.4 Tableau de Burt


L'hypertableau étant la plupart du temps impossible à manier, pour généraliser l'analyse des cor-
respondances à l'étude des croisements entre plus de deux variables, on peut construire un tableau
contenant l'ensemble des tableaux de contingence entre les variables prises 2 à 2. Le  tableau de Burt
 n'est pas exactement un tableau de contingence mais une juxtaposition de tels tableaux ; chaque
individu y apparaît s2 fois. Les tableaux contenant la diagonale croisent chaque variable avec elle-
même : ils ne contiennent que des 0 sauf sur la diagonale qui contient les eectifs totaux z.j (nombre
d'individus possédant la modalité j (de la variable j )) des modalités.
On construit, à partir du tableau disjonctif complet Z , le tableau symétrique B d'ordre (p, p) qui
rassemble les croisements deux à deux de toutes les variables :
B = Z 0Z

Dr Rodnellin Onesime Malouata 53 La photocopie non autorisée est un délit


4.3 Objectifs

B est appelé tableau de contingence de Burt associé au tableau disjonctif complet Z .


Pn
Le terme général de B s'écrit : bjj 0 = i=1 zij zij 0

B est une juxtaposition de tableaux de contingence.


Les marges sont pour tout q ≤ p :
Xp
bj = bjj 0 = sz.j
j=1
et l'eectif total b vaut :
b = s2 n
Le tableau B est formé de s2 blocs où l'on distingue :
ˆ le bloc Zq0 Zq0 indicé par (q, q 0 ), d'ordre (pq , pq0 ) qui n'est autre que la table de contingence croisant
les réponses aux questions q et q 0 .
ˆ le q ième bloc carré Zq0 Zq obtenu par le croisement d'une variable avec elle-même. C'est une
matrice d'ordre (pq , pq ), diagonale puisque deux modalités d'une même question ne peuvent être
choisies simultanément. Les termes diagonaux sont les eectifs des modalités de la question q .

Figure 4.3  Tableau de Burt.


Iqk : nombre d'individus possédant à la fois la modalité q (de la variable l) et la modalité k (de la
variable j ). Les tableaux J situés sur la diagonale sont diagonaux.

Nous désignerons par D la matrice diagonale, d'ordre (J, J) ayant les mêmes éléments diagonaux
que B ; ces éléments sont les eectifs correspondant à chacune des modalités : Le tableau de Burt est
symétrique. Il est analogue à une matrice des corrélations en ce sens qu'il récapitule l'ensemble des
liaisons entre les variables prises 2 à 2. Il contient beaucoup moins d'information que l'hypertableau et
ne permet pas de reconstruire le TDC.

4.3 Objectifs
La problématique de l'ACM est apparentée à celle de l'ACP (étude d'un tableau Individus×Variables)
mais peut être considérée aussi comme une généralisation de celle de l'AFC (étude de la liaison entre
plusieurs variables qualitatives). Ces deux aspects sont toujours plus ou moins explicitement présents
dans les objectifs de l'ACM, présentés ici à partir des trois familles d'objets qui interviennent en ACM :
les individus, les variables et les modalités des variables.

a) Étude des individus


De façon analogue à l'ACP, l'un des objectifs de l'ACM est de réaliser une typologie des individus.
Cette typologie doit s'appuyer sur une notion de ressemblance telle que deux individus sont d'autant
plus proches qu'ils possèdent un grand nombre de modalités en commun.

Dr Rodnellin Onesime Malouata 54 La photocopie non autorisée est un délit


Analyse des correspondances multiples

b) Étude des variables


Procédant encore de façon analogue à l'ACP, on peut adopter deux points de vue dans l'étude des
variables.
Le premier est celui du bilan des liaisons entre les variables. L'étude de la liaison entre deux variables
qualitatives nécessite de considérer le tableau de contingence croisant leurs modalités. Un bilan un tant
soit peu détaillé de ces liaisons implique donc de se situer au niveau des modalités plus qu'à celui des
variables.
Le second consiste à résumer l'ensemble des variables (qualitatives) par un petit nombre de variables
numériques. Par exemple, on peut chercher à résumer un ensemble de variables socio-professionnelles
par un indicateur de  statut social .
L'intérêt de ces variables synthétiques provient de ce qu'elles sont liées à l'ensemble des variables
étudiées. Ainsi, une variable ne pourra être considérée comme un indicateur de  statut social  que
si elle est liée à la fois à la catégorie socio-professionnelle, au type de diplôme, etc.

Remarque
Par rapport à l'ACP, on cherche, selon ce second point de vue, une variable quantitative pour
synthétiser un ensemble de variables qualitatives (et non quantitatives) ce qui implique, d'une façon
ou d'une autre, d'aecter un coecient à chaque modalité de chaque variable ; pour un individu, la
valeur de la variable synthétique est alors la somme des coecients des modalités qu'il possède.

c) Étude des modalités


Étudier l'ensemble des modalités revient à dresser un bilan de leurs ressemblances. Or une modalité
peut être considérée selon deux points de vue :

1. en tant que variable indicatrice dénie sur l'ensemble des individus, soit une colonne du TDC ;

2. en tant que classe d'individus dont on connaît la répartition sur l'ensemble des modalités, soit
une ligne ou une colonne du tableau de Burt

La notion de ressemblance entre modalités dière selon le point de vue adopté. Dans le premier cas,
la ressemblance entre deux modalités doit reposer sur leur association mutuelle : deux modalités se
ressemblent d'autant plus qu'elles sont présentes ou absentes simultanément chez un grand nombre
d'individus. Les autres modalités n'interviennent pas.
Dans le second cas, la ressemblance entre deux modalités est analogue à celle que l'on utilise dans
les tableaux de fréquence. Une ligne du tableau de Burt caractérise l'association de la modalité avec
les modalités de toutes les variables : deux modalités se ressemblent d'autant plus qu'elles s'associent
beaucoup ou peu aux mêmes modalités.

4.4 Principes de l'analyse des correspondances multiples


L'analyse des correspondances multiples est l'analyse des correspondances d'un tableau disjonctif
complet.
Ses principes sont donc ceux de l'analyse des correspondances à savoir :

- mêmes transformations du tableau de données en prols-lignes et en prols-colonnes ;

- même critère d'ajustement avec pondération des points par leurs prols marginaux ;

- même distance, celle du χ2 .

L'analyse des correspondances multiples présente cependant des propriétés particulières dues à la nature
même du tableau disjonctif complet.

Dr Rodnellin Onesime Malouata 55 La photocopie non autorisée est un délit


4.4 Principes de l'analyse des correspondances multiples

4.4.1 Nuage des individus


Les individus sont tous aectés d'une masse identique égale à mi = n1 .
La marge sur I étant constante, la transformation en prols-lignes ne modie guère les données. Un
individu est représenté par les modalités qu'il possède. Deux individus se ressemblent s'ils présentent
globalement les mêmes modalités. La distance du χ2 appliquée à un tableau disjonctif complet conserve
un sens. Plus précisément, la distance entre deux individus i et i0 est dénie par :
p p
2 0
X ns  zij z i 0 j 2 1 X n
d (i, i ) = − = (zij − zi0 j )2
z.j s s s z.j
j=1 j=1

Deux individus sont proches s'ils ont choisi les mêmes modalités. Ils sont éloignés s'ils n'ont pas répondu
de la même manière.
Le centre de gravité de ce nuage, noté GI , a pour coordonnée, pour la modalité j , z.j /ns, proportion,
au coecient s près, des individus ayant choisi la modalité j .

4.4.2 Nuage des modalités


La modalité j est représentée par le prol de la colonne j . Les nombres du TDC ne pouvant prendre
que les valeurs 0 ou 1, le prol de la colonne j ne contient à son tour que deux valeurs possibles : 0 ou
1/z.j .
La distance entre deux modalités j et j 0 est dénie par :
n  2
X zij zij 0
d2 (j, j 0 ) = n −
z.j z.j 0
i=1

En outre, le centre de gravité du nuage des modalités, noté GJ , qui se confond avec le prol de la
marge sur I , est caractérisé par un prol constant égal à 1/n. Il en résulte que le prol de la colonne j
ressemble d'autant plus au prol moyen que l'eectif de la modalité j est grand. Réciproquement, une
modalité rare sera toujours loin du centre de gravité du nuage des modalités.

4.4.3 Axes factoriels et facteurs


En reprenant les résultats de l'analyse des correspondances et les notations adoptées, on pose :

1 zij
F = Z de terme général fij =
ns ns
1 z.j
Dp = D de terme général f.j = δij
ns ns
1 δij
Dn = D de terme général fi. =
n n
Pour trouver les axes factoriels uα on diagonalise la matrice :

1
S = F 0 Dn−1 F Dp−1 = Z 0 ZD−1
s
de terme général (attention, s [sans indice] désigne le nombre de questions dans ce chapitre) :
n
1 X
sjj 0 = zij zij 0
sz.j 0
i=1

Dans Rp , l'équation du αième axe factoriel uα est :

1 0
Z ZD−1 uα = λα uα
s

Dr Rodnellin Onesime Malouata 56 La photocopie non autorisée est un délit


Analyse des correspondances multiples

L'équation du αième facteur ϕα = D−1 uα s'écrit :

1 −1 0
D Z Zϕα = λα ϕα (4.1)
s

De même, l'équation du αième facteur ψ α dans Rn s'écrit :

1
ZD−1 Z 0 ψ α = λα ψ α
s

Les facteurs ψ α et ϕα (de norme λα ) représentent les coordonnées des points-lignes et des points-
colonnes sur l'axe factoriel α.
Les relations de transition entre les facteurs ψ α et ϕα sont :
(
ϕα = √1 D −1 Z 0 ψ
λα α
ψα = √1 Zϕα
s λα

4.4.4 Facteurs et relations quasi-barycentriques


La coordonnée factorielle de l'individu i sur l'axe α est donnée par :
p
1 X zij
ψα = √ ϕα
i λα j=1 zi. j

c'est-à-dire
p
1 X
ψα = √ ϕαj
i s λα
j∈p(i)

où p(i) désigne l'ensemble des modalités choisies par l'individu i.


Au coecient √1λ près, l'individu i se trouve au point moyen du nuage des modalités qu'il a
α
choisies.
De même, la coordonnée de la modalité j sur l'axe α est donnée par :
n
1 X zij
ϕαj = √ ψ
λα i=1 z.j αi

c'est-à-dire
n
1 X
ϕαj = √ ψα
z.j λα i
j∈I(j)

où I(j) désigne l'ensemble des individus ayant choisi la modalité j .


Avant la dilatation sur l'axe α, la modalité j se trouve au point moyen du nuage des individus qui
l'ont choisie comme réponse.

4.4.5 Inertie du nuage des modalités et conséquences pratiques


On rappelle que la distance du χ2 dans Rn est la métrique D−1 . La distance entre la modalité j et
le centre de gravité du nuage G, dont toutes les n coordonnées valent n1 , s'écrit :

n  2
2
X zij 1 n
d (j, G) = n − = −1
z.j n z.j
i=1

La distance d'une modalité au centre de gravité est d'autant plus grande que l'eectif est plus faible.

Dr Rodnellin Onesime Malouata 57 La photocopie non autorisée est un délit


4.5 Analyse du tableau de contingence de Burt

- Inertie d'une modalité


L'inertie I(j) de la modalité j vaut :
z.j
I(j) = mj d2 (j, G) avec mj =
ns
d'où  
1 n
I(j) = 1−
s z.j
La part d'inertie due à une modalité de réponse est d'autant plus grande que l'eectif dans cette
modalité est plus faible.
Le maximum 1s serait atteint par une modalité d'eectif nul. En conséquence, on évite, au moment
du codage, les modalités à faibles eectifs susceptibles de perturber les directions des premiers
axes factoriels.

- Inertie d'une question


L'inertie de la question q , notée I(q), vaut :
pq
X 1
I(q) = I(j) = (pq − 1)
s
j=1

Ainsi la part d'inertie due à une question est fonction croissante du nombre de modalités de
réponse.
La part minimale 1s correspond aux questions à 2 modalités. D'où l'intérêt d'équilibrer le système
des questions, c'est-à-dire le découpage des variables en modalités, si on veut faire jouer le même
rôle à toutes les questions.

- Inertie totale
On en déduit que l'inertie totale I vaut :
p
X X z.j
I= I(q) = d2 (j, G)
q
ns
j=1

d'où :
P
I= −1
s
En particulier, elle vaut 1 dans le cas où toutes les questions ont deux modalités de réponse (cas
où p = 2s).
L'inertie totale dépend uniquement du nombre de variables et de modalités et non des liaisons
entre les variables. C'est une quantité qui, dans le cadre de l'analyse des correspondances multiples
(comme dans celui de l'analyse en composantes principales normée), n'a pas de signication
statistique.

4.5 Analyse du tableau de contingence de Burt


Le tableau B de correspondance multiple, obtenu à partir d'un tableau disjonctif complet, est un
assemblage particulier des tableaux de contingence qui sont les faces de l'hypercube de contingence.
L'analyse des correspondances appliquée à un tableau disjonctif complet Z est équivalente à l'ana-
lyse du tableau de Burt B et produit les mêmes facteurs.
L'analyse des correspondances du tableau de Burt B , tableau symétrique d'ordre (p, p), se ramène
à l'analyse d'un nuage de p points-modalités dans Rp . Les marges de ce tableau, en ligne comme en
colonne, sont les éléments diagonaux de la matrice sD.

Dr Rodnellin Onesime Malouata 58 La photocopie non autorisée est un délit


Analyse des correspondances multiples

Compte tenu de l'équation (4.1) donnant le α ième facteur ϕα de l'analyse du tableau disjonctif
complet Z , la matrice à diagonaliser est :
1 1
S = D−1 Z 0 Z = D−1 B
s s
Pour l'analyse du tableau de B associé à Z , le tableau des fréquences relatives F s'écrit :
1 1
F = B et Dn = Dp = D
ns2 ns
On diagonalise la matrice :
1 −1
S∗ = D BD−1 B
s2
ce qui donne :
S∗ = S2
En prémultipliant les deux membres de (4.1) par 1s D−1 B , on obtient :

1 −1
D BD−1 Bϕα = λ2α ϕα
s2
Les facteurs des deux analyses sont donc colinéaires dans Rp mais les valeurs propres associées dièrent.
Celles issues de l'analyse de B , notées λB , sont le carré de celles issues de l'analyse de Z :

λB = λ2

Les facteurs ϕα issus de l'analyse de Z , représentant les coordonnées factorielles des modalités, ont
pour norme λ, alors que le facteur correspondant de l'analyse de B , noté ϕBα , aura pour norme λ2 .
D'où la relation liant les deux systèmes de coordonnées factorielles :
p
ϕBα = ϕα λα

Dr Rodnellin Onesime Malouata 59 La photocopie non autorisée est un délit


4.5 Analyse du tableau de contingence de Burt

Dr Rodnellin Onesime Malouata 60 La photocopie non autorisée est un délit


Chapitre 5
Décomposition en valeurs singulières

Ce chapitre se propose d'illustrer les principaux résultats d'algèbre linéaire utiles en exploration
statistique multidimensionnelle. Ceci concerne les valeurs et vecteurs propres de matrices symétriques
en lien avec la décomposition en valeur singulière ou SVD d'une matrice rectangulaire n × p pour en
faire une approximation par une matrice de mêmes dimensions mais de rang inférieur.
La décomposition en valeur singulière ou SVD (Singular Value Decomposition) est motivée par
deux opérations souvent fait dans l'analyse des données :
Découplage : Séparation dans les composantes indépendantes pour faciliter l'analyse ;
Triage : Ordonnancements de contributions par leur importance ou capacité d'explication

5.1 Matrices carrées diagonalisables


Une matrice carrée A d'ordre n est diagonalisable si elle est semblable à une matrice diagonale
Λ = diag(λ1 , . . . , λn ) ie qu'il existe une matrice inversible S telle que

A = SΛS −1

La ième colonne de S est le vecteur propre de A associé à la valeur propre λi .

Condition nécessaire et susante : Une condition nécessaire et susante pour que A carrée
d'ordre n, soit diagonalisable est que ses n vecteurs propres soient linéairement indépendants.
Condition susante : Les vecteurs propres associés à des valeurs propres distinctes sont linéairement
indépendants. Si toutes les valeurs propres de A sont distinctes, alors A est diagonalisable.

5.2 Décomposition spectrale de A diagonalisable


Soit A diagonalisable telle que A = SΛS −1 . Notons uj la jème colonne de S et vj0 la jème ligne de
S −1 , associés à λj . La décomposition spectrale de A s'écrit
n
X
A= λj uj vj0
j=1

Le vecteur vj est le vecteur propre de A0 associé à λ¯j et vj0 ui = 0 si j 6= i. Ceci signie que les vecteurs
propres distincts de A et A0 sont orthogonaux.
Nous retenons les conclusions suivantes :
1. Si A est carrée n × n avec n vecteurs propres indépendants alors A est diagonalisable et on a :
A = SΛS −1 .
2. Si A est symétrique :
- Elle est diagonalisable (théorème spectral).
- Ses vecteurs propres sont orthogonaux (ou orthonormaux).

61
5.3 Décomposition en valeurs singulières

- A = SΛS 0 .
3. Si A est symétrique et semi-dénie positive alors A = SΛS 0 où λi ≥ 0 pour tout i ∈ {1, 2, . . . , n}.

5.3 Décomposition en valeurs singulières


Pour une matrice rectangulaire, la notion de valeur propre n'a pas de sens. Néanmoins, les matrices
carrées A0 A et AA0 sont symétriques semi dénies positives. De plus,

rang(A) = rang(AA0 ) = rang(A0 A) = r

et les r valeurs propres non nulles (positives) de A0 A et AA0 sont identiques.

5.3.1 Valeurs singulières


On appelle valeurs singulières de A les racines carrées des valeurs propres non nulles de A0 A ou de
AA0 .
p
σj = λj

5.3.2 Théorème (DVS1)


Soit A une matrice de dimension m × n et de rang r. Il existe une matrice orthogonale U de
dimension m × r et une matrice orthogonale V de dimension n × r, telles que

r
X
A= U Σr1/2 V 0 = σj uj vj0
j=1

avec
• Σr = diag(λ1 , . . . , λr ) où r = min(m, n).
Les σi sont les valeurs singulières de A et sont ordonnées : σ1 ≥ σ2 ≥ . . . ≥ σr ≥ 0
• U = [u1 , . . . , ur ] est la matrice des vecteurs propres de A0 A. Le vecteur uj est le vecteur propre
de A0 A associé à la valeur propre non nulle λj .
• V = [v1 , . . . , vr ] est la matrice des vecteurs propres de AA0 . Le vecteur vj est le vecteur propre
de AA0 associé à la valeur propre non nulle λj .

5.3.3 Théorème (DVS2)


Pour toute matrice A de dimension m × n et de rang r, il existe une matrice orthogonale P de
dimension m × m et une matrice orthogonale Q de dimension n × n, telles que

A = P ΣQ0

P = [u1 | . . . |ur |ur+1 | . . . |um ] = [U |Ũ ] une matrice carrée m×m unitaire et Q = [v1 | . . . |vr |vr+1 | . . . |vn ] =
[V |Ṽ ] une matrice carrée n × n unitaire ont leurs colonnes formées respectivement par les vecteurs
propres de AA0 et de A0 A. Pour obtenir P (resp. Q) on complète les vecteurs colonnes de U (resp.
V ) de la DVS1 par les vecteurs colonnes de Ũ (resp Ṽ ) qui sont les vecteurs propres de AA0 (resp.
A0 A) associés a la valeur propre multiple 0. On forme ainsi une base orthonormée de Rm (resp. Rn ) :
P 0 P = P P 0 = Im , Q0 Q = QQ0 = In . De plus
" #
1/2  
Σr 0 σ1 0
Σ= , matrice m × n avec Σr1/2 = , matrice r × r
0 0 0 σr

Dr Rodnellin Onesime Malouata 62 La photocopie non autorisée est un délit


Décomposition en valeurs singulières

Remarques
ˆ Dans la pratique, pour le calcul de U et de V , on ne calcule que les vecteurs propres de la matrice
qui a la plus petite dimension entre A0 A et AA0 , les vecteurs propres de l'autre se déduisent par
des "formules de transition" suivantes :

U =AV Σ−1/2
V =A0 U Σ−1/2
1 1
avec Σ−1/2 = (Σ1/2 )−1 = diag( ,..., )
σ1 σr

ˆ La décomposition en valeurs singulières donne


r
X
A0 A = V ΣV 0 = σj2 vj vj0
j=1
r
X
AA0 = U ΣU 0 = σj2 uj u0j
j=1

ˆ Il y a d'importantes projections orthogonales associées à la décomposition en valeurs singulières.


1/2
Soit A supposée de rang r et A = U Σr V 0 = P ΣQ0 , la SVD de A.
Rappelons que les partitions des colonnes de P et Q

P = [U |Ũ ], Q = [V |Ṽ ]

avec U les r premières colonnes de P et Ũ les suivantes (idem pour V et Q)


- V V 0 projection orthogonale sur {KerA}⊥ = ImA0
- Ṽ Ṽ 0 projection orthogonale sur KerA
- U U 0 projection orthogonale sur ImA
- Ũ Ũ 0 projection orthogonale sur {ImA}⊥ = KerA0
ˆ On peut montrer que l'approximation d'une matrice A de rang r par une matrice de B de rang
p < r est donnée par la décomposition en valeurs singulière B = U Σ̃V 0 avec Σ̃ une matrice
diagonale qui contient les p plus grandes valeurs singulières de A.

5.3.4 Interprétation géométrique


L'image d'une sphère unité dans Rn par une matrice A m × n est une hyperellipse dans Rm . Soit les
longueurs des axes principaux {σ1 , σ2 , . . . , σm } et les directions des axes principaux {u1 , u2 , . . . , um }.
On a σ ≥ 0 et ui ∈ Rm , avec les l'ensemble {ui } orthonormal (on peut prendre ||ui || = 1). Les vecteurs
σi ui sont alors les semi-axes principaux de l'hyperellipse. Si rangA = r, alors exactement r valeurs de
σi seront non-nulles. Si m ≥ n, alors au plus n axes seront de longueurs positives.

5.4 Présentation de l'Analyse en Composantes Principales


La plupart des méthodes de l'Analyse Factorielle des Données peuvent être présentées dans un
cadre commun : celui de l'extension du théorème de la Décomposition en Valeurs Singulières (DVS)
au cadre d'espaces Euclidiens plus généraux. La présentation synthétique qui va suivre, est basée sur
l'introduction de métriques sur les espaces Euclidiens envisagés. Le choix d'une métrique permettra
d'adapter cette technique générale, appelée ACP du triplet (X, M, D), au problème posé par le type
de données à traiter.
Historiquement, la première méthode apparue pour analyser un tableau issu de mesures sur variables
quantitatives, est l'Analyse en Composantes Principales (ACP) dite usuelle. Elle correspond au triplet

Dr Rodnellin Onesime Malouata 63 La photocopie non autorisée est un délit


5.4 Présentation de l'Analyse en Composantes Principales

- X matrice, n × p, des variables centrées (éventuellement réduites),

- M = Ip , métrique usuelle sur l'espace des lignes,

- D = n−1 In , métrique sur l'espace des variables, formée par la matrice diagonale des poids égaux
pour les individus.

Toutes ces méthodes rentrent dans le cadre de la décomposition en valeurs singulières du triplet
(X, M, D).

5.4.1 Décomposition en Valeurs Singulières du triplet


Dans la DVS usuelle examinée ci-dessus, les matrices X 0 Xp×p et XXn×n
0 , symétriques, jouent un rôle
fondamental. Dans la DVS du triplet (X, M, D), ce rôle va être attribué respectivement aux matrices
X 0 DXMp×p et XM X 0 Dn×n . Ces matrices ne sont pas symétriques, sauf dans le cas où M et D sont de
la forme kI comme dans la DVS usuelle et dans le cas de l'ACP usuelle. Elles sont respectivement M
et D-symétriques. Il est d'autre part nécessaire de s'assurer que les valeurs propres de telles matrices
sont non- négatives et que les vecteurs propres sont orthogonaux au sens de la métrique concernée.
C'est l'objectif du Lemme suivant.

Lemme
La matrice X 0 DXM (resp. XM X 0 D) est M -symétrique (resp. D-symétrique), ses r valeurs propres
non-nulles sont réelles positives et ses vecteurs propres forment une base M − orthonormee de ImX 0
(resp. D-orthonormee de ImX ).

Preuve :
Une matrice carrée A est M -symétrique si et seulement si M A = A0 M , ce qui est le cas pour
X 0 DXM à cause de la symétrie de M et de D. La matrice M étant symétrique dénie-positive,
soit M = M 1/2 M 1/2 sa décomposition par la DVS (M 1/2 est symétrique dénie positive). Notons
Λr = diag(λ1 , . . . , lambdar ) et V = [v1 , . . . , vr ] les matrices des valeurs propres non-nulles et des
vecteurs propres associés pour X 0 DXM de rang r

X 0 DXM V = V Λr X 0 DXM 1/2 (M 1/2 V ) = V Λr M 1/2 X 0 DXM 1/2 (M 1/2 V ) = (M 1/2 V )Λr

On pose Y = M 1/2 V ou V = M −1/2 Y . La matrice M 1/2 X 0 DXM 1/2 est symétrique semi-dénie
positive de rang r, ses r valeurs propres non-nulles sont réelles positives et ses r vecteurs propres {yj }
sont orthonormés au sens usuel (métrique identité). Il en résulte
0
Ir = Y 0 Y = V 0 M 1/2 M 1/2 V = V 0 M V.

Puisque V = X 0 DXM V Λ−1 r , ImV ⊂ ImX et comme rang(V ) = rang(X ) = r , il en résulte que les
0 0

deux espaces vectoriels coïncident, ImV = ImX 0 .

Remarque
La construction eective des vecteurs propres {vj } de X 0 DXM passe d'abord par le calcul des
vecteurs propres {yj } de M 1/2 X 0 DXM 1/2 puis par le calcul de vj = M −1/2 yj .

Dr Rodnellin Onesime Malouata 64 La photocopie non autorisée est un délit


Chapitre 6
Analyse en composantes principales sur
variables instrumentales

6.1 Introduction
Nous présentons dans ce chapitre, une autre méthode établissant le lien entre les variables explica-
tives et les variables à expliquer.
L'objectif est d'expliquer plusieurs variables Y (n, q) à partir de variables X(n, p). C'est une géné-
ralisation de la régression linéaire multiple. Cette généralisation peut être vue à travers l'analyse en
composantes principales sur variables instrumentales (ACPVI) proposée par Rao (1964).
L'ACPVI a été présentée pour la première fois par Rao (1964), elle a été étudiée de manière plus
approfondie par Van Den Wollenberg (1977) et Sabatier (1987). Mais dans ce chapitre, nous allons
nous appesantir sur l'ACPVI de Rao (1964) et de Van Den Wollenberg (1977).

6.2 Contexte et notation


On dispose deux groupes de variables quantitatives X et Y mesurés sur les mêmes n individus.
Ces deux groupes de variables ou tableaux sont de formats respectifs (n, p) et (n, q) et sont supposés
centrés.
Le tableau Y est le tableau des variables à expliquer alors que le tableau X est le tableau des
variables explicatives qui est supposé de plein rang.
Nous considérons des métriques identités dans l'espace des individus. Tous les vecteurs considérés
sont des vecteurs colonnes. Par la suite, les normes utilisées sont considérées comme étant des normes
de L2.
On note par :
Cov(yk , t) : la covariance entre les variables centrées yk et t ;
VXY = X 0 Y : la matrice de l'inter-covariance entre les individus des tableaux X et Y ;
VX = X 0 X : la matrice des variances-covariances entre les variables de X .
On pose t = Xa, la combinaison linéaire des variables de X (les coordonnées de t sont les projections
des individus sur l'axe (∆)).

6.3 Dénition
L'ACPVI consiste à déterminer la composante t = Xa de l'ACPVI est basée sur la minimisation
du critère suivant :

f (u) = ||Y Y 0 − λtt0 ||2 sous la contrainte ||t||2 = t0 t = a0 X 0 Xa = 1 (6.1)

avec a un vecteur de Rp et λ un réel.

65
6.4 Recherche de la solution

Concrètement, ceci revient à maximiser la distance entre la matrice de produit scalaires entre
individus dans l'espace des variables de Y et la représentation des individus sur la composante t
contrainte d'être dans l'espace engendré par les variables de X .

6.4 Recherche de la solution


Dans les propositions ci-dessous, nous allons donner l'équation qui vérie le vecteur a.

6.4.1 Propriété 1
Minimiser le critère (2.1), revient à maximiser le critère : a0 X 0 Y Y 0 Xa sous la contrainte a0 X 0 Xa = 1

Preuve
Posons A = Y Y 0 − λtt0 . On vérie aisément que la matrice A est symétrique. Puisque A0 =
(Y Y 0 − λtt0 )0 = Y Y 0 − λtt0 = A.
On sait que ||A||2 = tr(A0 A). Le produit matriciel A0 A conduit à :

A0 A = Y Y 0 Y Y 0 − λY Y 0 tt0 − λtt0 Y Y 0 + λ2 tt0 tt0 .

Alors, on a :
||A||2 = tr(Y Y 0 Y Y 0 ) − λtr(Y Y 0 tt0 ) − λtr(tt0 Y Y 0 ) + λ2 tr(tt0 tt0 )
Or, on sait que tr(AB) = tr(BA) et par hypothèse t0 t = 1, alors on a :

||A||2 = tr(Y Y 0 Y Y 0 ) − 2λtr(t0 Y Y 0 t) + λ2

Cette expression peut encore écrire :

||A||2 = tr(Y Y 0 Y Y 0 ) − 2λt0 Y Y 0 t + λ2 car t0 Y Y 0 t est un scalaire

Si nous posons φ(λ) = tr(Y Y 0 Y Y 0 ) − 2λt0 Y Y 0 t + λ2 et en dérivant la fonction φ(λ) par rapport à λ,on
obtient :
∂φ
= −2t0 Y Y 0 t + 2λ
∂λ
En égalant la dérivée à zéro, il en résulte :

λ = t0 Y Y 0 t = a0 X 0 Y Y 0 Xa

6.4.2 Propriété 2
La solution de l'ACPVI vérie l'équation suivante :

VX−1 VXY VY X a = λ1 a (6.2)

où a est vecteur propre de la matrice VX−1 VXY VY X associé à la plus grande valeur propre λ1 .

Preuve
Maximiser le critère (2.1) sous la contrainte a0 X 0 Xa = 1, revient à maximiser le Lagrangien dénit
par :
L(a, θ) = a0 X 0 Y Y 0 Xa + θ(1 − a0 X 0 Xa)
où θ, est un multiplicateur de Lagrange. En dérivant L par rapport à a et θ, il résulte les équations
normales suivantes :
∂φ
= −2X 0 Y Y 0 Xa + 2θX 0 Xa = 0 (6.3)
∂a
∂φ
= 1 − a0 X 0 Xa = 0 (6.4)
∂θ

Dr Rodnellin Onesime Malouata 66 La photocopie non autorisée est un délit


Analyse en composantes principales sur variables instrumentales

En prémultipliant l'équation (2.3) par a0 , on obtient l'optimum du critère :

θ = a0 X 0 Y Y 0 Xa = λ1

Si X 0 X est inversible et en pré-multipliant membre à membre par (X 0 X)−1 , alors on obtient :

(X 0 X)−1 X 0 Y Y 0 Xa = λ1 a (6.5)

Si on pose VXY = X 0 Y , VX = X 0 X et VY X = Y 0 X , alors l'équation devient :

VX−1 VXY VY X a = λ1 a

où a est vecteur propre de la matrice VX−1 VXY VY X associé à laplus grande valeur propre λ1 .

Nous abordons dans cette partie l'analyse des redondances proposée par Van den Wollenberg (1977).
Elle est équivalente à l'analyse en composantes principales sur variables instrumentales (ACPVI) de
Rao (1964) décrite aussi dans Sabatier &Van Campo (1984) et Bry (1996).

6.5 Dénition
L'analyse des redondances consiste à rechercher des composantes centrées-réduites et non corrélées
t = Xa maximisant le critère
q
X
f (a) = cov 2 (yk , t) sous la contrainte ||t|| = 1 (6.6)
k=1

On obtiendra ainsi des composantes t = Xa expliquant au mieux l'ensemble des variables yk . On


essaye d'éviter de cette manière le défaut de l'analyse canonique qui peut conduire à des composantes
t n'expliquant qu'une partie des Y .
Une fois trouvée la solution d'ordre un qui correspond à a(1) , on continue la recherche jusqu'à
l'ordre s, ce qui correspond à a(s) , qui maximise la fonction f :
q
X
f (a(s) ) = cov 2 (yk , t(s) ) (6.7)
k=1
0
sous la contrainte ||t(s) || = 1 et la contrainte supplémentaire d'orthogonalité : a(s) a(t) = 0 pour t 6= s.
On arrête l'algorithme de détermination de la solution quand on trouve r solutions avec r =
min(rg(X); rg(Y )).

6.5.1 Propriété 3
La solution de l'analyse des redondances d'ordre 1 est donnée par l'équation aux valeurs propres
suivante :
1
(X 0 X)−1 X 0 Y Y 0 Xa = λ1 a ou VX−1 VXY VY X a = λ1 a (6.8)
n2
où λ1 est la plus grande valeur propre de la matrice n12 (X 0 X)−1 X 0 Y Y 0 X

Preuve
En développant le critère (2.6) on obtient

f (a) = a0 VXY VY X a et la contrainte de normalisation t0 t = a0 VX a = 1

La solution de ce problème revient à maximiser le lagrangien

L = a0 VXY VY X a − λ(a0 VX a − 1)

Dr Rodnellin Onesime Malouata 67 La photocopie non autorisée est un délit


6.5 Dénition

λ est le multiplicateur de Lagrange associé à la contrainte.


L'annulation des dérivées par rapport à a et à λ conduit aux équations normales suivantes :
1 ∂L
= VXY VY X a − λVX a = 0 (6.9)
2 ∂a
∂L
= 1 − a0 VX a = 0 (6.10)
∂λ
La combinaison des deux précédentes relations conduit à l'équation stationnaire recherchée.

VX−1 VXY VY X a = λa

a = a(1) est donc vecteur de VX−1 VXY VY X = n12 (X 0 X)−1 X 0 Y Y 0 X associé à la valeur propre λ. On
trouve la composante t(1) = Xa(1) d'ordre 1 correspondant au tableau X .

6.5.2 Propriété 4
La solution de l'analyse des redondances d'ordre s est donnée par l'équation aux valeurs propres
suivante :
1 0 0
(X (s) X (s) )−1 X (s) Y Y 0 X (s) a(s) = λ1 a(s) ou VX−1
(s) VX (s) Y VY X (s) a
(s)
= λ1 a(s) (6.11)
n2
0 0
où λs est la plus grande valeur propre de la matrice 1
n2
(X (s) X (s) )−1 X (s) Y Y 0 X (s) .

Preuve
En développant le critère (2.7) on obtient
0 0 0 (s) 0
f (a) = a(s) VXY VY X a(s) et la contrainte de normalisation t(s) t(s) = a(s) VX = 1 et a(s) a(t) = 0

La solution de ce problème revient à maximiser le lagrangien


0 0 (s) 0
L = a(s) VXY VY X a(s) − λs (a(s) VX − 1) + 2θa(s) a(t)

λs est le multiplicateur de Lagrange associé à la contrainte.


L'annulation des dérivées par rapport à a et à λ conduit aux équations normales suivantes :
1 ∂L
= VXY VY X a(s) − λs VX a(s) + θVX a(t) = 0 (6.12)
2 ∂a(s)
∂L 0
= 1 − a(s) VX a(s) = 0 (6.13)
∂λ
La relation (2.12) devient
VXY VY X a(s) = λs VX a(s) − θVX a(t) (6.14)
En prémultipliant par a (t)0 la relation (2.14),il en résulte
0
a(t) VXY VY X a(s) = θ

En substituant θ dans (2.14), on a :


0
VXY VY X a(s) = λs VX a(s) − θVX a(t) a(t) VXY VY X a(s)
0
(Ip − a(t) a(t) VX )0 VXY VY X a(s) = λs VX a(s)
0
Pa⊥(t) VXY VY X a(s) = λs VX a(s) (6.15)
0 0
où Pa⊥(t) = Ip − a(t) a(t) VX est le projecteur orthogonal de Pa(t) = a(t) a(t) VX . Donc Pa⊥(t) est la matrice
projection orthogonale sur a(t) parallèlement à {ImPa(t) }⊥ .

Dr Rodnellin Onesime Malouata 68 La photocopie non autorisée est un délit


Analyse en composantes principales sur variables instrumentales

Si a(s) ∈ ImPa⊥(t) , alors a(s) = Pa⊥(t) a(s) et en substituant a(s) dans la relation (2.15), on obtient :
0
Pa⊥(t) VXY VY X Pa⊥(t) a(s) = λs VX Pa⊥(t) a(s) (6.16)

Le projecteur Pa⊥(t) étant idempotent : Pa⊥(t) Pa⊥(t) = Pa⊥(t) , alors on :


0
Pa⊥(t) VXY VY X Pa⊥(t) a(s) = λs VX Pa⊥(t) Pa⊥(t) a(s) (6.17)
0
Le projecteur Pa⊥(t) étant VX -symétrique : Pa⊥(t) VX = VX Pa⊥(t) , alors on a :
0 0
Pa⊥(t) VXY VY X Pa⊥(t) a(s) = λs Pa⊥(t) VX Pa⊥(t) a(s) (6.18)

Cette expression est équivalente à (2.19) :

(XPa⊥(t) )0 DY Y 0 DXPa⊥(t) a(s) = λs (XPa⊥(t) )0 DXPa⊥(t) a(s) (6.19)

Si X (s) est le résidu de la régression de X sur a(t) , alors X (s) = XPa⊥(t) et il en résulte :
0 0
X (s) DY Y 0 DX (s) a(s) = λs X (s) DX (s) a(s) (6.20)

Cette relation peut encore s'écrire :


1 0 0
(X (s) X (s) )−1 X (s) Y Y 0 X (s) a(s) = λ1 a(s) ou VX−1
(s) VX (s) Y VY X (s) a
(s)
= λ1 a(s)
n2
1/2
On peut faire un changement de variable en posant w(s) = VX (s) a(s) . La solution

−1/2 −1/2
VX (s) VX (s) Y VY X (s) VX (s) w(s) = λ1 w(s) (6.21)

Le maximum de la fonction f est atteint pour les vecteurs propres w(1) , . . . , w(r) de la matrice
−1/2 −1/2
symétrique VX (s) VX (s) Y VY X (s) VX (s) associés aux r plus grandes valeurs propres λ1 , . . . , λr et a pour
−1/2
valeur λ1 + . . . + λr . On en déduit les vecteurs a(s) = VX (s) w(s) et les composantes t(s) = Xa(s) =
−1/2
XVX (s) w(s) . Les vecteurs a(s) sont vecteurs propres de la matrice VX−1 VXY VY X associés aux mêmes
valeurs propres λs . Le nombre maximum de composantes qu'il est possible d'extraire est égal au rang
r de VXY .

6.5.3 Propriété 5
−1/2 −1/2
Les vecteurs propres de la matrice VX (s) VX (s) Y VY X (s) VX (s) forment une base orthonormée.

Preuve
0 0
Il s'agit de montrer que : w(s) w(t) = 0 et w(s) w(s) = 1
−1/2
D'après ce qui précède a(s) = VX (s) w(s) . Ce qui implique

0
 0   0
−1/2 −1/2
a(s) VX (s) a(t) = VX (s) w(s) VX (s) VX (s) w(t) = w(s) w(t) = 0

Les vecteurs w(1) , . . . , w(r) sont base orthogonale.


0
 0   0
−1/2 −1/2
a(s) VX (s) a(s) = VX (s) w(s) VX (s) VX (s) w(s) = w(s) w(s) = 1

D'où les vecteurs w(s) sont normés.


Donc, les vecteurs w(1) , . . . , w(r) forment une base orthonormée.

Dr Rodnellin Onesime Malouata 69 La photocopie non autorisée est un délit


6.5 Dénition

Dr Rodnellin Onesime Malouata 70 La photocopie non autorisée est un délit


Chapitre 7
Analyse canonique généralisée de Carroll

7.1 Introdution
L'analyse canonique développée par Hotelling (1936)a été généralisée de diérentes manières, on
peut par exemple citer Horst (1961, 1965) et Kettenring (1971). D'autres auteurs tels que : Carroll
(1968), Saporta (1975), Lazraq et al. (1992),Nzobounsana (2001),ont également étudié ce problème.
Mais ici, nous allons présenter laméthode développée par Carroll (1968) pour comprendre son défaut
et son intérêt.

7.2 Contexte de la méthode


On considère un K -tableau horizontal X = [X1 , . . . XK ] à n ligne et p = K
k=1 pk colonnes formées
P
à l'aide de K -tableaux Xk de dimension n × pk , ces derniers sont supposés centrés. On suppose que
les pk vecteurs colonnes de Rn qui représentent les variables de Xk forment un système libre dans Rn ,
ceci implique n ≥ pk . Ces vecteurs déterminent donc dans Rn un sous-espace à pk dimension que nous
noterons EXk et qui est nommé potentiel de prévision. Le sous-espace EXk contient les combinaisons
linéaires Xk qui sont notées cXk = Xk ak où ak ∈ (Rpk )∗ espace dual de Rpk espace des individus
associé au tableau Xk . On désigne par PXk = Xk (Xk0 DXk )−1 Xk0 D le projecteur D-orthogonal sur le
sous-espace vectoriel engendré par les colonnes de Xk .

7.3 Dénition
On appelle analyse canonique généralisée (ACG) de Carroll (1968) de K -tableaux Xk , k = 1, . . . , K
de variables centrées mesurées sur les mêmes n individus, la recherche d'une variable auxiliaire z de
Rn meilleur compromis de K composantes (variables canoniques) dans Rn qui maximise le critère :

K
X
f (cXk , z) = πk corr2 (Xk ak , z) sous la contrainte de normalisation ||z|| = 1 (7.1)
k=1

Le vecteur z est élément de la somme des sous-espaces EXk .


(1) (1)
Une fois trouvée une première solution des variables (cXk = Xk ak , z (1) ), on continue la recherche
en résolvant le même problème de maximisation avec une contrainte supplémentaire d'orthogonalité.
Celle-ci est telle que la composante compromis z (2) du deuxième ordre recherchée est orthogonale à la
composante compromis z (1) déjà trouvée à l'ordre 1. Ceci revient à maximiser le critère

K
(s) (s) 0
X
f (cXk , z (s) ) = πk corr2 (cXk , z (s) ) sous les contraintes ||z (s) || = 1 et z (s) Dz (t) = 0 pour s 6= t
k=1
(7.2)

71
7.4 Solution d'ordre 1 dans Rn

7.4 Solution d'ordre 1 dans Rn


La solution d'ordre 1 de l'ACG vérie l'équation suivante :

K
!
X
πk PXk z (1) = λ1 z (1) (7.3)
k=1

Preuve
On sait que
c0Xk Dzz 0 DcXk c0Xk Dzz 0 DcXk
2
corr (cXk , z) = = (7.4)
z 0 Dzc0Xk DcXk c0Xk DcXk

Si cXk ∈ ImXk , alors cXk = PXk z et cXk = PXk cXk . En substituant cXk dans la relation suivante et
en tenant compte de la D-symétrie du projecteur : PX0 D = DP
k Xk , on a :

c0Xk DcXk = z 0 PX0 k DcXk = z 0 DPXk cXk = z 0 DcXk (7.5)

Ceci implique
corr2 (cXk , z) = c0Xk Dz = z 0 PX0 k Dz = z 0 DPXk z (7.6)

Ainsi, en prenant la somme dans la relation (3.6) après avoir multiplié par πk , on a :

K
X K
X
πk corr2 (Xk ak , z) = πk z 0 DPXk z
k=1 k=1
K
X
= z0D πk PXk z (7.7)
k=1

La maximisation de la relation (3.7) sous la contrainte de normalisation ||z|| = 1 revient à maximiser


le Lagrangien déni par :
X K
L = z0D πk PXk z + λ1 (1 − z 0 Dz)
k=1

où λ1 est le multiplicateur de Lagrange.


En dérivant par rapport à z et λ1 et en égalant à zéro le Lagrangien,on a :

K
1 ∂L X
=D πk PXk z − λ1 Dz = 0 (7.8)
2 ∂z
k=1
∂L
= 1 − z 0 Dz = 0 (7.9)
∂λ1

La combinaison des deux précédentes relations conduit à l'équation stationnaire recherchée.

K
!
X
πk PXk z = λ1 z
k=1
PK
. z = z (1) est donc vecteur de k=1 πk PXk associé à la valeur propre λ1 . On trouve la composante
(1) (1)
cXk = Xk ak = PXk z (1) d'ordre 1 correspondant au tableau Xk .
Le projecteur PXk étant D-symétrique, alors K k=1 πk PXk est D -symétrique et admet n vecteurs
P
propres qui sont deux à deux orthogonaux et ses valeurs propres sont réelles.

Dr Rodnellin Onesime Malouata 72 La photocopie non autorisée est un délit


Analyse canonique généralisée de Carroll

7.5 Solution d'ordre 2


La solution d'ordre s de l'ACG vérie l'équation suivante :
K
!
X
πk PXk z (s) = λ1 z (s) (7.10)
k=1

Dr Rodnellin Onesime Malouata 73 La photocopie non autorisée est un délit


7.5 Solution d'ordre 2

Dr Rodnellin Onesime Malouata 74 La photocopie non autorisée est un délit


Chapitre 8
L'approche PLS

Dans un cadre très général appelé Partial Least Squares (PLS), Herman et Svante Wold ont proposé
des méthodes d'analyse des données permettant d'étudier K blocs de variables observées sur les mêmes
individus. On suppose que chaque bloc est résumé par une variable latente et qu'il existe des relations
structurelles entre les variables latentes. L'approche PLS permet d'estimer les variables latentes et les
relations structurelles. L'approche PLS est à l'algorithme LISREL ce que l'analyse en composantes
principales est à l'analyse factorielle en facteurs communs et spéciques. L'approche PLS est une mé-
thode très synthétique puisqu'elle contient comme cas particuliers l'analyse en composantes principales,
l'analyse canonique, l'analyse des redondances, la régression PLS, l'analyse canonique généralisée aux
sens de Horst (1961) et de Carroll (1968), au niveau de la première composante.
De plus l'approche PLS permet l'analyse de tableaux avec données manquantes en utilisant l'algo-
rithme NIPALS et la régression PLS.
La méthode NIPALS (Nonlinear estimation by iterative Partial Least Squares), proposée par Wold
(1966), permet d'étudier un seul bloc de variables (K = 1). Elle conduit à l'analyse en composantes
principales lorsque les données sont complètes, mais fonctionne également lorsqu'il y a des données
manquantes.
La régression PLS permet de relier un bloc de variables à expliquer à un bloc de variables explica-
tives (K = 2). Elle a été proposée par Wold, Martens & Wold (1983). On obtient les composantes PLS
par applications successives de l'analyse factorielle inter-batteries de Tucker (1958). L'utilisation des
principes de l'algorithme NIPALS permet le traitement des données manquantes. Il peut y avoir beau-
coup plus de variables que d'observations. La régression PLS est sans doute actuellement la meilleure
réponse au problème de la multicolinéarité en régression multiple.
Le cas de K blocs a été étudié dans le cadre de la modélisation de relations structurelles sur
variables latentes (Path models with latent variables). L'estimation de ces modèles peut être abordée
de deux manières très diérentes : l'approche maximum de vraisemblance ou l'approche PLS.
L'approche maximum de vraisemblance a été développée par Jôreskog (1970) à travers le logiciel
LISREL (Jôreskog et Sôrbom (1979,1984) et Hayduk ( 1987)). Cette approche est disponible dans le
logiciel SAS (Proc CALIS) et dans le logiciel AMOS (Arbuckle, 1997) diusé par SPSS.
L'approche PLS proposée par Wold (1975, 1982, 1985) est aussi décrite dans Lohmoller (1989)
et Fomell & Cha (1994). L'approche PLS a été particulièrement développée en France par Valette-
Florence (1988a,b, 1990) pour des applications en Marketing. L ?approche PLS est disponible dans le
programme LVPLS 1.8 de Lohmoller (1987).

8.1 L'algorithme NIPALS


Les principes de l'algorithme NIPALS (Nonlinear estimation by Iterative Partial Least Squares)
sont à la base de la régression PLS. Cet algorithme a été d'abord présenté par Wold (1966) pour
l'analyse en composantes prinipales sous le nom de NILES (Nonlinear estimation by Iterative Least
Squares).

75
8.1 L'algorithme NIPALS

L'algorithme NIPALS permet de réaliser une analyse en composantes principales d'un tableau
individus × variables X avec données manquantes, sans avoir à supprimer les individus à données
manquantes ni à estimer les données manquantes, ne soit pas plus connu.
Nous allons décrire dans ce chapitre l'algorithme utilisé pour l'analyse en composantes principales en
suivant la présentation de Wold, Esbensen et Geladi (1987).
On dispose d'un tableau individus × variables noté X = {xji } et de rang r. Les colonnes de
X sont notées x1 , . . . , xj , . . . , xp et supposées centrées. La formule de décomposition de 'analyse en
composantes principales s'écrit
Xr
X= th a0h (8.1)
h=1

où les vecteurs th = (th1 , . . . , thn et ah = (ah1 , . . . , ahn )0 ont respectivement les composantes prin-
)0
cipales et les vecteurs directeurs des axes principaux. Les variables xj s'expriment en fonction de
composantes t1 , . . . , tr :
r
X
xj = ahj th , j = 1, . . . , p (8.2)
h=1

la i-ième ligne de X est notée x0i = (x1i , . . . , aji , . . . , xpi ). Alors les individus xi peuvent aussi s'exprimer
en fonction des vecteurs a1 , . . . , ar :
r
X
xi = thi ah , i = 1, . . . , n (8.3)
h=1

La double orthogonalité des composantes principales th et des vecteurs directeurs ah est caractéristique
de l'analyse en composantes principales. on en déduit que ahj est le coecient de régression de th dans
la régression de xj sur th et thi celui de ah dans la régression sans constante de xi sur ah . on en déduit
également que, pour h > 1, ahj est le coecient de régression de th dans la régression de xj − h−1
P
Ph−1 l=1 alj tl
sur th et thi celui de ah dans la régression sans constante de xi − l=1 tli al sur ah .
On peut aussi considérer la décomposition (4.1) comme un modèle et les paramètres ahj et thi
comme des quantités à estimer. Wold propose pour chaque indice h une recherche itérative de ces
paramètres. pour h = 1, on obtient une solution (a1 , t1 ) telle que a1j est la pente de la droite des
moindres carrés du nuage de points (t1 , xj ) et t1i est la pente de la droite des moindres carrés passant
par l'origine du nuage de points (a1 , xi ). Pour h > 1 on obtient une solution (ah , th ) telle que ahj est la
pente de la droite des moindres carrés du nuage de points (th , xj − h−1 ) et thi est la pente de la
P
l=1 alj tlP
droite des moindres carrés passant par l'origine du nuage de points (ah , xi − h−1 l=1 tli al ).
Lorsqu'il n'y a pas de donnée manquante, NIPALS conduit à l'analyse en composantes principales
usuelle. Lorsqu'il y a des données manquantes on obtient encore des valeurs utiles (estimations) des
composantes th et des vecteurs ah qui permettent de décrire la matrice des données X et d'estimer les
données manquantes.
Ainsi, l'algorithme NIPALS permet d'estimer les paramètres d'un modèle non-linéaire (en fait bili-
néaire) à l'aide d'une seule suite de régressions simples entre les données et une partie des paramètres.
D'où la signication complète du terme NIPALS (Nonlinear estimation by Iterative Partial Least
Squares) qui nous a été suggérée par Antoine de Falguerolles. Par ailleurs l'algorithme NIPALS a été
étendu à l'estimation de modèles bilinéaires généralisés par de Falguerolles et Francis (1995) et Ducros,
Mondot et de Falguerolles (1997).

Dr Rodnellin Onesime Malouata 76 La photocopie non autorisée est un délit


Chapitre 9
LA méthode ACT-STATIS

La méthode d'analyse multi-tableaux appelée ACT-STATIS (Structuration des Tableaux À Trois


Indices de la Statistique) a été proposée par L'Hermier des Plantes puis développée théoriquement
dans les travaux d'Escouer (1976) et popularisée par Lavit (1988) ou encore Lavit et al. (1994). Elle
a été présentée encore par Dazy et Le Barzic (1996) dans un ouvrage portant sur l'analyse des données
évolutives dans le domaine de la socio-économie.
ACT-STATIS est une méthode d'analyse de données qui consiste à étudier une famille d'opérateurs
de covariance ( ) à l'aide du produit scalaire de Hilbert-Schmidt entre opérateurs, dans le but d'extraire
l'information commune (qui reète au mieux les covariations stables entre les diérents tableaux)
contenue dans un ensemble de tableaux individus × variables sous forme de graphiques. La méthode
est reconnue comme un standard conceptuel dans plusieurs revues comparatives récentes.

9.1 Contexte des méthodes


On considère un multi-tableau X = [X1 | . . . |XN ] constitué de N tableaux Xj , j = 1, . . . , N A
chaque tableau Xj est associé une métrique Qj dans l'espace des individus, et une métrique D dans
l'espace des variables. Les tableaux sont D-centrés en général et on se restreint à une étude horizontale
(X, Q, D, ∆). Celle-ci est constituer à partir de N études (Xj , Qj , D) pour j = 1, . . . , M portant sur
les mêmes individus et N groupes de variables, ayant respectivement p1 , p2 , . . . , pN où p = N
P
j=1 pj
(voir gure).
On aecte à chaque étude un poids πj . L'ensemble de ces poids est rassemblé dans un tableau ∆ =
diag(πj ; 1 ≤ j ≤ N ) appelé matrice des poids des études.
2
Wj D = Xj Qj Xj0 D est l'opérateur d'Escouer de format (n × n) déni dans Rn , dans cet espace , on
utilise le produit scalaire de Hilbert-SCHMIDT.

Figure 9.1  Analyse d'un multi-tableau horizontal

77
9.2 Dénition et solutions

9.2 Dénition et solutions


La méthode STATIS permet d'examiner la reproductibilité d'une structure. Son objectif est de dé-
nir dans un premier temps la structure commune à ces tableaux, appelée "compromis", puis d'étudier
la variabilité de cette structure à travers chaque tableau. Il s'agit donc de comparer plusieurs analyses
de tableaux ayant en commun les lignes-individus (on dit STATIS sur les opérateurs WD). Elle privi-
légie les positions relatives des individus.
La méthode ACT-STATIS caractérise une étude (Xj , Qj , D) par un objet Wj = Xj Qj Xj0 qui est la
matrice des produits scalaires entre individus (de taille n × n).
Elle utilise le produit scalaire de Hilbert-Schmidt pour induire une distance entre deux objets. A partir
de ce produit scalaire, on dénit les notions de la norme de Hilbert-Schmidt d'un objet Wj qui n'est
autre que la variance vectorielle de Escouer (1973) par
r
X
kWj k2HS = V arv(Xj ) = tr(Xj Qj Xj0 DXj Qj Xj0 D) = tr(Wj DWj D) = λ2s pour j = 1, . . . , N
s=1

où tr(A) est la trace de la matrice A, c'est-à-dire la somme de ses éléments diagonaux et de la covariance
vectorielle entre deux études (Xj , Qj , D) et (Xl , Ql , D) introduite par Escouer (1973) et λs désigne
la sième valeur propre de Wj D et, par

Covv(Xj , Xl ) = tr(Xj Qj Xj0 DXl Ql Xl0 D) = tr(Wj DWl D) pour j, l = 1, . . . , N

Ce résultat est bien connu et traduit la co-inertie entre les triplets (Xj , Qj , D) et (Xl , Ml , D). Elle
mesure la concordance parfaite entre deux nuages d'individus et est l'équivalent entre deux tableaux
d'une covariance entre deux variables.

La distance induite entre deux objets est dénie par :

d2 (Wj , Wl ) = ||Wj − Wl ||2HS pour j, l = 1, . . . , N

Enn, on dénit le coecient de corrélation vectorielle entre études, plus communément appelé RV
par
Covv(Xj , Xl )
RV (Xj , Xl ) = p p
V arv(Xj ) V arv(Xl )
Si RV (Xj , Xl ) = 0, alors toutes les variables de Xj ont une covariance nulle avec celles de Xl .
Si RV (Xj , Xl ) = 1 les études sont équivalentes, dans le sens où l'image euclidienne de l'une est
proportionnelle à celle de l'autre.
Ces dénitions ont une grande importance puisque ce sont elles qui permettent de trouver un objet
moyen appelé compromis Wc résumant les objets Wj , pour j = 1, . . . N .

La diagonalisation de l'objet Wc permet d'obtenir une image euclidienne des N études.


La méthode ACT-STATIS se décompose en trois étapes successives : l'interstructure, le compromis et
l'intrastructure.
L'interstructure : Un objet représentatif de chaque tableau Xj est choisi. Puis les relations entre
les diérents objets sont étudiées : C'est une comparaison globale de la structure des N tableaux de
données.
Le compromis : C'est la recherche d'un objet résumant les N tableaux.Il devra être représentatif
des tableaux selon un critère. Il est de même nature que les objets représentatifs.
L'intrastructure : C'est l'étude des structures internes des tableaux.

9.2.1 Interstructure
C'est l'étude des relations entre les diérents tableaux. Cette étape consiste à chercher les ressem-
blances et les dissemblances des N -objets en diagonalisant la matrice de covariance vectorielle. A cette
étape, on cherche d'abord à déterminer les objets Wj qui sont les matrices de produits scalaires entre

Dr Rodnellin Onesime Malouata 78 La photocopie non autorisée est un délit


LA méthode ACT-STATIS

les individus du tableau Xj . Ensuite, on dénit une distance c'est-à-dire une métrique permettant de
mesurer la distance entre deux de ces objets. A partir de ces distances, on construit une image eucli-
dienne des N études.
Si C est la matrice des produits scalaires entre les tableaux Wj et Wl d'élément général Cjl =
covv(Xj , Xl ) = tr(Wj DWl ), alors la diagonalisation de la matrice C∆ permet d'obtenir les vecteurs
propres {us }s=1,...,r appartenant à RN associés aux valeurs propres {θs }α=1,...,r , avec r le rang de la
matrice C .

L'interstructure revient à diagonaliser la matrice en écrivant sous la forme : C∆u = αu où u est un


vecteur propre de la matrice C∆ associé à la plus grande valeur propre α . u est le vecteur normé à 1
(||u||∆ = 1). Nous ne retiendrons que le premier vecteur propre.

Dans l'image euclidienne


√ obtenue, on
√ associe aux objets Wj , j = 1, . . . , N les points Qj , j = 1, . . . , N
de coordonnées ( θs us = √θ C∆us , θt ut = √θ C∆ut ) pour tous s = 1, . . . , r et t = 1, . . . , r. Les
1 1
s t
points Qj , j = 1, . . . , N représentent le nuage des points-tableaux et le cosinus de l'angle OQj et OQl
représentent l'approximation du produit scalaire normé entre les opérateurs Wj et Wk .

Figure 9.2  Représentation de l'interstructure

La gure a représente l'interstructure qui n'a pas de problème de norme car les èches ont tous
approximativement la même longueur alors que la gure b , les èches n'ont pas tous la même longueur.
WXj
C'est pourquoi il sera utile de diviser les objets par leurs normes ||WXj ||HS . Ainsi, la notion de covariance
vectorielle est remplacée par la corrélation vectorielle.
Il est donc possible de diagonaliser la matrice des corrélations vectorielles RV d'élément général
Rv(Xj , Xl ) représentant le cosinus de l'angle formé par les objets d'Escouer (1976).
La diagonalisation de cette matrice conduit à l'équation aux valeurs propres suivantes : RV u = αu Où
u est un vecteur propre de la matrice RV associé à la plus grande valeur propre α.

9.2.2 Compromis
L'interstructure ne sut pas car elle ne permet d'expliquer ni les ressemblances, ni les dissemblance
entre les diérents tableaux étudiés. Il est donc nécessaire de dénir un compromis de la même nature
que les objets représentant les études et qui soit un bon résumé global de l'ensemble de tous les objets

Dr Rodnellin Onesime Malouata 79 La photocopie non autorisée est un délit


9.2 Dénition et solutions

au sens du critère. Le compromis peut être déni comme moyenne pondérée des objets Wj :

N N
X 1 X
Wc = ε πj αj Wj avec ε = √ πj ||Wj ||HS , dans le cas des objets non normés
j=1
θ1 j=1
N
X 1
Wc = ε πj αj Wj avec ε = √ , dans le cas des objets normés
j=1
θ1
On a ||Wc || = εθ1

où ε est un coecient de normalisation qui permet de ramener le compromis Wc à la même échelle


que les objets utilisés et u = [α1 , α2 , . . . , αN ]0 est un vecteurs de poids de N opérateurs Wj .
La maximisation de la fonction ||Wc ||2HS = tr(Wc DWc D) conduit à déterminer le compromis par la
recherche du vecteur u soumis à la contrainte de norme unité u0 u = N j=1 αj = 1. La solution de ce
2
P
problème conduit à diagonaliser la matrice C∆. En eet,

 
XN N
X
||Wc ||2HS = tr(Wc DWc D) = ε2 tr  πj αj Wj D π l αl Wl D 
j=1 l=1
N X
X N
= πj πl αj αl tr(Wj DWl D)
j=1 l=1
N X
X N
= πj πl αj αl Cj,l car Cj,l = tr(Wj DWl D)
j=1 l=1
0
= u C∆u (9.1)

Le compromis étant une matrice dénie positive, d'après le théorème de Perron-Frobenius, le premier
vecteur u1 a toutes les composantes de même signe et pour cela elles peuvent être choisies positives.

Théorème de Perron-Frobenius

Toute matrice symétrique ayant tous ses termes positifs admet un premier vecteur propre dont
toutes les coordonnées sont de même signe.

W étant de même nature que les objets Wj , il peut être vu comme la matrice des produits scalaires
√ √ √
entre les individus du tableau Xc = [ επ1 α1 X1 | . . . | επj αj Xj . . . | επN αN XN ] ou si les objets sont
√ √ √
non normés Xc = [ επ1 α1 X1 / ||Wj ||HS | . . . | επj αj Xj / ||Wj ||HS . . . | επN αN XN / ||Wj ||HS ]
p p p

Remarque

W est situé sur le premier axe de l'interstructure à la distance ||Wc || = ε θ1

Dr Rodnellin Onesime Malouata 80 La photocopie non autorisée est un délit


LA méthode ACT-STATIS

9.2.3 Interprétation graphique

La gure a montre le cas où le compromis n'a aucun sens. En eet les objets sont de même norme
mais qui n'ont pas de structure commune. Dans ce cas l'analyse s'arrête.
La gure b montre également le cas où le compromis n'a pas de sens puisque les objets n'ont pas
la même norme. Dans ce cas l'analyse ne s'arrête pas mais on travaille avec les objets normés ou le
coecient de corrélation.
La gure c montre un cas particulier où un objet semble diérent des autres , dans ce cas, il
serait bon de comprendre pourquoi l'étude 1 est diérente des autres et l'éliminer de l'étude avant de
continuer l'analyse.
La gure d est le modèle du compromis réussi car tous les objets ,de même norme, sont autour du
compromis

9.2.4 Intrastructure
L'intrastructure est une étape qui consiste à représenter le nuage des individus (ou nuage des
variables) caractérisés par l'ensemble de K tableaux an d'obtenir l'image euclidienne compromis des
individus (ou des variables).
Pour obtenir l'image euclidienne compromis des individus, on fait l'analyse en composantes principales
du nuage d'individus dont les produits scalaires sont caractérisés par la matrice Wc .
L'image euclidienne compromis des individus obtenue est composée des points Ne , e = 1, . . . , n de
√ √
coordonnées ( µs vs , µt vt ) pour tous s = 1, . . . , n et t = 1, . . . , n avec vs vecteur propre de la matrice
Wc D associé à la valeur propre µs . Pour interpréter la position des individus sur un axe quelconque s,
on calcule les corrélations de la composante principale du compromis correspondant à cet axe s avec
les variables de chaque étude.
Ces corrélations entre les variables (xj )k , j = 1, . . . , pj centrée réduite du tableau Xj et la variable vα
est égale :
0
< (xj )k , vs >D = (xj )k Dvs

Dr Rodnellin Onesime Malouata 81 La photocopie non autorisée est un délit


9.2 Dénition et solutions

Ces corrélations peuvent être résumées sur un graphique qui est très utile pour expliquer les positions
compromis des individus dans leur image euclidienne.
Les trajectoires permettent de décrire les écarts des objets (objets entre eux et avec le compromis) qui
ont été mis en évidence lors de l'étude de l'interstructure au niveau individuel.
Pour situer dans l'image euclidienne du compromis les individus qui n'ont pas intervenu dans la déter-
mination de l'intrastructure ni dans la dénition du compromis, il est nécessaire de les traiter comme
individus supplémentaires puis calculer les coordonnées des points de leurs trajectoires correspondant
aux études dans lesquelles ils sont présents. Ainsi les coordonnées des individus du tableau Xj sur l'axe
α sont données par :
1
√ Wj Dvs
ρs
où vs est le vecteur propre D-normé d'ordre s de la matrice Wc D associé à la plus grande propre ρ.

Dr Rodnellin Onesime Malouata 82 La photocopie non autorisée est un délit


Chapitre 10
STATIS DUALE

Cette méthode a la même démarche que STATIS, mais ces deux méthodes ne conduisent pas au
même résultat. Lorsque les données se présentent sous la forme de plusieurs groupes d'individus mesurés
sur les même variables dans des situations diérentes,la méthode STATIS Duale, basée sur l'analyse
en composantes principales, permet de répondre aux objectifs suivants :
ˆ déceler quels sont les tableaux qui se ressemblent,

ˆ fournir un tableau résumé de l'ensemble,

ˆ décrire les diérences entre tableaux par rapport à ce résumé : sont-elles dues aux individus ou
variables ?

10.1 Contexte de la méthode


La méthode STATIS duale est utilisée si le tableau X est partitionné en plusieurs sous-tableaux
Xi de dimension ni × p (i = 1, . . . , M ). La liste de p variables est la même pour toutes les répétitions.
On obtient un multi-tableau vertical X = [X10 | . . . |XM 0 ]0 . Ainsi, à chaque tableau X est associé une
i
métrique Q dans l'espace des individus et une métrique Di dans l'espace des variables. Les tableaux
peuvent être centrés et éventuellement réduits. Il en résulte
P M études (Xi , Q, Di ) constituant une étude
verticale (X, Q, D). D = diag(Di , i = 1, . . . , M ), n = M i=1 ni (voir gure 3.1 (a)).

10.2 Dénition et principe


La méthode STATIS duale permet l'exploration simultanée de plusieurs tableaux de données quan-
titatives. Elle détermine la structure commune aux tableaux, qu'on appelle intrastructure. Pour le
tableau Xi , cette structure est décrite par les distances mutuelles entre les variables, déduites du ta-
bleau de variance-covariances VXi = Xi 0 Di Xi .
Cette méthode se décline en trois étapes comme c'est le cas pour la méthode STATIS : l'interstructure,
le compromis et l'instrastructure.
La méthode STATIS duale privilégie les relations entre les variables. Elle est semblable à la méthode
STATIS en prenant la matrice de variance-covariances VXi = Xi 0 Di Xi au lieu de la matrice de produits
scalaires des individus WXi = Xi QXi 0 . La métrique Q est xée et indépendante de la répétition.
On utilise alors le produit scalaire de Hilbert-Schmidt entre matrices carrées VXi = Xi 0 Di Xi de taille
p×p :
0 0
zik = hVXi |VXk i = Covv(Xi , Xk ) = tr(Xi Di Xi QXk Dk Xk Q) = tr(VXi QVXk Q)
En désignant par zik = Covv(Xi , Xk ) la covariance vectorielle mesurant la co-inertie du couple
{(Xi , Q, Di ), (Xk , Q, Dk )} et par
0 0
zi = hVXi |VXi i = V arv(Xi ) = tr(Xi Di Xi QXi Di Xi Q) = tr(VXi QVXi Q)

83
10.3 Procédure de détermination de la solution

la variance vectorielle mesurant l'inertie interne du tableau Xi , on construit le tableau Z de dimension


M × M par :
Z = [zik ]1≤i,k≤M .

Il en résulte, aux notions de covariance vectorielle et de variance vectorielle de déterminer le coecient


de corrélation vectorielle Rv déni par :

Covv(Xi , Xk )
Rv(Xi , Xk ) = p
V arv(Xi )V arv(Xk )

Un coecient RV proche de 1 signie qu'on a la structure des variables à l'intérieur des tableaux Xi
et Xk , et que par conséquent les positions mutuelle des variables sont les même dans les conditions i
et k .

10.3 Procédure de détermination de la solution


Comme dans STATIS, STATIS duale se déroule en trois étapes : Interstructure, compromis, intra-
structure.

10.3.1 Interstructure
C'est l'étape de mise en évidence des ressemblances et des dissemblances entre les M études sans
les expliquer. On compare les tableaux aux moyen des objets VXi . Par opposition de l'intrastructure
qui décrit la structure des individus à l'intérieur d'un tableau, on appelle interstructure les relations
entre les tableaux, décrites par la distances VXi . Ces distances sont déduites du produit scalaire de
Hilbert-Schmidt entre applications linéaires.
Après avoir associé à VXi Q un poids positif πi , on diagonalise la matrice Ω = [πi πk zik ]1≤i,k≤M
contenant l'information des M études. Cette diagonalisation permet d'obtenir les vecteurs {a(s) }s=1,...,r
associés aux valeurs propres {ηs }s=1,...,r vériant la relation

1 √
√ Ω = ηs a(s)
ηs

où ∆ = diag(πi /i = 1, . . . , M ).
Cette relation montre que l'analyse du nuage des opérateurs VXi Q n'est autre que l'analyse en compo-
santes principales. Cela fournit alors une image euclidienne dénie par un nuage des opérateurs VXi Q
auquel on a attribué les poids πi . En notant par Oi , i = 1, . . . , M les points de ce nuage associé à
√ √
VXi Q, les coordonnées de ces derniers sont de la forme ( ηs a(s) ; ηs a(s) ).

10.3.2 Compromis
C'est l'étape fondamentale de la méthode. A partir de l'image euclidienne des tableaux, on construit
un objet compromis Vc en prenant la moyenne des Vi pondérée par les coordonnées des points-tableaux
sur le premier axe. Vc peut être considéré comme un tableau de variance-covariance moyen entre
les variables. L'image euclidienne des individus, associée à ces variances-covariances, représente les
positions mutuelles moyennes des variables.
Le compromis Vc est une matrice de variance-covariances de taille p × p. C'est une combinaison
linéaire des M opérateurs initiaux VXi Q. La recherche de compromis Vc résulte du problème de maxi-
misation
hVc |Vc iHS = tr(Vc QVc Q)

sous la contrainte
M
X
b0 b = βi2 = 1 (10.1)
i=1

Dr Rodnellin Onesime Malouata 84 La photocopie non autorisée est un délit


STATIS DUALE

√ √
où Vc = M i=1 πi βi VXi = Xc DXc avec Xc = [ π1 β1 X1 | . . . | πM βM XM ] .
0 0 0 0
P
Par conséquent, ce problème peut encore s'écrire :
Maximiser

||Vc ||2HS = hVc , Vc iHS = tr(Vc QVc Q)


XM M
X
= tr( βi πi VXi Q βk πk VXk Q)
i=1 k=1
M
XX M
= βi βk πi πk tr(VXi QVXk Q)
i=1 k=1
XM X M
= βi βk πi πk Covv(Xi , Xk )
i=1 k=1
0
= b Ω∆b

sous la contrainte b0 b = 1.
Le vecteur b est vecteur propre de la matrice Ω∆.
D'où il en résulte le tableau compromis Xc et la matrice de variance-covariances Vc .
Lorsque les distances entre les objets Vi dénies dans l'interstructure sont faibles, on peut armer qu'il
existe bien une structure des variables, commune aux tableaux. Cette structure est alors décrite par
les distances compromis entre variables.

10.3.3 Intrasructure
C'est l'étape de la description des individus et des variables compromis, ainsi que des individus et
des variables des tableau Xi , i = 1, . . . , M . Comme dans STATIS, l'image euclidienne des variables-
compromis est obtenue en faisant l'ACP de Xc avec la métrique diagonale par bloc des métriques
Di . Dans l'image euclidienne compromis des variables, on trace la trajectoire de chaque variable,
en utilisant la technique des éléments supplémentaires. L'interstructure a mis en évidence, sans les
expliquer, les écarts entre tableaux. Les trajectoires permettent de déceler quels sont les variables qui
sont responsables de ces écarts. En notant λsd l la l
ieme valeur propre de la matrice V Q = V et bsd
c c l
vecteur propre de norme unité associé, les coordonnées des variables-compromis sur l'axe l sont données
par : q q
sd sd
λsd
l bl = Vc bl / λsd
l

Les trajectoires des variables sont obtenue en représentant en supplémentaire les variables des objects
Vi (Vi /||Vi ||HS . Les coordonnées des p variables du tableau Xi sur l'axe l sont données par :
q q
sd sd
Vi bl / λl (resp Vi bl / λsd
sd
l ||Vi ||HS

. Cette représentation des trajectoires n'est pas forcément optimale. Les individus du tableau ne sont
pas projetés sur les individus compromis, et ne sont pas non plus donnés par une représentation
euclidienne.

Dr Rodnellin Onesime Malouata 85 La photocopie non autorisée est un délit


10.3 Procédure de détermination de la solution

Dr Rodnellin Onesime Malouata 86 La photocopie non autorisée est un délit


L'analyse en composantes communes et poids
spéciques (ACCPS)

L'ACCPS a été introduite et utilisée dans le cadre de l'analyse sensorielle par Quannari et al.
(2000)et Quannari et al.(2001). Elle a été ensuite introduite par Pram Nielsen et al. (2001) pour
l'étude de données instrumentales puis utilisée par Courcoux et al. (2002) pour analyser les images
multispectrales et par (Mazerolles et al., 2002 ; Mazerolles et al., 2006 ; Hana et al., 2006) pour le
couplage de plusieurs appareils de mesure. Cependant, son aspect algorithmique n'a jamais été discuté
de manière détaillée.
Récemment, une nouvelle formulation de la méthode et des nouvelles propriétés utiles pour l'interpré-
tation des résultats ont été proposées par Hana et Quannari (2008). Cette nouvelle formulation a
permis de suggérer un nouvel algorithme plus rapide que l'algorithme original.

10.4 Dénition et solutions


L'ACCPS est une méthode successive qui stipule l'existence de composantes communes pour tous
les tableaux mais les poids de ces tableaux peuvent être diérents pour chacune des composantes.
La méthode consiste à minimiser la fonction de perte

N
(1)
X
L1 = ||Wj D − αj W ||2
j=1

0
W étant semi dénie positive , elle peut s'écrire alors sous la forme W = c(1) c(1) (une matrice com-
promis de dimension 1) où c(1) est une composante commune ayant une conguration compromis de
tableaux X1 , X2 , . . . , XN . La fonction de perte peut s'écrire encore

N
(1) 0
X
L1 = ||Wj D − αj c(1) c(1) ||2
j=1

Cette fonction s'écrit aussi

N N N
(1) 0 (1)
X X X
2
L1 = ||Wj D|| − 2 αj tr(c(1) DWj Dc(1) ) + [αj ]2
j=1 j=1 j=1

Une fois trouvé à l'ordre 1 la composante c(1) par minimisation de L1 , on calcule les poids spéciques
(1)
αj et la fonction de perte L1 .
Les solutions d'ordre supérieur s, (s > 1) sont déterminées par récurrence en maximisant la même
fonction de perte après avoir remplacé les le tableau Xj = Xj,0 par Xj,s−1 .
(1)
La solution de l'ACCPS est obtenue à partir d'un algorithme. Pour αj xés pour tout j = 1, . . . , N ,

87
10.4 Dénition et solutions

0
la minimisation de L1 sous la contrainte c(1) Dc(1) = 1 conduit à l'équation stationnaire
 
N
(1)
X
 αj Wj D c(s) = ρmax
1 c(1)
j=1
P 
N (1)
c(1) est le vecteur propre de la matrice j=1 αj Wj D associé à la plus grande valeur propre ρmax
1 .
En xant maintenant c(1) , il en résulte les poids spéciques tels que
(1) 0 0
αj = tr(Wj Dc(1) c(1) D) = c(1) DWj Dc(1)

Ces dernières relations conduisent à l'algorithme de Qannari et al. (2000) dont le résumé est le suivant :

(1)
(1) Les poids spéciques αj , j = 1, . . . , N sont initialisés à 1.
P 
N (1)
(2) Le vecteur c(1) est le vecteur propre de la matrice α
j=1 j W j D associé à la plus grande
valeur propre ρ1 .
max

(1) 0 0
(3) Les poids spéciques sont dénis par les relations : αj = tr(Wj Dc(1) c(1) D) = c(1) DWj Dc(1)
On peut alors évaluer la fonction L1 à l'ordre 1 par la relation :
N N N
(1) 0 (1)
X X X
L1 = ||Wj D − αj c(1) c(1) ||2 = ||Wj D||2 − [αj ]2
j=1 j=1 j=1

N
X
= ||Wj D||2 − ρmax
1
j=1
PN (1)
où ρmax
1 = j=1 [αj ]2 . En commençant l'algorithme à l'étape (2), on réitère la procédure jusqu'à ce
que la variation de cette fonction devienne inférieure à un seuil xé par l'utilisateur. Les choix successifs
des composantes communes et poids spéciques conduisent à une minimisation du critère L1 , ce qui
rassure la convergence et la monotonie de l'algorithme.
Le critère de l'analyse en composantes communes et poids spéciques est équivalent à la maximisation
de la fonction
XN
f (c) = (c0 DWk Dc)2
j=1

sous la contrainte de D-norme unité sur c.


Cette équivalence peut être trouvée dans Hana et Qannari (2008) et est très utile dans la mesure où
elle permet d'établir des propriétés supplémentaires à cette méthode. A l'ordre s avec s plus grand que
1, les composantes communes et poids spéciques sont déterminées par les relations suivantes :
 
N
(s) (s−1) 
X
 αj Wj Dc(s) = max c(s)
j=1
(s) 0 (s−1)
αj = c(s) DWj Dc(s)
N
(s−1) (s) 0
X
L1 = ||Wj D − αj c(s) c(s) ||2
j=1
N N
(s−1) (s)
X X
= ||Wj D||2 − [αj ]2
j=1 j=1
N
(s−1)
X
= ||Wj D||2 − ρmax
s
j=1

Dr Rodnellin Onesime Malouata 88 La photocopie non autorisée est un délit


STATIS DUALE


Xj,0 = Xj
(s−1) (s−2)
Xj = Pc⊥(s−1) Xj
et
(s−1) (s−1) (s−1)0
Wj = Xj Mj Xj
0
avec Pc⊥(s−1) = In − Pc(s−1) et Pc(s−1) = c(s−1) c(s−1) D le projecteur D-orthogonal sur l'espace en-
gendré par c(s−1) .

Nous constatons que le poids spécique associé à chaque composante commune est positif. Il reète
la part d'inertie expliquée par la composante commune associé.
L'ACCPS proposée par Hana et Qannari (2008) a un intérêt multiple.

(1) Elle apporte un éclairage en exhibant des composantes partielles dans tous les tableaux qui sont
associés de façon optimal aux composantes communes.

(2) Elle fournit des éléments d'interprétation nouveaux précisant plus la nature des composantes
communes et des poids spéciques.

(3) Elle suggère un nouvel algorithme pour déterminer des composantes communes et des poids
spéciques ainsi que des composantes partielles.

(4) Elle permet de mieux situer l'ACCPS par rapport aux autres méthodes d'analyses de tableaux
multiples.

10.5 Commentaires
Les trois méthodes sont centrées sur la notion de structures communes et les résultats communs
qu'elles donnent avec des logiques diérentes sont normalement cohérents. Elles déterminent la solution
de manière successive. L'ACOM fait le découpage de l'inertie des N nuages d'individus dans chaque
espace Rpj . L'ACOM fait N analyses (coordonnées) et en trouve une moyenne. STATIS cherche une
moyenne et en fait une analyse. La méthode STATIS est basée sur les matrices individuelles Wk des
produits scalaires entre produits. L'utilisation des matrices de produits scalaires au lieu des con-
gurations elles-mêmes présente l'avantage de déterminer explicitement les rotations qui ajustent les
congurations.
L'ACCPS détermine un tableau compromis de dimension xée. Les composantes communes cs forment
une base orthonormée de Rn et s'apparentent aux variables auxiliaires zs dans l'ACOM.

Cette façon de généraliser les méthodes du chapitre 1 permet de privilégier les individus. Nous al-
lons présenter dans le chapitre suivant une autre façon de généraliser ces méthodes.

Dr Rodnellin Onesime Malouata 89 La photocopie non autorisée est un délit


10.5 Commentaires

Dr Rodnellin Onesime Malouata 90 La photocopie non autorisée est un délit


Chapitre 11
Analyse conjointe de plusieurs cubes ou
tableaux appariés par colonnes

Dans le chapitre précédent, il était question d'étudier la structure des méthodes d'analyses conjointes
de plus de deux tableaux appariés par lignes. Cette étude a révélé que les trois méthodes sont centrées
sur la notion de structures communes et les résultats communs qu'elles donnent avec des logiques dif-
férentes sont cohérents. Ces méthodes tiennent compte de la structure interne des tableaux et du lien
entre ces diérents tableaux. Elles dénissent un élément commun à tous les tableaux qui est soit une
variable ou une matrice appelée compromis.

Dans ce chapitre, nous allons étendre les méthodes du chapitre 1 en étudiant la structure interne
de chaque tableau et en caractérisant des relations existant entre les diérents tableaux. Quand l'ob-
servation est renouvelée, l'étude privilégie les relations entre les variables au lieu des individus. En
outre, lorsque les observations et les variables sont les mêmes, l'étude traite d'égal à égal les relations
entre les observations et entre les variables.

Figure 11.1  Analyse d'un cube de données et d'un multi-tableau vertical


Dans le premier cas, on commencera par présenter la méthode STATIS duale qui est une approche
semblable à la méthode STATIS en prenant la matrice des covariances des variables à la place de la
matrice des produits scalaires des individus. Ensuite, on présente l'analyse en composantes communes
et poids spéciques duale (ACCPS duale) qui est la méthode jumelle de l'ACCPS. En outre, on pré-
sente dans le même contexte que ces deux dernières méthodes l'analyse en composantes principales
d'un multi-tableau vertical (ACP) proposée récemment par Niéré (2014) et l'analyse d'un multi-tableau
vertical successive (AMVs) proposée par Kissita et al. (2013b).

91
11.1 La méthode STATIS duale

Dans le second cas, on présentera l'analyse triadique partielle (ATP) introduite en écologie par Thiou-
louse et Chessel (1987) et qui permet de trouver une structure commune à tous les tableaux. On
présentera en plus deux récentes méthodes : l'analyse triadique partielle successive (ATPs) et l'analyse
triadique simultannée (ATPS) proposées respectivement par Mizère et al. (2013) et par Nguessolta
(2014).
Une analyse est réservée par section. Dans le premier cas, on privilégiera une présentation spécique
qui permettra de dénir un élément commun des tableaux appelé compromis. Enn, pour ce contexte
un commentaire de ces méthodes sera fait.

On montrera alors qu'aucune de ces méthodes de la famille STATIS n'a pu apporter d'indication
qui aurait échappé à l'autre. Les diérences théoriques entre les trois analyses résident au niveau de la
mise ÷uvre.

11.1 La méthode STATIS duale


Cette méthode a la même démarche que STATIS, mais ces deux méthodes ne conduisent pas au
même résultat.

11.1.1 Contexte de la méthode


La méthode STATIS duale est utilisée si le tableau X est partitionné en plusieurs sous-tableaux
Xi de dimension ni × p (i = 1, . . . , M ). La liste de p variables est la même pour toutes les répétitions.
On obtient un multi-tableau vertical X = [X10 | . . . |XM 0 ]0 . Ainsi, à chaque tableau X est associé une
i
métrique Q dans l'espace des individus et une métrique Di dans l'espace des variables. Les tableaux
peuvent être centrés et éventuellement réduits. Il en résulte
PM M études (Xi , Q, Di ) constituant une étude
verticale (X, Q, D). D = diag(Di , i = 1, . . . , M ), n = i=1 ni (voir gure 3.1 (a)).

11.1.2 Dénition et principe


La méthode STATIS duale permet l'exploration simultanée de plusieurs tableaux de données quan-
titatives. Elle détermine la structure commune des variables.
Cette méthode se décline en trois étapes comme c'est le cas pour la méthode STATIS : l'interstructure,
le compromis et l'instrastructure.
La méthode STATIS duale privilégie les relations entre les variables. Elle est semblable à la méthode
STATIS en prenant la matrice de variance-covariances VXi = Xi 0 Di Xi au lieu de la matrice de produits
scalaires des individus WXi = Xi QXi 0 . La métrique Q est xée et indépendante de la répétition.
On utilise alors le produit scalaire de Hilbert-Schmidt entre matrices carrées VXi = Xi 0 Di Xi de taille
p×p :
0 0
zik = hVXi |VXk i = Covv(Xi , Xk ) = tr(Xi Di Xi QXk Dk Xk Q) = tr(VXi QVXk Q)
En désignant par zik = Covv(Xi , Xk ) la covariance vectorielle mesurant la co-inertie du couple
{(Xi , Q, Di ), (Xk , Q, Dk )} et par
0 0
zi = hVXi |VXi i = V arv(Xi ) = tr(Xi Di Xi QXi Di Xi Q) = tr(VXi QVXi Q)

la variance vectorielle mesurant l'inertie interne du tableau Xi , on construit le tableau Z de dimension


M × M par :
Z = [zik ]1≤i,k≤M .
Il en résulte, aux notions de covariance vectorielle et de variance vectorielle de déterminer le coecient
de corrélation vectorielle Rv déni par :
−1
Rv(Xi , Xk ) = Covv(Xi , Xk ) [V arv(Xi )V arv(Xk )] 2

Dr Rodnellin Onesime Malouata 92 La photocopie non autorisée est un délit


Analyse conjointe de plusieurs cubes ou tableaux appariés par colonnes

11.1.3 Procédure de détermination de la solution


Comme dans STATIS, STATIS duale se déroule en trois étapes : Interstructure, compromis, intra-
structure.

Interstructure
C'est l'étape de mise en évidence des ressemblances et des dissemblances entre les M études sans les ex-
pliquer. Après avoir associé à VXi Q un poids positif πi , on diagonalise la matrice Ω = [πi πk zik ]1≤i,k≤M
contenant l'information des M études. Cette diagonalisation permet d'obtenir les vecteurs {a(s) }s=1,...,r
associés aux valeurs propres {ηs }s=1,...,r vériant la relation
1 √
√ Ω = ηs a(s)
ηs

où ∆ = diag(πi /i = 1, . . . , M ).
Cette relation montre que l'analyse du nuage des opérateurs VXi Q n'est autre que l'analyse en compo-
santes principales. Cela fournit alors une image euclidienne dénie par un nuage des opérateurs VXi Q
auquel on a attribué les poids πi . En notant par Oi , i = 1, . . . , M les points de ce nuage associé à
√ √
VXi Q, les coordonnées de ces derniers sont de la forme ( ηs a(s) ; ηs a(s) ).

Compromis
C'est l'étape fondamentale de la méthode. Le compromis Vc est une matrice de variance-covariances de
taille p×p. C'est une combinaison linéaire des M opérateurs initiaux VXi Q. La recherche de compromis
Vc résulte du problème de maximisation

hVc |Vc iHS = tr(Vc QVc Q)

sous la contrainte
M
X
b0 b = βi2 = 1 (11.1)
i=1
√ √
où Vc = M i=1 πi βi VXi = Xc DXc avec Xc = [ π1 β1 X1 | . . . | πM βM XM ] .
0 0 0 0
P
Par conséquent, ce problème peut encore s'écrire :
Maximiser

||Vc ||2HS = hVc , Vc iHS = tr(Vc QVc Q)


XM M
X
= tr( βi πi VXi Q βk πk VXk Q)
i=1 k=1
M
XX M
= βi βk πi πk tr(VXi QVXk Q)
i=1 k=1
XM X M
= βi βk πi πk Covv(Xi , Xk )
i=1 k=1
= b0 Ωb

sous la contrainte b0 b = 1.
Le vecteur b est vecteur propre de la matrice Ω.
D'où il en résulte le tableau compromis Xc et la matrice de variance-covariances Vc .

Intrasructure
C'est l'étape de la description des individus et des variables compromis, ainsi que des individus et
des variables des tableau Xi , i = 1, . . . , M .

Dr Rodnellin Onesime Malouata 93 La photocopie non autorisée est un délit


11.2 L'analyse en composantes communes et poids spéciques duale (ACCPS duale)

11.2 L'analyse en composantes communes et poids spéciques duale


(ACCPS duale)
Le contexte de cette méthode est celui de la méthode STATIS duale qui consiste à comparer les
tableaux Xi de dimension ni × p, c'est-à-dire les variables sont les mêmes, mais les individus changent
d'une répétition à une autre. La version primale a été présentée au chapitre 2. Une approche simultanée
de cette dernière peut être trouvée dans Kissita et al. (2009).

11.2.1 Contexte de la méthode


On considère M triplets statistiques (Xi , Q, Di ) où les M tableaux Xi (i = 1, . . . , M ) ont p variables
mesurées sur des groupes de ni individus, éventuellement diérents (voir gure 3.1 (a)).

11.2.2 Dénition et principe


L'ACCPS duale consiste à déterminer à la première étape un vecteur u de Rp commun à tous les
tableaux qui optimise la somme des carrés des variances des combinaisons linéaires de Xi . Ensuite, à
l'étape s avec s strictement supérieur à 1, on procède par déation. Ainsi, l'ACCPS duale découpe
l'inertie de M tableaux dans l'espace Rp . C'est pour cette raison que les déations sont faites dans
l'espace Rp .
L'ACCPS duale peut être dénie comme une méthode séquentielle recherchant le vecteur u de Rp qui
réalise le maximum de la fonction
M
X
f (u) = var2 (Xi Qu)
i=1

sous la contrainte u0 Qu = 1.
Cette fonction peut aussi s'écrire sous la forme

M
X
f (u) = (u0 QVXi Qu)2
i=1
XM
= ρi (u0 QVXi Qu)
i=1

où les ρi = u0 QVXi Qu sont les poids spéciques des vecteurs communs associés aux tableaux Xi
(i = 1, . . . , M ) ou encore des inerties projetées.

11.2.3 Solutions
Comme l'ACCPS, l'ACCPS duale est une méthode qui utilise un algorithme pour déterminer
la solution. Pour ρi (i = 1, . . . , M ) xés, la maximisation de la fonction f sous la contrainte de
normalisation du vecteur u conduit à l'équation suivante :

M
!
(1)
X
ρi VXi Qu(1) = λmax
1 u(1) (11.2)
i=1

Pour u xé, on détermine les poids spéciques

(1) 0
ρi = u(1) QVXi Qu(1) (11.3)

Dr Rodnellin Onesime Malouata 94 La photocopie non autorisée est un délit


Analyse conjointe de plusieurs cubes ou tableaux appariés par colonnes

Il en résulte la relation
M
(1) 0
X
K1 = ||VXi − ρi u(1) u(1) ||2HS
i=1
M M
(1)
X X
= ||VXi ||2HS − (ρi )2
i=1 i=1
XM
= ||VXi ||2HS − λmax
1
i=1

(1) 2
où λmax = M i=1 (ρi ) est la valeur du critère à l'ordre 1.
P
1
Cette solution peut être approchée en utilisant un algorithme identique à celui de l'ACCPS résumé
par les points suivants :
(1)
(1) Les poids spéciques ρi (i = 1, . . . , M ) sont initialisés à 1 ;
P 
M (1)
(2) Le vecteur u(1) est le vecteur propre Q-normé de la matrice i=1 ρi VXi Q, associé à la plus
grande valeur propre λmax
1 ;
(1) 0
(3) Les poids spéciques sont dénis par ρi = u(1) QVXi Qu(1) .

On réitère cette procédure jusqu'à la convergence de l'algorithme.


Les vecteurs communs d'ordre plus grand que 1 et les poids spéciques associés sont obtenus en
(0) (s−1)
déatant successivement les tableaux Xi . Si on pose Xi = Xi pour tout i = 1, . . . , M et Xi le
(s−2)
résidu de la régression de Xi sur le vecteur u(s−1) à l'ordre s, on peut écrire
(s−1) (s−2) 0
Xi = Xi Pu⊥(s−1)

avec
Pu⊥(s−1) = Ip − Pu(s−1)

0
où Pu(s−1) = u(s−1) u(s−1) Q est le projecteur Q-orthogonal sur l'espace engendré par u(s−1) .
L'équation stationnaire à l'ordre s de l'ACCPS duale est donnée par
M
!
(s)
X
ρi VX (s−1) Qu(s) = λmax
s u(s) (11.4)
i
i=1


(s) 0
ρi = u(s) QVX (s−1) Qu(s) (11.5)
i

On en déduit
M
(s) 0
X
Ks = ||VX (s−1) − ρi u(s) u(s) ||2HS
i
i=1
M M
(s)
X X
= ||VX (s−1) ||2HS − (ρi )2
i
i=1 i=1
XM
= ||VX (s−1) ||2HS − λmax
s
i
j=1

(s−1)0 (s−1)
où VX (s−1) = Xi Di Xi .
i
La solution d'ordre s de L'ACCPS duale est obtenue en exécutant le même algorithme utilisé à l'ordre
1.

Dr Rodnellin Onesime Malouata 95 La photocopie non autorisée est un délit


11.3 L'analyse en composantes communes et poids spéciques duale simultanée

11.3 L'analyse en composantes communes et poids spéciques duale


simultanée
Dans la section précédente, nous avons déni l'analyse en composantes communes et poids spéci-
ques duale comme une méthode permettant de traiter simultanément des tableaux multiples appariés
par colonnes. Elle stipule l'existence de vecteurs communs pour tous les tableaux qui permettent de
calculer les inerties projetées de chaque tableau. Les solutions de cette méthode sont déterminées de
manière successive par un algorithme.
Dans cette section, nous présentons une nouvelle formulation simultanée de cette méthode qui déter-
mine une matrice contenant les vecteurs communs à tous les tableaux et les inerties projetées associées.

11.3.1 Contexte de la méthode


Le contexte de la méthode est le même que celui de l'analyse en composantes communes et poids
spéciques duale. On considère un multi-tableau vertical X = [X10 | . . . |XM 0 ]0 de taille n × p (n =
PM
i=1 ni ) formé des tableaux Xi (i = 1, . . . , M ) de dimension ni × p (voir gure 3.1 (b)). On munit
l'espace Rp d'une métrique Q et l'espace Rni d'une métrique Di . On désigne par VXi = Xi0 Di Xi la
matrice de variance-covariances associée au tableau Xi .

11.3.2 Dénition, principe et solution


L'analyse en composantes communes et poids spéciques duale simultanée est la recherche de la
matrice des poids U de dimension p × r, (r = rg(Xi )), contenant les vecteurs colonnes u(1) , . . . , u(r)
maximisant la fonction
M
X
f (U ) = diag||(U 0 QVXi QU ||2 (11.6)
i=1

sous la contrainte U 0 QU = Ir .
Cette fonction peut encore s'écrire
M X
r
0
X
f (u(1) , . . . , u(r) ) = (u(s) QVXi Qu(s) )2
i=1 s=1
M X r
(s)
X
= (ρi )2 (11.7)
i=1 s=1

(s) 0
où ρi = u(s) QVXi Qu(s) , s = 1, . . . , r et i = 1, . . . , M , sont les inerties projetées sur les vecteurs
communs u(s) associés aux tableaux Xi .
L'algorithme de l'analyse en composantes communes et poids spéciques duale simultanée est le même
que celui de l'analyse en composantes communes et poids spéciques (voir Kissita et al., 2009). L'ana-
lyse en composantes communes et poids spéciques duale simultanée substitue les matrices de variance-
covariances à la place des matrices des produits scalaires entre individus.

11.3.3 Procédure de détermination de la solution


L'algorithme itératif et convergent de l'ACCPS duale simultanée est le suivant :
PM
1) Choisir la matrice initiale U constituée des vecteurs propres u(1) , . . . , u(r) de la matrice i=1 VXi
et ε (par exemple ε = 0, 00001) ;

2) Calculer la matrice TU = M i=1 VXi U diag(U QVXi QU ) ;


0
P

3) Faire la décomposition en valeurs singulières de TU = P ∆L0 ;

4) Poser pour mise à jour de U la matrice U ∗ = [u(1)∗ , . . . , u(r)∗ ] = P L0 ;

5) Si f (U ∗ ) − f (U ) ≥ ε, on pose U = U ∗ et aller à 2, sinon l'algorithme a convergé ;

Dr Rodnellin Onesime Malouata 96 La photocopie non autorisée est un délit


Analyse conjointe de plusieurs cubes ou tableaux appariés par colonnes

(s) 0
6) On calcule les poids spéciques ρi = u(s) QVXi Qu(s) pour i = 1, . . . , M et pour s = 1, . . . , r.
La monotonie de l'algorithme est analogue à celle de l'ACCPS simultanée de Kissita et al. (2009).
Les solutions de l'ACCPS et de l'ACCPS duale simultanée ne sont pas les mêmes.

11.4 L'analyse triadique partielle (ATP)


L'analyse triadique partielle (ATP) a été introduite en écologie par Thioulouse et Chessel (1987)
et reprise par Blanc (2000). Elle peut être appelée STATIS sur les tableaux par opposition à STATIS
qui opère sur les opérateurs.

11.4.1 Contexte de la méthode


L'analyse triadique partielle (ATP) est une méthode d'analyse des données qui permet de comparer
plusieurs tableaux ayant en commun les individus (en ligne) et les variables (en colonne).
Soit Xi un tableau de dimension n × p. On obtient un multi-tableau totalement apparié par lignes
et par colonnes appelé cube de données. On désigne par Q une métrique dénie dans Rp et par D la
métrique diagonale des poids des individus. On obtient alors M études (Xi , Q, D) (voir Fig.3.1 (a)).

11.4.2 Dénition, principe et solution


L'objectif de cette méthode est de faire une analyse en composantes principales du compromis
(tableau moyen). En outre, on étudie la variabilité des tableaux initiaux autour du tableau compromis
(la reproductibilté). L'analyse se déroule en trois étapes correspondant aux étapes dénies par Lavit
et al. (1994) : l'interstructure, le compromis et l'intrastructure. Pour comparer les tableaux, on dénit
le produit scalaire entre deux tableaux :
0
Covv(Xi , Xk ) = tr(Xi DXk Q) = tr(VXi Xk Q)

et la variance vectorielle d'un tableau Xi


0
V arv(Xi ) = tr(Xi DXi Q) = tr(VXi Q)

puis le coecient de corrélation entre deux tableaux :

Rv(Xi , Xk ) = Covv(Xi , Xk ) [V arv(Xi )V arv(Xk )]−1/2

Bien que le contexte change, la détermination de la solution se fait de la même manière.

Interstructure
Dans la phase de l'interstructure, il s'agit de faire une typologie commune des tableaux, c'est-à-dire de
comparer entre eux les M tableaux considérés comme les variables d'une ACP. Pour cela, on recherche
une moyenne Xc pondérée de tableaux appelée compromis qui servira de base à la comparaison de M
tableaux entre eux et dénie par :
M
X
Xc = αi Xi
i=1
où les coecients αi , i = 1, . . . , M sont des pondérations indiquant la participation du tableau Xi à la
dénition du compromis. Ils sont calculés de façon que le tableau compromis ait une inertie maximale

||Xc ||2HS = tr(Xc0 DXc Q)

sous la contrainte :
M
X
a0 a = αi2 = 1
i=1

Dr Rodnellin Onesime Malouata 97 La photocopie non autorisée est un délit


11.4 L'analyse triadique partielle (ATP)

où a = [α1 , . . . , αM ]0 .

Dans cette phase la matrice diagonalisée est la matrice des Covv, car on suppose que des tableaux
de mêmes individus et de mêmes variables présentent des inerties de même ordre de grandeur. Les
variances vectorielles sont les inerties des nuages, donc les moyennes des variances des variables, car
les variables sont normalisées.
La diagonalisation de la matrice de covariances vectorielles (Covv) fournit les axes principaux. Ce sont
les composantes du premier vecteur propre normé qui fournissent les coecients de pondération αi af-
fectés à chacun des tableaux. Ces coecients représentent les poids des tableaux Xi dans la dénition
du compromis. Dans certains cas particuliers, les coecients de pondération dans l'ATP ne sont pas
tous de même signe contrairement à la méthode STATIS qui renvoie systématiquement des coecients
de même signe (théorème de Perron-Frobenius).

Compromis
Cette phase est très déterminante, car une analyse de chaque tableau conduirait à exécuter M ACP
dont la structure simultanée serait extrêmement dicile. On pourrait, pour simplier cette tâche, ana-
lyser directement le tableau compromis Xc . On analyse ce compromis comme une analyse d'inertie
standard.
Pour cela, on maximise
0
||Xc ||2HS = tr(Xc DXc Q)
sous la contrainte
a0 a = 1

0
||Xc ||2HS = hXc , Xc iHS = tr(Xc DXc Q)
M M
0
X X
= tr( αi Xi D αk Xk Q)
i=1 k=1
M M
0
XX
= αi αk tr(Xi DXk Q)
i=1 k=1
XM X M
= αi αk Covv(Xi , Xk )
i=1 k=1
0
= a Sa

Le vecteur a vérie l'équation stationnaire suivante : Sa = ηa.


De ce qui suit a est le vecteur propre de la matrice S associé à la plus grande valeur propre η .
Ainsi, cette analyse a pour fonction de dénir des axes et des composantes, donc des vecteurs de Rp et
de Rn qui expriment la structure compromis. Ces vecteurs dénissent des plans sur lesquels peuvent
être projetées les lignes et les colonnes de chacun des tableaux.
On peut évaluer la qualité de l'expression d'un tableau Xi et du compromis Xc en calculant le cosinus-
carré entre ces tableaux.

Intrastructure
(1)
L'intrastructure fournit des axes principaux du compromis Xc sur lesquels se projettent ses lignes
et des composantes principales sur lesquelles se projettent ses colonnes. Elle sert également à tracer
les trajectoires qui permettent de projeter chaque individu du tableau Xi comme individu supplémen-
taire sur les axes principaux du compromis, c'est-à-dire à calculer les composantes : ψ (1)
i
= Xi Qω (1) ,
(1)0 (1)
(i = 1, . . . , M ) avec ω (1) le vecteur propre Q−normé d'ordre 1 de la matrice VX (1) Q = Xc DXc Q.
c

Dr Rodnellin Onesime Malouata 98 La photocopie non autorisée est un délit


Analyse conjointe de plusieurs cubes ou tableaux appariés par colonnes

Il en est de même pour les colonnes du tableau Xi qui sont aussi considérées comme variables supplé-
(1) 0
mentaires. Les coordonnées des variables supplémentaires sont logées dans le vecteur φi = Xi Dv (1)
avec v (1) le vecteur propre D−normé de l'opérateur WX (1) D.
c

11.5 L'analyse en composantes principales successive d'un multi-tableau


vertical
L'analyse en composantes principales (ACP) est déjà centenaire. On remonte généralement à Pear-
son (1901) la recherche géométrique d'axes et de plans optimaux à partir de points donnés dans l'espace,
mais on doit le terme d'analyse en composantes principales sans doute à Hotelling (1936) qui explique
cette idée pour un groupe de variables statistiques quantitatives.
Elle a subit plusieurs extensions : dans le cas d'un multi-tableau totalement apparié par lignes et par
colonnes par Bouroche (1975), dans le cas d'un multi-tableau apparié par lignes par Cassin (1996)
et par Millsap et Meredith (1988) sur la version simultanée. L'analyse en composantes principales
successive d'un multi-tableau vertical est référencée à la thèse de Niéré (2014).

11.5.1 Contexte de la méthode


On se place dans le cadre de la méthode STATIS duale (voir Fig.3.2).
0 0 0
Soit X = [X1 |X2 | . . . |XM ]0 un tableau partitionné dans l'ensemble des individus, muni des métriques Q
dans l'espace des individus Rp et D dans l'espace
PM des variables R où les Xi sont des tableaux centrés et
n

éventuellement réduits de dimension ni ×p ( i=1 ni = n). La matrice des variance-covariances associée


au groupe i est donnée par Vi = Xi0 Di Xi avec Di la métrique diagonale des poids de ni individus.

11.5.2 Dénition, principe et solution


L'analyse en composantes principales successive d'un multi-tableau fournit de manière successive
pour tous les tableaux les axes principaux communs de représentation qui sont deux à deux orthogo-
naux. Par ailleurs, les composantes principales de chaque tableau ne sont pas D-orthogonales, ce qui
ne permet pas de représenter simplement la projection des variables dans le plan que deux d'entre elles
engendrent.
L'ACP successive d'un multi-tableau vertical consiste à déterminer le vecteur u de Rp maximisant la
fonction
M
X
f (u) = var(Xi Qu)
i=1
= var(XQu)
= u0 QVX Qu

sous la contrainte de norme u0 Qu = 1.

La solution de l'ACP successive vérie l'équation

VX Qu = λu

ou encore
M
!
X
VXi Qu = λu
i=1
0
où VX = M i=1 VXi = X DX avec VXi = Xi Di Xi avec Di la matrice des poids des individus du tableau
0
P
Xi et D = diag(Di ) est la matrice diagonale par blocs dont le bloc i est la matrice Di .
Pour rechercher la structure commune entre les M tableaux tout en expliquant au mieux les tableaux
individuellement, on fait l'analyse en composantes principales orthogonale successive (ACPOs) en

Dr Rodnellin Onesime Malouata 99 La photocopie non autorisée est un délit


11.6 L'analyse d'un multi-tableau vertical successive : la méthode AMVs

maximisant le même critère et en remplaçant à l'ordre s, avec 2 ≤ s ≤ r ≤ min(rg(Xi )), les tableaux
(s−1)
Xi , i = 1, . . . , M par :
(s−1) (s−2)
Xi = P ⊥(s−1) Xi
cX
i

sachant que
(0)
Xi = Xi
(s−1) (s−1)0
où P ⊥(s−1) = Ini − Pc(s−1) avec Pc(s−1) = 1
(s−1) 2 cXi cXi Di est le projecteur Di -orthogonal sur
cX Xi Xi ||cX ||D
i i i
(s−1)
l'espace engendré par cXi .
Ainsi, la solution à l'ordre s vérie l'équation suivante :

VX (s−1) Qu(s) = λs u(s)

ou encore
M
!
X
VX (s−1) Qu(s) = λs u(s)
i
i=1
PM
où VX = i=1 VXi = X 0 DX .
(s) (s−1)
Ainsi, les M systèmes de composantes {cXi = Xi Qu(s) }s=1,...,r sont Di -orthogonaux et les axes
{u(s) }s=1,...,r forment un système de vecteurs Q-orthonormés.

11.6 L'analyse d'un multi-tableau vertical successive : la méthode


AMVs
Nous proposons ici une méthode analogue à l'analyse en composantes principales d'un multi-tableau
vertical.

11.6.1 Contexte de la méthode


On se place dans le cadre général de la méthode STATIS duale en considérant X un tableau
obtenu par concaténation verticale des sous-tableaux Xi , i = 1, . . . , M , (voir Fig.3.2 (b)). Chaque
sous-tableau Xi est constitué de p variables mesurées sur un groupe de ni individus et est associé à un
objet VXi = Xi0 Di Xi appelé matrice des produits scalaires entre les variables du tableau Xi . Dans ce
contexte, nous supposons le centrage des sous-tableaux Xi pour i = 1, . . . , M et éventuellement leur
réduction (Bouroche, 1975).

11.6.2 Dénition et principe


La méthode AMVs permet de déterminer le vecteur u de Rp qui est commun à tous les tableaux
et, par suite, les scalaires αi = c0Xi Di cXi (i = 1, . . . , M ) qui reètent la part de l'inertie de Xi restituée
par la composante cXi = Xi Qu. Cette méthode qui s'apparente à l'ACP a pour objectif de restituer
l'inertie des tableaux associés aux diérents groupes.
A la première étape, on cherche un vecteur commun u de manière à maximiser la fonction
p
M X M
!
0
X X
f (u) = cov 2 (xil , Xi Qu) = u Q VX2i Qu (11.8)
i=1 l=1 i=1

sous la contrainte de normalisation

kukQ = 1 (11.9)

Dr Rodnellin Onesime Malouata 100 La photocopie non autorisée est un délit


Analyse conjointe de plusieurs cubes ou tableaux appariés par colonnes

(s−1)
A l'étape s, un s ième
! axe factoriel commun peut être obtenu en remplaçant le tableau Xi =
0
(s−1) (s−1)
cX cX Di (s−2) (0)
Ini − i i
(s−1) 2 Xi avec Xi = Xi pour i = 1, · · · , M et en procédant de la même manière
kcX kD
i i
que pour la première étape.
Cette procédure permet de construire les axes factoriels orthogonaux.

11.6.3 Solutions
Les propriétés suivantes permettent de donner les solutions de la méthode AMVs.

Propriété
L'axe u d'ordre 1 de l'analyse d'un multi-tableau vertical X vérie l'équation stationnaire

M
!
X
VX2i Qu = αu (11.10)
i=1

Preuve
La solution de ce problème revient à maximiser le lagrangien

M
!
0 0
X
L=uQ VX2i Qu + α(1 − u Qu)
i=1

α est le multiplicateur de Lagrange associé à la contrainte (5.3).


L'annulation des dérivées par rapport à u et à α conduit aux équations normales suivantes :
M
!
1 ∂L X
=Q 2
VXi Qu − αQu = 0 (11.11)
2 ∂u
i=1
∂L 0
= 1 − u Qu = 0 (11.12)
∂α
La combinaison des deux précédentes relations conduit à l'équation stationnaire recherchée.
M
!
X
VX2i Qu = αu
i=1
P 
M
u est donc vecteur propre de i=1 VXi Q associé à la valeur propre α. On trouve la composante
2

cXi = Xi Qu d'ordre 1 correspondant au tableau Xi .

Propriété
Les solutions d'ordre s, c(s) (s = 1, · · · , r), constituent une base orthonormée et s'obtiennent à
l'aide de l'équation stationnaire
M
!
1 X 1
Q2 VXi Q 2 c(s) = αs c(s)
2
(11.13)
i=1

−1 0 0 0 0
avec u(s) = Q 2 c(s) vériant c(s) c(s) = u(s) Qu(s) = 1 et c(s) c(t) = u(s) Qu(t) = 0 pour s 6= t.
(s) (s−1)
Les variables synthétiques cXi = Xi Qu(s) ne sont pas Di -orthogonales.

Dr Rodnellin Onesime Malouata 101 La photocopie non autorisée est un délit


11.7 Commentaire

An de déterminer les composantes d'ordre deux qui doivent être orthogonales aux premières com-
posantes synthétiques, les tableaux Xi sont remplacés dans le critère par leurs résidus de la régression
sur les premières composantes cXi = Xi Qu :
0
!
(1) cXi cXi Di (0)
Xi = Ini − Xi
kcXi k2Di
(0)
Xi = Xi pour i = 1, · · · , M .
(s) (s−1)
Cette procédure est répétée plusieurs fois pour obtenir les composantes cXi = Xi Qu(s) pour tout
s = 1, · · · , r où r est le rang des tableaux Xi pour tout i = 1, · · · , M et
(s−1) (s−1)0
!
(s−1) cXi cXi Di (s−2)
Xi = Ini − (s−1)
Xi
kcXi k2Di

Les composantes synthétiques ainsi obtenues sont mutuellement orthogonales deux à deux.

Propriété
Les vecteurs u(s) (s = 1, · · · , r) sont Q-orthogonaux et vérient l'équation stationnaire
M
!
X
V 2 (s−1) Qu(s) = αs u(s) (11.14)
Xi
i=1

Preuve
Montrons l'orthogonalité des axes de co-inertie du système {u(s) } ,s = 1, · · · , r. En multipliant à
droite par la transposée de (3.17) par Qu(t) , pour tout t = 1, · · · , s − 1, nous obtenons
M
!
(s)0 (s)0 (s−1)0 (s−1)
X
(t)
αs u Qu =u Q VX (s−1) Xi Di Xi Qu(t)
i
i=1

car
(t)
P ⊥(t) cXi = 0
cX
i

et
s−1
!
(s−1) (t−1) (t−1)
Y
Xi = P ⊥(t) Xi = P ⊥(s−1) P ⊥(s−2) · · · P ⊥(t+1) P ⊥(t) Xi
cX cX cX cX cX
t=l i i i i i

pour tout t = 1, · · · , s − 1 et i = 1, · · · , M .
0
Comme αs 6= 0, nous avons u(s) Qu(t) = 0.
D'où l'orthogonalité des axes de co-inertie du système {u(s) }s .
Cette méthode est appelée analyse d'un multi-tableau orthogonale successive en sigle AMVOs.
Le principe de cette méthode consiste à chaque étape à ne retenir que l'axe de co-inertie u qui corres-
pond à la plus grande valeur propre et aux variables synthétiques partielles associées. Elle présente plus
d'intérêt par rapport à l'analyse d'un multi-tableau vertical en ce sens que l'AMVOs est interprétable
au niveau des individus et des variables, mais ces méthodes sont confondues à l'ordre 1.

11.7 Commentaire
Toutes les méthodes déterminent la solution de manière séquentielle et présentent des diérences
théoriques et des moyens de mise en ÷uvre diérents. Le contexte de STATIS duale est le même que

Dr Rodnellin Onesime Malouata 102 La photocopie non autorisée est un délit


Analyse conjointe de plusieurs cubes ou tableaux appariés par colonnes

celui de l'ACCPS duale et de l'AMVs. STATIS duale est une méthode qui détermine la solution en
trois étapes (interstructure, compromis et intrastructure) ; elle construit un compromis qui est une
moyenne et l'analyse de ce compromis vise à trouver une structure moyenne des variables entre les M
structures des variables dénie respectivement par les M tableaux. Elle utilise les notions d'Escouer
et de produit scalaire d'Hilbert Schmidt. L'ACCPS duale est une méthode algorithmique dont le but
principal est de déterminer les axes communs de représentation des individus qui jouent le rôle de
compromis, lesquels sont directement liés aux poids spéciques. L'AMVs est une méthode pas à pas
dont le but est de déterminer les axes communs de représentation qui jouent le rôle de compromis,
directement liés aux composantes partielles de chaque tableau qui ne sont pas orthogonales. Ces axes
sont obtenus à partir de la diagonalisation d'une matrice. L'AMVs peut être remplacée par l'AMVOs
dont le but est de représenter simultanément les individus et les variables.
Le contexte de l'ATP est le même que celui de l'ATPs et de l'ATPS. Celui d'utiliser les cubes des
données. Toutes ces trois méthodes ont un objectif commun la recherche d'une structure commune aux
diérents tableaux. Elles se déroulent en trois étapes (interstructure, compromis et intrastructure).
Une diérence réside du point de vue du critère et de la détermination de la solution. L'ATP et l'ATPs
sont des méthodes successives et l'ATPS une méthode simultanée. L'ATPs est une méthode algorith-
mique qui détermine, à chaque pas par déations successives des tableaux initiaux, les coecients de
pondération et les axes communs de représentation des individus et des variables. Si les coecients
de pondération sont de même signe, on fait directement l'ACP du compromis. L'ATPS est une mé-
thode algorithmique dans la détermination de la solution. Les axes communs de représentation et les
coecients de pondération sont déterminés de manière globale. Si les coecients de pondération sont
de même signe, on fait directement l'ACP du compromis. Les algorithmes utilisés pour approcher la
solution sont croissants et convergents. Les trois méthodes déterminent les coecients de pondération
qui sont très souvent de même signe dans le cas où la structure commune des tableaux est la même.

Dr Rodnellin Onesime Malouata 103 La photocopie non autorisée est un délit


11.7 Commentaire

Dr Rodnellin Onesime Malouata 104 La photocopie non autorisée est un délit


Chapitre 12
Analyse canonique

L'analyse canonique (AC) a été introduite initiallement par Hotelling (1936) et popularisée en
écologie par Gittins (1985). Sous sa forme générale, l'analyse Canonique ne présente qu'un intérêt res-
treint pour les applications, car elle conduit à de grandes dicultés d'interprétation, mais son cadre
théorique est fondamental. Elle généralise plusieurs méthodes d'analyses des données : la régression
multiple, l'analyse discriminante et l'analyse factorielle des correspondances.
L'analyse canonique présente aussi des similarités à la fois avec l'analyse en composantes principales
(ACP) pour déterminer les axes et interpréter les graphiques des individus et des variables. En re-
vanche, l'AC et l'ACP étudient respectivement les liens entre les variables de deux tableaux X1 et X2 ,
et les liens entre les variables d'un tableau.
Sur le plan géométrique, l'AC revient à minimiser, dimension par dimension, l'angle entre les compo-
santes de ces deux groupes de variables (Cazes, 1980).
L'AC est la méthode centrale de la statistique multidimensionnelle descriptive.

12.1 Position du problème et notations


On dispose de deux groupes de variables quantitatives X1 et X2 , de plein rang, mesurées sur
les mêmes n individus. Ces deux groupes de variables ou tableaux sont de format (n, p) et (n, q)
respectivement et sont supposés de plein rang et centrés.
On note par cor(x, y) la corrélation entre les variables centrées x et y , et par var(x) la variance de la
variable x.
On note par D la métrique diagonale des poids des individus dénie dans l'espace des variables Rn .
VX = X 0 DX désigne la matrice de variance-covariance de la matrice X .
X 0 désigne la transposée de la matrice X .
PX = X(X 0 DX)−1 X 0 D désigne le projecteur D−orthogonal sur le sous-espace vectoriel engendré par
les colonnes du tableau X .

12.2 Dénition et principe


L'analyse canonique cherche à synthétiser les liens existant entre deux groupes de variables quan-
titatives ayant respectivement p et q variables mesurées sur les mêmes n individus. Son but est de
résumer, le plus adéquatement possible, les relations entre ces deux groupes de variables.
L'analyse canonique entre deux tableaux X1 et X2 est la recherche des combinaisons linéaires cX1 =
X1 Qa1 et cX2 = X2 Ra2 (a1 ∈ Rp et a2 ∈ Rq ) maximisant la corrélation entre cX = X1 Qa1 et
cX2 = X2 Ra2 sous les contraintes de normalisation var(cX1 ) = var(cX2 ) = 1.
Autrement dit, cela revient à estimer les poids u et v maximisant la fonction :
f (u, v) = cor(X1 Qa1 , X2 Ra2 ) (12.1)
sous les contraintes var(cX1 ) = var(cX2 ) = 1.

105
12.3 Recherche de la solution dans les espaces des individus

(s) (s)
A l'ordre s, on cherche le triplet {λs , X1 Qa1 , X2 Ra2 } pour tout s ∈ {1, . . . , min(p, q)}. Avec
(s) (s)
λ2s = maxf (u(s) , v (s) ) = cor(X1 Qa1 , X2 Ra2 est appelé corrélation canonique.

12.3 Recherche de la solution dans les espaces des individus


Dans les propositions suivantes, nous allons donner les équations aux valeurs propres vériées par
les vecteurs canoniques u et v .
Propriété 12.1. Les vecteurs canoniques u et v vérient les relations :
VX−1
1
VX1 X2 VX−1
1
VX2 X1 u = λ2 u (12.2)

VX−1
2
VX2 X1 VX−1
1
VX1 X2 v = λ2 v (12.3)
où u = Qa1 et v = Ra2 .
Démonstration. Soient cX1 = X1 Qa1 et cX2 = X2 Ra2 les deux combinaisons linéaires associées res-
pectivement aux tableaux X1 et X2 . La corrélation linéaire entre cX1 = X1 Qa1 et cX2 = X2 Ra2
est maximale si et seulement si les vecteurs canoniques a1 et a2 maximisent la fonction f sous les
contraintes de normalisation var(cX1 ) = var(cX2 ) = 1. Ceci est équivalent à maximiser le Lagrangien :

L(a1 , a2 , α1 , α2 ) = cor(X1 Qa1 , X2 Ra2 ) + α1 (1 − var(X1 Qa1 )) + α2 (1 − var(X2 Ra2 ))


où α1 et α2 sont deux réels qui sont appelés multiplicateurs de Lagrange. Puisque VX1 X2 = X10 DX2 et
VXi = Xi0 DXi (i = 1, 2) rappelons-le. Ce Lagrangien peut encore s'écrire :
L(a1 , a2 , α1 , α2 ) = a01 QVX1 X2 Ra2 + α1 (1 − a01 QVX1 Qa1 ) + α2 (1 − a02 RVX2 Ra2 )
En dérivant L par rapport à a1 , a2 , α1 et α2 , il en résulte les équations normales suivantes :
∂L
= QVX1 X2 Ra2 − α1 QVX1 Qa1 (12.4)
∂a1
∂L
= RVX2 X1 Qa1 − α2 RVX2 Ra2 (12.5)
∂a2
∂L
= 1 − a01 QVX1 Qa1 (12.6)
∂α1
∂L
= 1 − a02 RVX2 Ra2 (12.7)
∂α2
En égalant (4.4) et (4.5) à zéro et en pré-multipliant ces nouvelles relations respectivement par a01 et
a02 , il vient l'égalité :
a01 QVX1 X2 Ra2 = α1 = α2 = λ = cor(X1 Qa1 , X2 Ra2 ) (12.8)
A partir des relations (4.4), (4.5) et (4.8), et comme, X1 et X2 sont de plein rang et Q et R étant des
métriques, on trouve les équations de transition suivantes :
VX−1
1
VX1 X2 Ra2 = λQa1 (12.9)

VX−1
2
VX2 X1 Qa1 = λRa2 (12.10)
En posant u = Qa1 et v = Ra2 , il s'ensuit :
VX−1
1
VX1 X2 v = λu (12.11)

VX−1
2
VX2 X1 u = λv (12.12)
En combinant (4.11) et (4.12), on en déduit les équations aux valeurs propres (4.2) et (4.3).
VX−1
1
VX1 X2 VX−1
2
VX2 X1 u = λ2 u (12.13)

VX−1
2
VX2 X1 VX−1
1
VX1 X2 v = λ2 v (12.14)

Dr Rodnellin Onesime Malouata 106 La photocopie non autorisée est un délit


Analyse canonique

Par conséquent, les vecteurs u et v sont des vecteurs propres normés respectivement des matrices
VX−1
1
VX1 X2 VX−1
1
et VX−1
VX2 X1 2
VX2 X1 VX−1
1
VX1 X2 associés à la plus grande valeur propre λ2 .

Les matrices VX−1


1
VX1 X2 VX−1
1
VX2 X1 et VX−1
2
VX2 X1 VX−1
1
VX1 X2 n'étant pas symétriques, alors on va procé-
der à leurs symétrisations dans la proposition suivante :

Propriété 12.2. Les matrices VX−11 VX1 X2 VX−11 VX2 X1 et VX−12 VX2 X1 VX−11 VX1 X2 respectivement
−1 −1 −1 −1
VX12 VX1 X2 VX−1
1
VX2 X1 VX12 et VX22 VX2 X1 VX−1
1
VX1 X2 VX22 ont les mêmes valeurs propres non nulles, mais
de vecteurs propres diérents.
Démonstration. On sait que a est vecteur propre de la matrice VX−1
1
VX1 X2 VX−1
1
VX2 X1 associé à la valeur
propre λ2 , c'est-à-dire :
VX−1
1
VX1 X2 VX−1
2
VX2 X1 u = λ2 u
−1 −1
En écrivant la matrice VX−1
1
= VX12 VX12 dans cette dernière relation et en pré-multipliant cette relation
1
par VX21 , on a :
−1 1
VX12 VX1 X2 VX−1
2
VX2 X1 u = λ2 VX21 u (12.15)
1
−1
En posant b1 = VX21 u, ceci implique u = VX12 b1 , et on obtient :

−1 −1
VX12 VX1 X2 VX−1
2
VX2 X1 VX12 b1 = λ2 b1 (12.16)

−1 −1
Donc b1 est un vecteur propre de la matrice symétrique VX12 VX1 X2 VX−1
2
VX2 X1 VX12 associé à la même
valeur propre λ2 .
Par conséquent, les vecteurs propres de cette matrice forment une base orthonormée.

Après avoir donné la solution d'ordre 1, il est donc question de donner les solutions d'ordre supérieur
de l'analyse canonique.

Propriété 12.3. On suppose que les équations aux valeurs propres (4.2) et (4.3) sont vériées, les
vecteurs b1 et b2 l'ordre s vérient les relations suivantes :
−1 − 1 (s) (s)
VX12 VX1 X2 VX−1
2
VX2 X1 VX12 b1 = λ2s b1 (12.17)

−1 − 1 (s) (s)
VX22 VX2 X1 VX−1
1
VX1 X2 VX22 b2 = λ2s b2 (12.18)
1
(s)
Les vecteurs b1 = VX21 u(s) sont orthogonaux comme vecteurs propres d'une matrice symétrique
rappelons-le associés aux valeurs propres non nulles.
D'où, on a :
(s)0 (s)0 0 0 (s)0 (s)
a1 QVX1 Qa1 = u(s) VX1 u(s) = b1 b1 = 1
et pour tout s 6= t
(s)0 (t) 0 0 (s)0 (t)
a1 QVX1 Qa1 = u(s) VX1 u(t) = b1 b1 = 0
(s)
Ce qui veut dire les vecteurs propres b1 , s ∈ 1, . . . , min(p, q) forment une base orthonormée par
rapport à la métrique usuelle.

12.4 Recherche de la solution dans les espaces des variables


Après avoir trouvé la solution dans les espaces des individus, on va donner maintenant la solution
dans l'espace des variables.

Dr Rodnellin Onesime Malouata 107 La photocopie non autorisée est un délit


12.5 Représentation des variables et des individus

Propriété 12.4. L'analyse canonique entre deux tableaux de variables X1 et X2 à l'ordre s vérie les
équations aux valeurs propres suivantes :
(s) (s)
PX1 PX2 cX1 = λ2 cX1 (12.19)

(s) (s)
PX2 PX1 cX2 = λ2 cX2 (12.20)

Démonstration. Comme VX1 X2 = X10 DX2 et VXi = Xi0 DXi (i = 1, 2), la relation (4.2) à l'ordre s
devient :
VX−1
1
X10 DX2 VX−1
2
X20 DX1 u(s) = λ2s u(s)
En pré-multipliant cette relation par X1 , il vient la relation suivante :

X1 VX−1
1
X10 D X2 VX−1
2
X10 D X1 u(s) = λ2s X1 u(s)
| {z }| {z }
PX1 PX2

(s) (s)
Puisque cX1 = X1 Qa1 = X1 u(s) et PXi = Xi (Xi0 DXi )−1 Xi0 D = Xi VX−1 i
Xi0 D, (i = 1, 2), on a bien la
relation (4.19). Une preuve analogue permet d'établir la relation (4.20).

12.5 Représentation des variables et des individus


12.5.1 Représentation des variables
Deux types de représentations sont possibles selon que l'on choisisse les variables de WX1 ou WX2 .
Si on choisit WX1 , on représente l'ensemble des variables de départ D-normées en projection sur la
(s)
base D-orthonormée formée par les cX1 .
(s) (s)
En particulier, la projection sur le plan engendré par cX1 et cX1 donne la gure appelée cercle des
corrélations car, si les colonnes de X1 sont D-normées, les composantes sur la base formée par les
(s) (s)
vecteurs cX1 et cX1 sont les coecients de corrélation entre les variables initiales et les variables cano-
niques.
0 (1) 0 (1) (1)
Si xj est la j e colonne de X1 , on a xj DcX1 = xj DX1 a1 ; le coecient de corrélation entre xj et cX1
(1)
est la j eme composante du vecteur VX1 a1 car xj est égal à X1 δj où δj est le vecteur colonne de Rp
dont toutes les composantes sont nulles sauf la j e qui vaut 1.
On procède de la même manière pour représenter les colonnes du tableau X2 dans le cercle de corré-
lation relatif à ce tableau.

12.5.2 Représentation des individus


Ici encore, deux types de représentations des individus sont possibles selon le tableau des variables
choisi.
(1) (2)
Si on choisit le plan déni par (cX1 , cX1 ), les coordonnées du ie point individu sont les ie composantes
(1) (1)
des variables cX1 et cX1 .

12.6 Conclusion
Rappelons que les composantes canoniques de chaque groupe de variables sont des combinaisons
linéaires des variables initiales de chaque groupe de variables. Ces composantes canoniques sont forte-
ment corrélées et expliquent moins leur groupe d'origine, l'inertie de chacun des groupes n'est pas prise
en compte par le critère (Gleason, 1976 ; Tenenhaus, 1998). En outre, les corrélations canoniques entre
ces deux variables canoniques peuvent être élevées, du fait des variables x et y très corrélées (Obadia,
1978). En dépit de son cadre théorique fondamental, l'AC est très sensible à la quasi-colinéarité des
variables. Celle-ci entraîne une instabilité des valeurs des paramètres du modèle (forte variance) et

Dr Rodnellin Onesime Malouata 108 La photocopie non autorisée est un délit


Analyse canonique

une perte de leur interprétabilité. Sur le plan analytique, cette quasi-colinéarité provoque un mauvais
0 0
conditionnement des matrices VX = X DX et VY = Y DY : un des déterminants est presque nul, et
l'inversion des matrices provoque des dicultés de calcul numérique rendant le résultat incertain.

Dr Rodnellin Onesime Malouata 109 La photocopie non autorisée est un délit


12.6 Conclusion

Dr Rodnellin Onesime Malouata 110 La photocopie non autorisée est un délit


Chapitre 13
Analyse de co-inertie 1

L'analyse précédemment étudiée utilise les métriques de Mahalanobis dans les espaces des indivi-
dus ; ces métriques présentent une instabilité au cas où les variables dans chaque groupe sont fortement
corrélées. En outre, l'analyse canonique ne prend pas en compte la structure interne des données. En
haute dimension, c'est-à-dire si p et q sont supérieurs à n, l'estimation des poids des combinaisons
linéaires de chaque tableau devient illusoire puisque les tableaux X et Y ne sont plus de plein rang.
C'est ainsi que dans ce chapitre, nous allons remplacer les métriques de Mahalanobis par les métriques
quelconques. Ce qui conduit à l'analyse de co-inertie 1 proposée par Chessel et Mercier (1993).
Cette méthode recouvre l'analyse inter-batterie proposée par Tucker (1958), l'analyse canonique pro-
posée par Hotelling (1936), l'analyse canonique sur variables qualitatives proposée par Cazes (1980) et
l'analyse des correspondances de tableaux de prols écologiques (Mercier et al., 1992).

13.1 Dénition et principe


L'analyse de co-inertie proposée par Chessel et Mercier (1993) est une méthode de couplage de
tableaux utilisable pour tous les types de données. Elle permet d'étudier la co-structure entre deux
tableaux.
Son principe de base est la recherche d'axes de co-inertie maximisant la covariance entre les coordonnées
des projections des lignes de chacun des tableaux. Conformément à la dénition d'une covariance au
carré, l'analyse de co-inertie conduit à l'optimisation du produit de la corrélation au carré entre les
combinaisons linéaires de chaque groupe de variables et de leurs variances. Donc, en dehors du lien que
la méthode met en relief, elle étudie également la structure interne de chaque groupe de variables. Elle
présente plus d'intérêt que l'analyse canonique.
L'analyse de co-inertie 1 entre deux tableaux X1 et X2 mesurés sur les mêmes n individus est la
recherche des combinaisons linéaires cX1 = X1 Qa1 (a1 ∈ Rp ) et cX2 = X2 Ra2 (a2 ∈ Rq ) maximisant la
covariance entre ces deux combinaisons linéaires sous les contraintes de normalisation sur les vecteurs
a1 et a2 . Plus concrètement, il s'agit de trouver ces deux combinaisons linéaires telles que la fonction
h(a1 , a2 ) = cov(X1 Qa1 , X2 Ra2 ) (13.1)
soit maximale sous les contraintes de normalisation sur les vecteurs a1 et a2 , (vecteurs qui sont respec-
tivement dans Rp et Rq qui sont munis des métriques Q et R).
(1) (1) (1)
Une fois trouvée la solution d'ordre un qui correspond au premier couple (cX1 = X1 Qa1 , cX2 ) =
(1) (s) (s) (s)
X2 Ra2 ), on continue la recherche jusqu'à l'ordre s, ce qui correspond au couple (cX1 = X1 Qa1 , cX2 =
(s)
X2 Ra2 ), s = 1, . . . , min(rg(X1 ), rg(X2 )) qui maximise la fonction h :
(s) (s) (s) (s)
h(a1 , a2 ) = cov(X1 Qa1 , X2 Ra2 ) (13.2)
(s) (s)
sous les contraintes de normalisation sur les vecteurs a1 et a2 , et les contraintes supplémentaires
d'orthogonalité :
(s)0 (t) (s)0 (t)
a1 Qa1 = a2 Ra2 = 0 pour tout t 6= s

111
13.2 Recherche de la solution dans les espaces d'individus

On arrête l'algorithme de détermination de la solution quand on trouve r solutions avec r = min(rg(X1 ), rg(X2 ))
0
le rang de la matrice VX1 X2 = X1 DX2 de co-inertie qui est aussi la matrice des inter-covariances entre
X1 et X2 .

13.2 Recherche de la solution dans les espaces d'individus


Les propositions suivantes permettent de donner les équations aux valeurs propres vériées par les
vecteurs a1 et a2 à l'ordre s et l'orthogonalité de ces vecteurs.

Propriété 13.1. La solution de l'analyse de co-inertie 1 dans les espaces des individus Rp et Rq d'ordre
s est donnée par les équations aux valeurs propres suivantes :

VX1 X2 RVX2 X1 Qa1 = α2 a1 (13.3)

VX2 X1 QVX1 X2 Ra2 = α2 a2 (13.4)

Démonstration. Soient cX1 = X1 Qa1 et cX2 = X2 Ra2 les deux combinaisons linéaires associées res-
pectivement aux tableaux X1 et X2 . La covariance entre cX1 = X1 Qa1 et cX2 = X2 Ra2 est maximale
sous les contraintes de normalisation sur les vecteurs a1 et a2 si et seulement si le Lagrangien qui est
déni ci-dessous est aussi maximal ; ce qui est équivalent à maximiser :

L(a1 , a2 , α1 , α2 ) = cov(X1 Qa1 , X2 Ra2 ) + α1 (1 − a01 Qa1 ) + α2 (1 − a02 Ra2 )

où α1 et α2 sont deux réels qui sont appelés multiplicateurs de Lagrange.


Compte tenu du fait que VX1 X2 = X10 DX2 , ce Lagrangien peut encore s'écrire de la manière suivante :

L(a1 , a2 , α1 , α2 ) = a01 QVX1 X2 Ra2 + α1 (1 − a01 Qa1 ) + α2 (1 − a02 Ra2 )

En dérivant respectivement L par rapport à a1 , a2 , α1 et α2 , et, en égalant toutes ces relations à zéro,
il en découle les équations normales suivantes :
∂L
= QVX1 X2 Ra2 − α1 Qa1 = 0 (13.5)
∂a1
∂L
= RVX2 X1 Qa1 − α2 Ra2 = 0 (13.6)
∂a2
∂L
= 1 − a01 Qa1 = 0 (13.7)
∂α1
∂L
= 1 − a02 Ra2 = 0 (13.8)
∂α2
En pré-multipliant (5.5) par a01 et (5.6) par a02 , et, compte tenu de ce que les vecteurs sont respective-
ment Q−normé et R−normé. En outre, en usant du fait que a01 QVX1 X2 Ra2 est un scalaire, il en résulte
l'égalité suivante :
a01 QVX1 X2 Ra2 = α1 = α2 = λ = cov(X1 Qa1 , X2 Ra2 ) (13.9)
En tenant compte de la relation (5.9), les relations (5.5) et (5.6) deviennent :

VX1 X2 Ra2 = λa1 (13.10)

VX2 X1 Qa1 = λa2 (13.11)


En tirant a2 dans (5.11) et en le mettant dans (5.10), et inversement, en tirant a1 dans (5.10) et en le
plaçant dans (5.11), on trouve les équations stationnaires ou équations aux valeurs et vecteurs propres
suivantes :
VX1 X2 RVX2 X1 Qa1 = λ2 a1 (13.12)
VX2 X1 QVX1 X2 Ra2 = λ2 a2 (13.13)

Dr Rodnellin Onesime Malouata 112 La photocopie non autorisée est un délit


Analyse de co-inertie 1

a1 et a2 sont respectivement vecteurs propres des matrices VXY RVY X Q et VY X QVXY R associés à
la plus grande valeur propre λ2 .
On peut donc conclure que les vecteurs a1 et a2 sont vecteurs propres normés des matrices VX1 X2 RVX1 X2 Q
et VX2 X1 QVX1 X2 R respectivement associés à la même valeur propre λ2 . C'est la plus grande valeur
propre de ces deux matrices.
Les relations (5.10) et (5.11) qui permettent de passer d'un espace vectoriel des individus vers un autre
espace sont appelées relations de transition.
(s) (s)
On note donc par a1 et a2 les solutions d'ordre s correspondant à la plus grande valeur propre
(s) (s)
λs = cov(X1 Qa1 , X2 Qa2 ).
(s)
Par conséquent, les composantes synthétiques d'ordre s qui correspondent respectivement aux cX1 =
(s) (s) (s)
X1 Qa1 et cX2 = X2 Ra2 .

Propriété 13.2. Les vecteurs a(s)


1 et a2 de l'analyse de co-inertie à l'ordre s vérient les relations
(s)

suivantes :
(s) (s)
VX1 X2 RVX2 X1 Qa1 = λ2s a1 (13.14)
(s) (s)
VX2 X1 QVX1 X2 Ra2 = λ2s a2 (13.15)

Vérions maintenant l'orthogonalité des vecteurs de co-inertie d'ordre diérent. Pour cela il faut
utiliser le fait que les vecteurs propres d'une matrice symétrique sont orthogonaux.

Propriété 13.3. On suppose que les équations aux valeurs propres (3.3) et (3.4) sont vériées. Alors
on a :
1 1 (s) (s)
Q 2 VX1 X2 RVX2 X1 Q 2 b1 = λ2s b1 (13.16)
1 1 (s) (s)
R VX2 X1 QVX1 X2 R b2 = λ2s b2
2 2 (13.17)
1
Démonstration. Si on pose dans (5.14) a(s)
1 =Q
− 2 (s)
b1 , cette même relation devient :
1 (s) 1 (s)
VX1 X2 RVX2 X1 Q 2 b1 = λ2s Q− 2 b1
1
En pré-multipliant cette dernière équation par Q 2 , on trouve la relation (5.16) recherchée.
1 1 1 1
Par le même raisonnement, on montre la relation (5.17). Les matrices Q 2 VX1 X2 RVX2 X1 Q 2 et R 2 VX2 X1 QVX1 X2 R 2
sont maintenant symétriques, les vecteurs de ces deux matrices constituent désormais des bases ortho-
normées.
(s) 1 (s)
Les vecteurs b1 = Q 2 a1 sont orthogonaux comme vecteurs propres d'une matrice symétrique
rappelons-le associés aux valeurs propres non nulles λ2s .
D'où, pour tout s 6= t
(s)0 (t) (s)0 (s)
a1 Qa1 = b1 b1 = 0
(s)
Les vecteurs propres a1 de la matrice VX1 X2 RVX2 X1 Q associés à la valeur propre λ2s sont également
(s)
M -orthogonaux. On montrerait de même l'orthogonalité des a2 .

13.3 Recherche de la solution dans l'espace des variables


Après avoir déterminé la solution dans les espaces des individus, il est question maintenant de
déterminer la solution dans l ?espace des variables.

Propriété 13.4. L'analyse de co-inertie 1, à l'ordre s, dans l'espace des variables Rn vérie les équa-
tions aux valeurs propres suivantes :
(s) (s)
WX1 DWX2 DcX1 = αs2 cX1 (13.18)

(s) (s)
WX2 DWX1 DcX2 = αs2 cX2 (13.19)

Dr Rodnellin Onesime Malouata 113 La photocopie non autorisée est un délit


13.3 Recherche de la solution dans l'espace des variables

Démonstration. Comme VX1 X2 = X10 DX2 et VX2 X1 = VX1 X2 ', l'équation (5.14) devient :
(s) (s)
X10 DX2 RX20 DX1 Qa1 = λ2s a1

En pré-multipliant cette précédente relation par X1 Q, il en résulte l'expression ci-dessous :


(s) (s)
X1 QX10 DX2 RX20 DX1 Qa1 = λ2s X1 Qa1

En posant dans cette relation WX1 = X1 QX10 et WX2 = X2 RX20 les matrices des produits scalaires des
tableaux X1 et X2 respectivement, on en déduit la relation (5.18) suivante :
(s) (s)
WX1 DWX2 DcX1 = αs2 cX1

(s) (s)
où cX1 = X1 Qa1 est la composante synthétique qui contient les coordonnées des individus du tableau
X1 à l'ordre s.
(s) (s) (s) (s)
On montrerait de la même façon la relation (5.19). Les vecteurs cX1 = X1 Qa1 et cX2 = X2 Ra2 sont
vecteurs propres des matrices WX1 DWX2 D et WX2 DWX1 D associés à la même valeur propre λ2s .

Remarques
1) Les composantes
(s) (s)
cX1 = X1 Qa1
(s) (s)
(s = 1, . . . , r) sont corrélées. De même pour les composantes cX2 = X2 Ra2 .
2) L'analyse de co-inertie de deux études statistiques (X1 , Q, D) et (X2 , R, D) revient à faire l'ACP
non centrée de l'étude statistique (X20 DX1 , Q, R).

Dr Rodnellin Onesime Malouata 114 La photocopie non autorisée est un délit


Chapitre 14
Analyse de co-inertie 2

L'analyse de co-inertie 2 proposée par Lafosse et Hana (1997) est une autre version de l'analyse
de co-inertie 1.

14.1 Dénition et solutions


L'analyse de co-inertie 2 permet d'étudier le lien entre deux tableaux X1 et X2 en voulant si-
multanément que la composante cX1 = X1 Qa1 caractérise le système de covariations des variables xj2
colonnes de X2 , et que la composante cX2 = X2 Ra2 caractérise le système de covariations des variables
xi1 colonnes de X1 .
La solution de cette méthode est donnée par la maximisation de l'un des critères qui sont équivalentes
à l'optimum.
Le premier critère est formalisé de la manière suivante :
p q
cov 2 (X1 Qa1 , xj2 )
X X
f (a1 , a2 ) = cov 2
(X2 Ra2 , xi1 ) + (14.1)
i=1 j=1

sous les contraintes de normalisation


ka1 kQ = ka2 kR = 1 (14.2)
Le second critère qui mène à la même solution est formalisé de la manière suivante :
" p # q 

cov 2 (X1 Qa1 , xj2 )


X X
g(a1 , a2 ) = cov 2 (X2 Ra2 , xi1 )  (14.3)
i=1 j=1

sous les mêmes contraintes de normalisation que le premier critère.


(2) (2)
L'analyse de co-inertie 2 d'ordre 2 consiste à trouver un deuxième couple (cX1 ,cX2 ) de composantes
synthétiques.
L'analyse de co-inertie 2 d'ordre s consiste à trouver deux ensembles formés de r ≤ min(p, q) compo-
santes synthétiques.

14.2 Recherche de la solution dans les espaces individus


La solution dans l'espace des individus est semblable à celle de l'analyse de co-inertie 1.
Propriété 14.1. La solution de l'analyse de co-inertie 2 entre deux tableaux vérie les équations
stationnaires suivantes :
VX1 X2 VX2 X1 Qa1 = ra1 a1 (14.4)
VX2 X1 VX1 X2 Ra2 = ra2 a2 (14.5)
avec α = ra1 ra2 = max g , où ra1 = a1 QVX1 X2 VX2 X1 Qa1 et ra2 = a2 RVX2 X1 VX1 X2 Ra2 .
0 0

115
14.2 Recherche de la solution dans les espaces individus

Démonstration. La fonction f peut encore s'écrire :


" p # q 

cov 2 (X1 Qa1 , xj2 )


X X
g(a1 , a2 ) = cov 2 (X2 Ra2 , xi1 ) 
i=1 j=1
p q  2
2
a01 QX10 Dxj2
X X
= a02 RX20 Dxi1
i=1 j=1
" p
! # 
q
 
0
i0
xj2 xj2  DX1 Qa1 
X X
= a02 RX20 D xi1 x1 DX2 Ra2 a01 QX10 D 
i=1 j=1
 0
 0 
= a1 QVX1 X2 VX2 X1 Qa1 a2 RVX2 X1 VX1 X2 Ra2 (14.6)

0 0
où pi=1 xi1 xi1 = X1 X10 , qj=1 xj2 xj2 = X2 X20 , VX1 X2 = X10 DX2 et VX2 X1 = X20 DX1 .
P P
La fonction g soumise aux contraintes est maximale si et seulement si le Lagrangien qui est déni
ci-dessous est maximal :
" p # q 

cov 2 (X1 Qa1 , xj2 ) + α1 (1 − a01 Qa1 ) + α2 (1 − a02 Ra2 )


X X
L(a1 , a2 , α1 , α2 ) = cov 2 (X2 Ra2 , xi1 ) 
i=1 j=1

où α1 et α2 sont deux réels qui sont appelés multiplicateurs de Lagrange. Puisque VX1 X2 = X10 DX2 et
VX2 X1 = X20 DX1 rappelons-le. Ce Lagrangien peut encore s'écrire :
 0  0 
L(a1 , a2 , α1 , α2 ) = a1 QVX1 X2 VX2 X1 Qa1 a2 RVX2 X1 VX1 X2 Ra2 + α1 (1 − a01 Qa1 ) + α2 (1 − a02 Ra2 )

En dérivant L par rapport à a1 , a2 , α1 et α2 , il en résulte les équations normales suivantes :


∂L  0 
= (QVX1 X2 VX2 X1 Qa1 ) a2 RVX2 X1 VX1 X2 Ra2 − α1 Qa1 (14.7)
∂a1
∂L  0 
= a1 QVX1 X2 VX2 X1 Qa1 (RVX2 X1 VX1 X2 Ra2 ) − α2 Ra2 (14.8)
∂a2
∂L
= 1 − a01 Qa1 (14.9)
∂α1
∂L
= 1 − a02 Ra2 (14.10)
∂α2
En pré-multipliant (6.7) par a01 et (6.8) par a02 , et, compte tenu de ce que les vecteurs sont res-
0
pectivement Q−normé et R−normé. En outre, en usant du fait que ra1 = a1 QVX1 X2 VX2 X1 Qa1 et
0
ra2 = a2 RVX2 X1 VX1 X2 Ra2 sont des scalaires, il en résulte l'égalité suivante :
 0  0 
α1 = α2 = α = a1 QVX1 X2 VX2 X1 Qa1 a2 RVX2 X1 VX1 X2 Ra2 = ra1 ra2 = max g (14.11)

En tenant compte de la relation (6.11), les relations (6.7) et (6.8) deviennent :

VX1 X2 VX2 X1 Qa1 = ra1 a1 (14.12)

VX2 X1 VX1 X2 Ra2 = ra2 a2 (14.13)

a1 et a2 sont respectivement vecteurs propres des matrices VX1 X2 VX2 X1 Q et VX2 X1 VX1 X2 R associés
aux plus grandes valeurs propres respectives ra1 et ra2 .
(s) (s)
On note donc par a1 et a2 les solutions d'ordre s correspondant aux plus grandes valeurs propres
(s)0 (s)0
  
(s) (s)
ra(s) et ra(s) vériant la relation αs = a1 QVX1 X2 VX2 X1 Qa1 a2 RVX2 X1 VX1 X2 Ra2 = ra(s) ra(s) .
1 2 1 2
Par conséquent, les composantes synthétiques d'ordre s qui correspondent respectivement aux vecteurs
(s) (s) (s) (s) (s) (s)
a1 et a2 s'écrivent cX1 = X1 Qa1 et cX2 = X2 Ra2 .

Dr Rodnellin Onesime Malouata 116 La photocopie non autorisée est un délit


Analyse de co-inertie 2

Propriété 14.2. Les vecteurs a(s)


1 et a2 de l'analyse de co-inertie 2 à l'ordre s vérient les relations
(s)

suivantes :
(s) (s)
VX1 X2 VX2 X1 Qa1 = ra(s) a1 (14.14)
1

(s) (s)
VX2 X1 VX1 X2 Ra2 = ra(s) a2 (14.15)
2

Les matrices VX1 X2 VX2 X1 Q et VX2 X1 VX1 X2 R ne sont pas symétriques. La propriété ci-dessous per-
met de les rendre symétrique.

Propriété 14.3. En posant


1 1
= Q− 2 u(s) et a2 = R− 2 v (s) , la solution d'ordre s de l'analyse de
(s) (s)
a1
co-inertie 2 vérie les relations suivantes :
1 1
Q 2 VXY VY X Q 2 u(s) = ra(s) u(s) (14.16)
1

1 1
R 2 VY X VXY R 2 v (s) = ra(s) v (s) (14.17)
2

1
Démonstration. Si on pose dans (6.14) a(s)
1 =Q u , cette même relation devient :
− 2 (s)

1 1
VX1 X2 RVX2 X1 Q 2 u(s) = λ2s Q− 2 u(s)
1
En pré-multipliant cette dernière équation par Q 2 , on trouve la relation (6.16) recherchée.
Par le même raisonnement, on montre la relation (6.17).
1 1 1 1
Les matrices Q 2 VX1 X2 RVX2 X1 Q 2 et R 2 VX2 X1 QVX1 X2 R 2 sont maintenant symétriques, les vecteurs
de ces deux matrices constituent désormais des bases orthonormées.
(s) (s) 0 (s)0 (s)
Ainsi, les axes {a1 }s (resp.{a2 }s ) sont orthonormés dans Rp (resp.Rq ) puisque u(s) u(s) = a1 Qa1 =
0 (s) 0 (s)
1 et v (s) v (s) = a2 Ra2 = 1. En plus, deux axes d'ordres diérents forment un système orthonormé
(u(s) , u(t) ) de Rp (resp. (v (s) , v (t) ) de Rq dans lequel les individus projetés de X1 (resp.X2 ) ont pour
(s) (t) (s) (t)
coordonnées les composantes cX1 = X1 u(s) et cX1 = X1 u(t) (resp.cX2 = X2 v (s) et cX2 = X2 v (t) )
0 (s)0 (t) 0 (s)0 (t)
puisque u(s) u(t) = a1 Qa1 = 0 et v (s) v (t) = a2 Ra2 = 0 pour s 6= t.

14.3 Commentaires
Cette présentation des méthodes d'analyses conjointe de deux tableaux nous a permis de voir à quel
point les approches possibles étaient variées du point de vue critère à analyser et détermination de la
solution. Nous avons pu mettre en valeur des points de ressemblance et de dissemblance des tableaux.
Le critère de l'analyse canonique est un critère de corrélation qui nous permet que d'étudier le lien
entre deux tableaux. Par contre dans les analyses de co-inertie, nous avons maximiser un critère de
covariance qui est un compromis entre les deux analyses simples permettant d'étudier les structures
internes des tableaux et l'analyse canonique des deux tableaux, qui d'un certain point de vue sont
exécutées simultanément avec deux axes.
En général, les analyses de co-inertie l'emportent largement sur l'analyse canonique en terme de stabilité
numérique. Elles évitent de fabriquer de la corrélation sans signication.

Dr Rodnellin Onesime Malouata 117 La photocopie non autorisée est un délit


14.3 Commentaires

Dr Rodnellin Onesime Malouata 118 La photocopie non autorisée est un délit


Bibliographie

Chapelle, P. et Pinault Y.,statistique descriptive, collection AES, Montchrestien, Paris, 1996.

Damon J. P., La méthode statistique en économie, édition Paris 8 Vincennes, 1976.

Dodge Y., Statistique. Dictionnaire encyclopédique, Springer, 2004.

Ferreol G. et SChlacther D., Dictionnaire des techniques quantitatives appliquées aux sciences écono-
miques et sociales, Armand collin, 1995.

Guerber L., Initiation à la pratique statistique, Bibliothèque d'enseignement mathématique A.P.M.E.P.,


1967.

INSEE Méthodes , Pour comprendre l'indice des prix, éddition 1998.

Liorzou A., Initiation à la pratique statistique, Eyrolles, 1979.

Malouata, R. O. Proposition d'analyse de co-inertie d'une série de couples de tableaux. Eléments théo-
riques et appliqués. Thèse, Université Marien NGouabi, 2015.

SChlacther D., De l'analyse à la prévision, Ellipses, 1986.

Veysseyre R., Aide mémoire statistique et probabilités pour l'ingénieur, 2è édition, Dunod, 2006.

119

Vous aimerez peut-être aussi