Académique Documents
Professionnel Documents
Culture Documents
1ère édition
Brazzaville 2015
Dr Rodnellin Onesime Malouata 2 La photocopie non autorisée est un délit
Table des matières
3
TABLE DES MATIÈRES
6.5 Dénition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.5.1 Propriété 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.5.2 Propriété 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.5.3 Propriété 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
8 L'approche PLS 75
8.1 L'algorithme NIPALS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
9 LA méthode ACT-STATIS 77
9.1 Contexte des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.2 Dénition et solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9.2.1 Interstructure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9.2.2 Compromis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
9.2.3 Interprétation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.2.4 Intrastructure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
10 STATIS DUALE 83
10.1 Contexte de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
10.2 Dénition et principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
10.3 Procédure de détermination de la solution . . . . . . . . . . . . . . . . . . . . . . . . . 84
10.3.1 Interstructure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
10.3.2 Compromis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
10.3.3 Intrasructure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
10.4 Dénition et solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
10.5 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
1.1 Introduction
L'Analyse en Composantes Principales (ACP) est une méthode ancienne. C'est à Karl Pearson
en 1901 et à Harold Hotelling en 1933 que l'on doit les premières publications traitant de ce sujet.
Cependant l'utilisation de l'ACP est récente et c'est avec l'avènement des ordinateurs que la théorie a
pu être mise en pratique.
Son objectif est de présenter, sous forme de graphique, le maximum d'information conte-
nue dans un tableau de données, constitué en lignes par des individus sur lesquels sont mesurées
des variables quantitatives disposées en colonnes. Les termes individu et variable recouvrent des notions
diérentes. Par exemple, les individus peuvent être des vins et les variables sont des critères décrivant
ces vins (acidité, astringence, etc.). Les questions que l'on se pose sur les individus et celles que l'on
se pose sur les variables ne sont pas de même nature. A propos de deux individus, on essaie d'évaluer
leur ressemblance : deux individus se ressemblent d'autant plus qu'ils possèdent des valeurs proches
pour l'ensemble des valeurs. A propos de deux variables, on essaie d'évaluer leur liaison.
L'ACP est une étude exploratoire. Cette exploration est basée sur deux voies principales :
Un bilan des ressemblances entre individus. On cherche alors à répondre à des questions du type
suivant : Quels sont les individus qui se ressemblent ? Quels sont ceux qui dièrent ? Plus généralement,
on souhaite décrire la variabilité des individus. Pour cela, on cherche à mettre en évidence des groupes
homogènes d'individus dans le cadre d'une typologie des individus. Selon un autre point de vue,
on cherche les principales dimensions de variabilité des individus.
Un bilan des liaisons entre variables. Les questions sont alors : quelles variables sont corrélées
positivement entre elles ? Quelles sont celles qui s'opposent (corrélées négativement) ? Existe-t-il des
groupes de variables corrélées entre elles ? Peut-on mettre en évidence une typologie des variables.
Un autre aspect de l'étude des liaisons entre variables consiste à résumer l'ensemble des variables
par un petit nombre de variables synthétiques appelées ici composantes principales. Ce point
de vue est très lié au précédent : une composante principale peut être considérée comme le représentant
(la synthèse) d'un groupe de variables liées entre elles.
Naturellement, ces deux voies ne sont pas indépendantes du fait de la dualité inhérente à l'étude d'un
tableau rectangulaire : la structure du tableau peut être analysée à la fois par l'intermédiaire de la
typologie des individus et de la typologie des variables.
7
1.2 Données et notations
xi de Rp .
x1i
..
.
j p
xi = [xi . . . xi . . . xi ], (i = 1, . . . , n) le vecteur transposé de xi =
j
xi dans l'espace R . Une
0 1 p
..
.
xpi
ligne i s'interprète comme les valeurs de p variables pour la ième observation.
j
x1
..
.
x =
j
xi : la représentation de la variable j (j = 1, . . . , p) dans l'espace R . La colonne j
j n
..
.
xjp
s'interprète comme les p observation de la variable xj .
0
x1
..
.
j
X = X(n,p) = [x . . . x . . . x ] =
1 j p
0
xi = (xi )1≤i≤n
.. 1≤j≤p
.
x0n
La matrice X peut être interpréter alors comme donnée par p points xj en Rn (c'est-à-dire chaque
point admet n composantes) ou n points xi en Rp (c'est-à-dire chaque point admet p composantes).
Nous notons ensuite par :
X 0 la transposée du tableau X
L'analyse des données de composantes principales consiste en l'étude des projections des points du
nuage sur un axe, un plan, ou un hyperplan judicieusement déterminé. Mathématiquement, l'analyse
en composantes principales serait le meilleur ajustement du nuage par un sous-espace vectoriel en Rp .
situation se présente notamment lorsque les individus représentent chacun une sous population ; on
aecte alors à un individu un poids proportionnel à l'eectif de la sous-population qu'il représente. A
chaque individu xi (1 ≤ i ≤ n) est associé un poids pi qui reète l'importance dans cet individu. Par
commodité, on choisit ces poids pi > 0 tels que la masse totale des individus soit égale à 1.
n
X
pi = 1
i=1
Ces poids interviennent dans le calcul de la moyenne (xj ), c'est-à-dire dans la dénition d'un individu
théorique moyen, dans le calcul de la variance (V ar(xj )) de chaque variable xj (1 ≤ i ≤ p) et dans
celui de la mesure de liaison (covariance ou coecient de corrélation) entre variables :
n
pi xji
X
xj =
i=1
n n
pi (xji − xj )2 = pi (xji )2 − (xj )2
X X
V ar(xj ) =
i=1 i=1
n n
0 0
j0 j0 0
pi (xji )(xji pi xji xji − xj xj
X X
j j
Cov(x , x ) = −x −x )=
i=1 i=1
n 0
! 0
! 0
j j0
X xji − xj xji − xj Cov(xj , xj )
Cor(x , x ) = pi =
sj sj 0 sj sj 0
i=1
0
où sj 0 = V ar(xj ) et sj 0 = V ar(xj 0 ) sont respectivement les écart-types des variables xj et xj . Les
p p
n poids des n individus sont rassemblés dans une matrice diagonale D d'ordre n
p1 0 . . . . . . 0
0 ... ..
.
.. .. = diag(p ; 1 ≤ i ≤ n)
D= . pi . i
.. ..
. . 0
0 . . . . . . 0 pn
Propriété 1.1.
Soit X(n,p) un tableau des données et 10n = (1 . . . 1 . . . 1) ∈ Rn . La matrice D des poids des individus
vérie les égalités
10n D1n = 1
Xn
V = X 0 DX = pi xi x0i
i=1
où la matrice V est appelé la matrice de variances-covariances ou matrice de covariances.
Démonstration.
p1 0 ... ... 0
1
.. ..
.
.
. .
0 .
.. ..
10n D1n = (1 . . . 1 . . . 1) . 1
.
pi .
.. .. .
. . 0 .
0 . . . . . . 0 pn 1
p1
..
.
= (1 . . . 1 . . . 1) pi
..
.
pn
n
X
= pi
i=1
= 1
x01
..
.
On a : X = x0i et X 0 = (x1 . . . xi . . . xn )
..
.
x0n
p1 0 ... ... 0 x01
.. .. .
.
. .
0 .
.. ..
V = X 0 DX = (x1 . . . xi . . . xn )
0
. . xi
pi .
.. .. .
. . 0 .
0 . . . . . . 0 pn x0n
0
p 1 x1
..
.
0
p i xi
= (x1 . . . xi . . . xn )
..
.
pn x0n
Xn
= pi xi x0i
i=1
Remarque
La matrice D comprenant sur sa diagonale principale les réels strictement positifs est symétrique
dénie positive.
Ces p poids sont regroupés dans une matrice diagonale M d'ordre p telle que
m1 0 . . . ... 0
0 ... ..
.
M = ... .. = diag(m ; 1 ≤ j ≤ p)
.
mj j
.. ..
. . 0
0 ... ... 0 mp
Cas particuliers
Le cas le plus usité en statistique est celui des poids uniformément repartis :
mj = 1, j = 1, . . . , p et M = Ip , avec Ip la matrice unité d'ordre p.
mj = 1/s2j , j = 1, . . . , p et M = D1/s2 = diag(1/s2j ; j = 1, . . . , p), la matrice diagonale d'ordre p des
inverses des carrés des variances de chaque variable xj .
x1 − x1 . . . xj1 − xj . . . xp1 − xp
1
.. .. ..
. . .
j p
j
Y = Y(n,p) = xi − x . . . xi − xj
1 1 . . . xi − x p
= (yi )1≤i≤n
.. .. .. 1≤j≤p
. . .
x1n − x1 . . . xjn − xj . . . xpn − xp
Matriciellement, on a :
Y = X − 1n g 0 = (In − 1n 10n D)X
Cette transformation n'a aucune incidence sur les dénitions de la ressemblance entre individus et de
la liaison entre variables.
L'ACP peut être réalisée sur des données seulement centrées. Toutefois, ses résultats sont alors très
sensibles au choix des unités de mesure. Généralement ce choix est arbitraire.
gY = Y 0 D1n
= (X − 1n g 0 )0 D1n
= (X 0 − g10n )D1n
= X 0 D1n − g10n D1n or 10n D1n = 1 et g = X 0 D1n
=⇒ g Y = X 0 D1n − X 0 D1n = 0
yij xj − xj q
zij = = i ou sj = V ar(y j )
sj sj
Si on note D1/s la matrice diagonale des inverses des écart-types et par D1/s2 la matrice diagonale des
inverses des variances dénies par :
1/s1 0 ... ... 0
.. ..
. .
0
D1/s = ... ..
.
1/sj
.. ..
. .
0
0 ... ... 0 1/sp
ou
Z = Y D1/s avec D1/s = diag((1/sj ; j = 1, . . . , p)
ou encore
Z = (X − 1n g 0 )D1/s avec D1/s = diag (1/sj ; j = 1, . . . , p)
Propriété 1.3. Le centre de gravité gZ du tableau centré réduit Z est l'individu moyen 0
Démonstration.
Par dénition :
gZ = Z 0 D1n
0
= (X − 1n g 0 )D1/s D1n
= 0
1.4.3 Commentaires
Dans les études où toutes les variables s'expriment dans la même unité, on peut souhaiter ne pas
réduire les variables. En procédant ainsi, on accorde à chaque variable réduite un poids égal à sa
variance. Selon un autre point de vue, la dénition d(xi , xi0 ) montre que la variance de la variable xj
est égale à la contribution moyenne de la variable xj au carré de la distance entre individus.
La réduction des variables permet d'uniformiser les unités de mesure et implique :
xji −xj
Les nombres zij = sj (i = 1, . . . , n et j = 1, . . . , p sont sans unité.
Dans Rn , le cosinus de l'angle entre deux variables s'interprète comme coecient de corrélation
entre ces variables.
L'ensemble des distances inter-individuelles constitue ce que l'on appelle la forme du nuage NI .
Réaliser un bilan de ces distances revient à étudier la forme du nuage NI , c'est-à-dire à y déceler
une partition des points (typologie mentionnée dans l'introduction) ou des directions d'allongement
remarquables (les principales dimensions de variabilité).
Dès que p est supérieur à 3, l'étude directe du nuage NI est impossible du fait de la limitation à trois
de notre sens visuel. D'où l'intérêt des méthodes factorielles en général, et dans ce cas particulier de
l'ACP, qui fournissent des images planes approchant au mieux possible un nuage de points situé dans
un espace de grande dimension.
Remarques
Le choix délicat de la métrique M dépend de l'idée qu'on se fait de la distance entre individus.
Le fait d'envisager des métriques plus générales introduit une distorsion dans la représentation
des distances. Cependant, dans la plupart des méthodes factorielles, outre D, la métrique M est
diagonale bien qu'il existe des cas où M non diagonale soit utile.
En ACP les métriques usuelles dans Rp sont en nombre réduit : M = Ip ou M = D1/s2 .
Le choix naturel de la métrique identité M = Ip conduit à la distance euclidienne classique qui
n'est judicieux ici. C'est pourquoi on préférera la métrique diagonale des inverses des carrés des
variances M = D1/s2 qui présentera l'avantage de donner à chaque variable la même importance
(variance unité), ce qui est utile lorsque les variables sont hétérogènes. Ne pas l'utiliser, revient
à accorder plus d'importance aux variables de forte dispersion qu'à ceux de faible dispersion.
Il est à noter que travailler avec les données brutes (tableau X ) et M = D1/s2 est équivalent à
travailler avec des données centrées réduites (tableau Z ) et M = Ip .
En général M peut être n'importe qu'elle matrice dénie positive d'ordre p qui permet de dénir
dans Rp le produit scalaire :
hxi , xi0 i = x0i M xi0
et par conséquent un projecteur M -orthogonal dans Rp :
Pu = u(u0 M u)−1 uM avec u ∈ Rp
PX 0 = X 0 (XM X 0 )−1 XM sur Im(X 0 ) ⊂ Rp
p1 0 ... ... 0
1
.. .
. ..
. .
0 . X n
.. ..
g = X 0 D1n = (x1 . . . xi . . . xn ) . 1 =. pi xi
pi .
.. .. .
i=1
. . 0 .
0 . . . . . . 0 pn 1
où 1n ∈ Rn est le vecteur colonne dont toutes les composantes sont égales à 1.
On a la relation de Huyghens :
soit la moyenne des carrés de toutes les distances entre les n individus. L'inertie totale est la trace de
la matrice M V (ou V M ) :
Ig = T race(M V ) = T race(V M )
En eet, pi x0i M xi étant un scalaire, grâce à la commutativité sous la trace :
n n
! !
X X
0
Ig = T race pi xi M xi = T race pi M xi xi = T race(M X 0 DX) = T race(M V )
0
i=1 i=1
Ig = T race(R) = p
L'inertie est donc égale au nombre de variables et ne dépend pas de leurs valeurs.
Le choix de la distance dans Rn consiste à aecter à chaque dimension un coecient égal au poids
de chaque individu dans le nuage NI de Rn (on peut avoir l'intuition de ce choix en considérant deux
individus absolument identiques que l'on peut remplacer par un seul ayant un poids double). Si les
données ont été recueillies à la suite d'un tirage aléatoire à probabilité égales, les individus ont tous
même importance, n1 , dans le calcul des caractéristiques de l'échantillon. Il n'en est pas toujours ainsi et
il est utile de travailler avec des poids pi diérents d'un individu à l'autre. pi > 0, ils sont comparables
aux fréquences. Dans le cas général, la distance utilisée est , au coecient pi près, la distance euclidienne
usuelle.
1. La norme de chaque vecteur représentant une variable ||xj ||D est égale à son écart-type. Soit
n
(xji − xj )2
X
j
V ar(x ) = ||xj ||2D =
i=1
Ainsi, lorsque les variables sont centrées réduites, chaque variable a pour longueur 1 : le nuage NJ
est alors situé sur une sphère de rayon 1 (on dit aussi hypersphère pour rappeler que Rn est de
dimension supérieur à 3). Pour cette raison, l'ACP sur données centrées-réduites est dite ACP
normée. Lorsque les variables sont seulement centrées, leur longueur est égale à leur écart-type
et on parle alors d'ACP non normée.
0
2. Le cosinus de l'angle formé par les vecteurs représentant les deux variables xj et xj , obtenu en
0
calculant le produit scalaire noté hxj , xj iD entre ces deux vecteurs normés, est égal au coecient
de corrélation entre ces deux variables. Soit
0
j j0 Cov(xj , xj ) 0 0
Cor(x , x ) = p = Cov(xj , xj ) = hxj , xj iD
V ar(xj ) × V ar(xj 0 )
0 0
car V ar(xj ) = ||xj ||2D = 1 et V ar(xj ) = ||xj ||2D = 1
L'interprétation d'un coecient de corrélation comme cosinus est une propriété très importante puis-
qu'elle donne un support géométrique, donc visuel, au coecient de corrélation. cette propriété justie
le choix de la distance 'on dit aussi métrique) dans Rn et implique que , dans la représentation des
variables on s'intéresse surtout aux direction déterminées par les variables, c'est-à-dire aux vecteurs
plutôt à leurs extrémités.
La longueur des vecteurs représentant les variables étant égale à 1, la coordonnée de la projection d'une
variable sur une autre s'interprète comme un coecient de corrélation.
Commentaires
Réaliser un bilan des coecients de corrélation entre les variables revient à étudier les angles entre
les vecteurs dénissant le nuage NJ . Cette directe est impossible du fait de la dimension de Rn . L'intérêt
de l'ACP est de fournir des variables synthétiques qui constituent un résumé de l'ensemble des variables
initiales et sont la base d'une représentation plane approchée des variables et de leurs angles.
Dans Rn , le carré de la distance des variables à l'origine du repère s'interprètent comme la variance
respective de ces variables et le carré de la distance entre deux variables est leur covariance.
Cependant l'analyse dans Rp du nuage des individus se fait par rapport au centre de gravité de g et
celle dans Rn du nuage des variables se fait par rapport à l'origine.
Cas particuliers
0
Lorsque les variables xj et xj sont centrées, leurs moyennes sont nulles. On peut écrire
n
X
pi (xj )2 = V ar(xj )
i=1
n
0 0
X
pi (xj )2 = V ar(xj )
i=1
n
0 0
X
pi xj xj = Cov(xj , xj )
i=1
0
En substituant ces égalités ci-dessus dans d2D (xj , xj ), on obtient :
0 0 0
d2D (xj , xj ) = V ar(xj ) + V ar(xj ) − 2Cov(xj , xj )
La distance entre couple de variables s'exprime en fonction de la covariance et augmente les
variances. Elle diminue si la liaison (covariance) entre les variables est positive et augmente si la
liaison (covariance) est négative.
0 0
Si xj = 0 (origine du repère) la dernière relation de d2D (xj , xj ) devient :
d2D (xj , 0) = V ar(xj )
0
Si de plus les variables xj et xj sont centrée-réduites alors :
0
d2D (xj , 0) = V ar(xj ) = V ar(xj ) = 1 et
0 0
Cov(xj , xj ) = Cor(xj , xj )
0
En substituant dans d2D (xj , xj ), on obtient :
0 0
d2D (xj , xj ) = 2[1 − Cor(xj , xj )] ∈ [0, 4]
Cette dernière relation permet d'interprète la distance entre variables dans Rn en terme de
corrélation. C'est ainsi
0 0 0
- Si Cor(xj , xj ) ' 1 les variables xj et xj sont corrélées positivement et d2D (xj , xj ) ' 0 ;
0
donc xj et xj sont très proches dans Rn
0 0 0
- Si Cor(xj , xj ) ' −1 les variables xj et xj sont corrélées négativement et d2D (xj , xj ) ' 4 ;
0
donc xj et xj sont très proches dans Rn
0 0
- Si Cor(xj , xj ) ' 0 alors d2D (xj , xj ) ' 2
Remarques
La métrique D permet de dénir dans Rn le produit scalaire :
0 0
hxj , xj iD = (xj )0 Dxj
La liste des coordonnées li des individus sur Fu forme une nouvelle variable ou composante, ψ .
Comme li = u0 M xi = x0i M u = hu, xi iM , on a :
l1
..
. Xp
aj xj
ψ = li = XM u = Xa =
.. j=1
.
ln
en posant a = M u.
A la variable ψ sont donc associés trois êtres mathématiques :
- un axe u de Fu de vecteur unitaire u ;
- un vecteur ψ de Rn espace des variables ;
- une forme linéaire a appelée facteur.
L'ensemble des variables ψ que l'on peut engendrer par combinaison linéaire des vecteurs-colonnes
de X forme un sous-espace vectoriel de Rn de dimension égale (ou inférieure) à p.
Remarquons que si u appartient à l'espace des individus Rp , a appartient à son dual (Rp )∗ , et que
si u est M -normé à l, a est M −1 normé à 1 :
u0 M u = a0 M −1 a car a = M u ⇒ u = M −1 a
(Rp )∗ est donc muni de la métrique M −1
(Lorsque M = I ces distinctions disparaissent et on peut identier totalement axes et facteurs).
La variance de ψ vaut alors :
V ar(ψ) = ψ 0 Dψ = a0 V a
En eet : ψ 0 Dψ = (Xa)0 DXa = a0 X 0 DXa
1.6 Analyse
Le principe de la méthode est d'obtenir une représentation approchée du nuage des n individus
dans un sous-espace de dimension faible. Ceci s'eectue par projection.
Le choix de l'espace de projection s'eectue selon le critère suivant qui revient à déformer le moins
possible les distances en projection : le sous-espace de dimension k recherché est tel que la moyenne des
carrés des distances entre projections soit la plus grande possible. (En eet, en projection les distances
ne peuvent que diminuer). En d'autres termes il faut que l'inertie du nuage projeté sur le sous-espace
Fk soit maximale. Soit P l'opérateur de projection M -orthogonale sur Fk : P est tel que P 2 = P et
P 0M = M P .
Le nuage projeté est alors associé au tableau de données XP 0 , car chaque individu xi (ou ligne de
X ) se projette sur Fk selon un vecteur colonne P xi ou un vecteur ligne xi P 0 .
Théorème 1.1.
Soit Fk un sous-espace portant l'inertie maximale, alors le sous-espace de dimension k + 1 portant
l'inertie maximale est la somme directe de Fk du sous-espace de dimension 1 M -orthogonal à Fk
portant l'inertie maximale : Les solutions sont emboitées .
Pour obtenir Fk on pourra donc procéder de proche en proche en cherchant d'abord le sous-espace
de dimension 1 d'inertie maximale, puis le sous-espace de dimension 1 M -orthogonal au précédent
d'inertie maximale, etc.
1.6.1.1.2 Ajustement du nuage par un axe suivant la méthode des moindres carrés
Soit le nuage de n points L1 , L2 , . . . , Ln en Rp .
Soit un axe Fu engendré par un vecteur unitaire u passant par l'origine des coordonnées :
u0 u = 1
a) Nous projetons les points du nuage sur l'axe Fu , de façon que la somme des carrés des distances
des points à l'axe soit minimale, c'est-à-dire que :
n
X 2
Li li minimale
i=1
2
Alors, minimiser Li li est équivalent à maximiser Oli dans le triangle rectangle OLi li .
2
On sait que Oli = Li .u donc Oli = (Li .u)0 .(Li .u) = u0 L0i Li u = u0 x0i xi u
Et
n n n
X 2 X X
Oli = u0 ( x0i xi )u = u0 X 0 Xu car x0i xi = X 0 X
i=1 i=1 i=1
L(u, λ) = u0 X 0 Xu − λ1 (u0 u − 1)
1 ∂L
= X 0 Xu − λ1 u = 0
2 ∂u
∂L 0
=1−u u=0
∂λ1
La première équation conduit à l'équation aux valeurs et vecteurs propres suivante :
X 0 Xu = λ1 u
En plus, u0 X 0 Xu = u0 λ1 u = u0 uλ1 = λ1 .
u est vecteur propre de la matrice X 0 X associé à la plus grande valeur propre λ1 .
1.6.1.3 Ajustement du nuage par un plan suivant la méthode des moindres carrés
Maintenant, nous nous proposons d'ajuster le nuage par un plan, déterminer par l'axe Fu précédent
et par l'axe Fv engendré par un vecteur unitaire v (v 0 v = 1) passant par l'origine des coordonnées et
perpendiculaire à Fu (c'est-à-dire v 0 u = 0).
La meilleure projection du nuage sur le plan ainsi déni est équivalente à maximiser v 0 X 0 Xv sous
la contrainte v 0 v = 1 et v 0 u = 0.
Soit L la fonction de Lagrange dans laquelle λ2 et β sont des multiplicateurs de Lagrange :
L(v, λ2 , µ) = v 0 X 0 Xv − λ2 (v 0 v − 1) − βv 0 u
1.6.1.4 Ajustement du nuage par un sous-espace vectoriel suivant la méthode des moindres
carrés
En général, on cherche le sous-espace Rq de Rp , de dimension q avec q < p (q << p en pratique).
Les vecteurs uα sont associés aux q plus grandes valeurs propres de X 0 X . On a donc :
X 0 Xuα = λα uα
En pratique
- On calcule les p valeurs propres de X 0 X .
- On ordonne ces valeurs propres (vecteurs propres associés) de façon que : λ1 > λ2 > . . . > λp .
- Le sous-espace de dimension q et d'inertie maximale correspond aux q premiers vecteurs propres.
Pu = u(u0 M u)−1 u0 M
L'inertie du nuage projeté sur cette droite vaut, d'après ce qui précède :
1
= 0 T race(V M uu0 M )
u Mu
T race(u0 M V M u)
=
u0 M u
u0 M V M u
=
u0 M u
puisque u0 M V M u est un scalaire.
La matrice M V M est appelée matrice d'inertie du nuage ; elle dénit la forme quadratique d'inertie
qui, à tout vecteur u de M -norme 1, associe l'inertie projetée sur l'axe déni par u. La matrice d'inertie
ne se confond avec la matrice de variance-covariance que si M = I .
0
Pour obtenir le maximum de u M V Mu
u0 M u il sut d'annuler la dérivée de cette expression par rapport
u:
soit : V M u = λu
car M est régulière ; donc u est vecteur propre de V M . S'il en est ainsi, le critère u0 M V M u vaut
λu0 M u = λ. Il faut donc que λ soit la plus grande valeur propre de V M .
La matrice V M étant M -symétrique possède des vecteurs propres M -orthogonaux deux à deux.
En raison des valeurs numériques décroissantes de λ1 > λ2 > . . ., la somme des premières valeurs
propres représente souvent une proportion importante de la trace de la matrice. Ainsi, dans la pra-
tique, on peut se limiter à trouver s les premières valeurs propres λ1 , λ2 , . . . , λs avec s inférieur à p.
L'information perdue est alors relativement faible
a est un élément de (Rp )∗ (dual de l'espace des individus) qui dénit une combinaison linéaire des
variables descriptives x1 , x2 , . . . , xp .
A l'axe principal u M -normé à 1 est associé le facteur principal a = M u.
Puisque u était vecteur-propre de V M :
V M u = λu ⇒ M V M u = λM u
Soit : M V a = λa
Les facteurs principaux sont les vecteurs propres M −1 -normés de M V . En eet, on a vu que si Rp
est muni de la métrique M , son dual doit être muni de la métrique M −1 , Donc a0 M a = 1
- Un bilan sur les inerties associées aux diérents facteurs, qui ne se préoccupe pas de la signication
des facteurs, mais se fonde seulement sur des indices numériques.
- L'interprétation proprement dite des facteurs, dicilement formalisable, qui donne une large
place aux connaissances sur le problème étudié extérieures au tableau de données.
Enn, il est quelquefois utile de considérer le nombre de valeurs propres pratiquement nulles , ce
qui permet de calculer la dimension réelle des données analysées.
Le diagramme des valeurs propres, appelé souvent abusivement histogramme, est utilisé surtout
pour étudier l'allure de la décroissance de ces valeurs. Le principe de lecture de ce diagramme est le
suivant : si deux facteurs sont associés à des valeurs propres presque égales, ils représentent la même
part de variabilité et il n'y a pas lieu a priori de retenir l'un et non l'autre dans l'interprétation.
Réciproquement, une forte décroissance entre deux valeurs propres successives incite à retenir dans
l'interprétation les facteurs précédant cette décroissance.
Dans la pratique, on observe souvent le phénomène suivant : les S premières valeurs propres présentent
une décroissance assez irrégulière ; puis, au delà du rang S , la décroissance est lente et régulière. Cette
allure indique que les S premiers facteurs correspondent chacun à des irrégularités dans la forme
du nuage de points étudié qui demandent à être interprétées et suggère que les facteurs suivants ne
représentent que l'inévitable bruit qui accompagne toute observation de nature statistique.
Cas extrême, une décroissance lente et régulière dès la première valeur propre traduit un nuage à peu
près sphérique et donc des données peu structurées dont les facteurs sont peu synthétiques. Un
diagramme de ce type présage un intérêt limité des facteurs.
tableau. Il s'agit d'une mesure globale de la qualité de reproduction de la structure du nuage. Il est
souvent utilisé sous la forme cumulée qui indique le pourcentage d'inertie extrait par les S premiers
facteurs.
Les pourcentages d'inertie des axes dénissent les "pouvoirs explicatifs" des facteurs : ils représentent
la part de la variance (ou inertie) totale prise en compte par chaque facteur. Son appréciation doit
cependant tenir compte du nombre de variables et du nombre d'individus. On mesure la qualité de Fk
par :
λ1 + λ2 + · · · + λk λ1 + λ2 + · · · + λk
QLTN = =
Ig λ1 + λ2 + · · · + · · · + λp
Gi2
QLTa (i) = = cos2 θ
GH 2
On peut lire, par exemple sur la gure ci-dessus, que les individus 4 et 5 ont des comportements
semblables caractérisés par des valeurs faibles pour les trois variables, alors que les individus 2
et 8 ont au contraire simultanément des bons "scores" pour ces mêmes variables. L'orthogonalité
des axes fait qu'il ne peut exister qu'un seul facteur taille.
(z j )0 DZu
cor(ψ; xj ) = √
λ
(z j )0 DZu est la j eme ligne de Z 0 DZ = R, donc (z j )0 DZu est la j eme composante de Ru. Comme
Ru = λu, il vient :
√
cor(ψ; xj ) = λuj
Ces calculs s'eectuent pour chaque composante principale. Pour un couple de composantes principales
ψ 1 et ψ 2 par exemple on synthétise usuellement les corrélations sur une gure appelée cercle des
corrélations où chaque variable xj est repérée par un point d'abscisse cor(ψ 1 ; xj ) et d'ordonnée
cor(ψ 2 ; xj ).
Ainsi la gure ci-dessous montre une première composante principale très corrélée positivement
avec les variables 1, 2 et 3, anticorrélée avec les variables 4 et 5 et non corrélée avec 6, 7 et 8.
cor2 (ψ α ; xj )
(ujα )2 =
λ
mais cette quantité ne présente que peu d'intérêt en ACP et n'apporte rien de plus que le coecient
de corrélation.
b) Des individus
Si les individus ne sont pas anonymes pour l'étude, on s'intéresse à ceux qui participent à la
formation des axes.
La contribution de l'individu i (de poids pi ) à l'inertie de l'axe α est dénie par :
pi ψα2 i
Crα (i) =
λα
où λα est l'inertie de l'axe α et pi ψα2 i est la contribution de l'individu i à l'inertie de cet axe. On a :
n
X
Crα (i) = 1
i=1
On s'intéressera surtout aux individus qui ont les plus fortes contributions relatives aux axes.
Lorsque les n individus sont aectés d'une même masse égale à 1/n, l'inertie d'un point varie comme
sa distance au centre de gravité. Les individus qui contribuent le plus à la détermination de l'axe sont les
plus excentrés et l'examen des coordonnées factorielles ou la lecture du graphique susent à interpréter
les facteurs dans ce cas. La représentation des individus sur le plan factoriel permet d'apprécier leur
répartition et de repérer des zones de densités plus ou moins fortes.
2.1 Introduction
L'analyse Factorielle des Correspondances (AFC) a été développée par Benzécri (1969). C'est une
méthode adaptée aux tableaux de contingence et permet d'étudier les éventuelles relations existant
entre deux variables nominales. Le tableau de contingence (dit aussi de dépendance, ou croisé) est
obtenu en ventilant une population selon deux variables. Cette méthode n'est pas un cas particulier
de l'Analyse en Composantes Principales (ACP) bien que l'on puisse se ramener à cette technique en
faisant un changement des variables appropriés (à condition de traiter chaque espace séparément).
L'ensemble des colonnes du tableau désigne les modalités d'une variable et l'ensemble des lignes corres-
pond à celles de l'autre variable. De ce fait, les lignes et les colonnes, désignent deux partitions d'une
même population, jouent des rôles symétriques et sont traitées de façon analogue.
31
2.2 Données et notations
marge dont le ie terme est la somme des nombres inscrits dans la ie ligne (somme appelée total de la
ie ligne ou total marginal ki. ).
Le total de la ligne de marge est égal au total de la colonne de marge ; c'est la somme de tous les
nombres inscrits dans le tableau brut : on le note k .
On a les relations suivantes : X X
ki. = kij k.j = kij
j∈J i∈I
On considère souvent le tableau des fréquences relatives F , obtenu en divisant chaque eectif kij par
l'eectif total k . Ce nouveau tableau dénit une mesure de probabilité sur l'ensemble produit I × J .
Ses marges, ou probabilités marginales, ont pour terme général fi. pour la marge-colonne et f.j pour
la marge-ligne (voir gure)
Il y a liaison entre deux variables dès que certaines cases du tableau fij dièrent du produit fi. f.j . Si
fij est supérieur à ce produit, les modalités i et j s'associent plus qu'elles ne le font dans l'hypothèse
d'indépendance : on dit que i et j s'attirent. Au contraire, si fij est inférieur au produit des marges,
i et j s'associent moins que dans l'hypothèse d'indépendance : on dit qu'il y a répulsion entre ces
deux modalités.
L'indépendance s'exprime aussi en considérant le tableau comme un ensemble de lignes. En eet,
l'égalité ci-dessus est équivalente à l'égalité :
fij
= f.j
fi.
La quantité f.j représente le pourcentage de la population totale qui possède la modalité j tandis
f
que fiji. représente ce même pourcentage dans la sous-population possédant la modalité i. Lorsqu'il
y a indépendance, les I sous-populations caractérisées par les modalités i de la première variables se
répartissent selon les J modalités j de la deuxième variable avec les mêmes pourcentages. Toutes les
lignes sont alors proportionnelles. La réciproque est vraie : lorsque les lignes sont proportionnelles,
elles sont proportionnelles à la marge f.j et les deux variables sont indépendantes. Il y a donc liaison
dès lors les lignes ne sont pas toutes proportionnelles à la marge, c'est-à-dire lorsqu'elles ne sont pas
identiques du point de vue de leur association avec l'ensemble des colonnes.
Remarquons que dans un tableau de contingence les lignes et les colonnes jouent un rôle absolument
symétrique : l'indépendance s'exprime de la même façon sur l'ensemble des colonnes. Les deux égalités
ci-dessus sont en eet équivalentes à la suivante :
fij
= fi.
f.j
Il y a indépendance lorsque tous les pourcentages en colonnes sont égaux à la marge fi. , c'est-à-dire
lorsque les colonnes sont proportionnelles. Il y a liaison lorsqu'elles ne le sont pas.
2.3 Objectifs
Bien que le tableau soit de nature très diérente à celui étudié en ACP, les objectifs de l'AFC
peuvent s'exprimer de manière analogue à ceux de l'ACP : on cherche à obtenir une typologie des
lignes, une typologie des colonnes et relier ces typologies entre elles ; mais la notion de ressemblance
entre deux lignes ou entre deux colonnes, est diérente de celle de l'ACP. Dans un tableau de contin-
gence, la ressemblance, entre deux lignes d'une part et entre deux lignes d'autre part, s'exprime de
manière totalement symétrique. Deux lignes sont considérées comme proches s'il elles s'associent de
la même façon à l'ensemble des colonnes, si elles s'associent trop (trop peu) aux mêmes colonnes ; les
termes "trop" et "trop peu" sont pris en référence à la situation d'indépendance. Symétriquement,
deux colonnes sont proches si elles s'associent de la même façons à l'ensemble des lignes.
Schématiquement, l'étude de l'ensemble des lignes revient à mettre en évidence une typologie dans
laquelle on cherche les lignes dont la répartition s'écarte de plus de celle de l'ensemble de la popula-
tion, celles qui se ressemblent entre elles (dans le sens précisé ci-dessus) et celle qui se opposent. Pour
mettre en relation la typologie des lignes avec l'ensemble des colonnes, on caractérise chaque groupe
de lignes par les colonnes auxquelles ce groupe s'associe trop ou trop peu.
L'étude de l'ensemble des colonnes des colonnes est absolument analogue.
Cette approche, grâce à la notion de ressemblance utilisée, permet d'étudier les liaisons entre les deux
variables, c'est-à-dire l'écart du tableau à l'hypothèse d'indépendance. L'analyse de cette liaison est
l'objectif fondamental de l'AFC.
f
Le nombre fiji. représente, par exemple, la probabilité d'occuper un emploi de la catégorie j sachant
que l'on détient le niveau de diplôme i. Le prol-ligne i n'est rien que la loi de probabilité conditionnelle
dénie par i sur l'ensemble des colonnes. Pour analyser l'écart à l'indépendance, on confronte ces prols
au prol ligne marginal (=établit sur l'ensemble de la population) de terme général f.j et noté GI .
Du fait du rôle symétrique joué par les lignes et les colonnes, un raisonnement peut être mené à propos
des colonnes. Il conduit à la notion de prol-colonne.
L'AFC s'intéresse particulièrement aux prols c'est-à-dire aux eectifs marginaux des tableaux.
Dans cette partie, on prend I = n et J = p.
Les transformations opérées sur le tableau des données peuvent s'écrire à partir de trois matrices F ,
Dn et Dp qui dénissent les éléments de base de l'analyse.
F d'ordre (n, p) désigne un tableau des fréquences relatives ; Dn d'ordre (n, n) est la matrice diagonale
dont les éléments diagonaux sont les marges en lignes fi. ; Dp d'ordre (p, p) est la matrice diagonale
dont les éléments diagonaux sont les marges en colonnes f.j .
Pour distinguer les deux nuages N (I) et N (J), il est convenu d'appeler l'un (quelconque) des deux
nuages le "nuage direct" ; l'autre est alors appelé "nuage dual". On distingue ainsi les analyses facto-
rielles, en parlant d'analyse directe et d'analyse duale.
2
fi2 j 0 2
1 1 fi1 j fi j 0
fi2 j
=⇒ A(i1 ) + A(i2 ) = + − 1 −
fi1 . f.j
fi2 . f.j f.j 0 f.j 0
2
fi2 j 0 2
fi1 j fi1 j 0 fi2 j
= fi1 . − + fi2 . −
fi1 . f.j fi1 . f.j 0 fi2 . f.j fi2 . f.j 0
fi1 j fi2 j fi 0 j
Comme fi 1 . = fi 2 . = fi 0 . et que fi1 j + fi2 j = fi0 j
fi1 j 0 2 fi1 j 0 2
fi1 j fi1 j
=⇒ A(i1 ) + A(i2 ) = fi1 . − + fi2 . −
fi1 . f.j fi1 . f.j 0 fi1 . f.j fi1 . f.j 0
2
fi1 j fi1 j 0
= (fi1 . + fi2 . ) −
fi1 . f.j fi1 . f.j 0
2
fi1 j fi1 j 0
= fi0 . −
fi1 . f.j fi1 . f.j 0
fi0 j 0 2
fi0 j
= fi0 . −
fi0 . f.j fi0 . f.j 0
fi0 j 0 2
1 fi0 j
= −
fi0 . f.j f.j 0
= A(i0 )
0
D'où l'invariance de la distance dχ2 (Y j , Y j ).
f f
Dans cette démonstration, on peut remarquer que s'il existe deux individus i1 et i2 tels que fii1 j. = fii2 j. ,
1 2
alors on peut remplacer les deux lignes i1 et i2 par une ligne i0 tel que fi1 j + fi2 j = fi0 j sans que
0
les distances dχ2 (Y j , Y j ) à l'intérieur de N (J) soient modiées. Ensuite, il est facile de constater que
fi1 j fi 2 j
fi 1 . = fi 2 . alors dχ2 (X i1 , X i2 ) = 0
On se place dans les deux espaces aux centres de gravité des nuages. Cependant, et c'est là une des
particularités de l'analyse des correspondances, il est équivalent de procéder à l'analyse par rapport à
l'origine ou par rapport aux centres de gravité, à condition de négliger le premier cas de l'axe factoriel
qui joint l'origine au centre de gravité.
On constate que les deux analyses conduisent aux mêmes valeurs propres et que les facteurs principaux
de l'une sont les composantes principales de l'autre, à coecient multiplicateur près.
Donc, u est vecteur propre de la matrice S = F 0 Dn−1 F Dp−1 associé à la plus grande valeur propre λ.
f f 0
La matrice S a pour terme général sjj 0 = ni=1 fiji. f.jij0
P
Par analogie, v est vecteur propre de la matrice T = F Dp−1 F 0 Dn−1 associé à la plus grande valeur
propre λ.
Démonstration. Maximiser une fonction sous contrainte revient à maximiser le Lagrangien, déni par :
L = u0 Dp−1 F 0 Dn−1 F Dp−1 u + λ(1 − u0 Dp−1 u)
IS = λmax
et de variance
n
X
V ar(ψ ) = fi. ψ 2α = λα
α i
i=1
Xn
V ar(φα ) = fi. φ2αi = λα
i=1
v = √1 F D −1 u
α λα p α
φ = √λ D−1 u
α α p α
C'est-à-dire, explicitement √
λα
ψ αi =
fi. v αi
√
φ = λα
αj f.j uαj
Pn fij
√1
φ =
αj λα i=1 fi. ψ αi (2)
1. ψ α : projection de la ligne i sur l'axe αi de N (I)
i
Elle s'écrit aussi, en faisant intervenir la première valeur propre qui vaut 1, et les facteurs correspondants
p
X p
fij = fi. f.j (1 + λα ψ α φαj )
i
j=1
Cette formule permet de recalculer les valeurs du tableau initial en fonction des marges et des facteurs.
f f
L'analyse par rapport au centre de gravité revient à remplacer fiji. par fiji. − f.j .
En AFC, la valeur de l'inertie globale est liée au test classique du χ2 . L'inertie totale I du nuage de
points par rapport au centre de gravité G s'écrit par dénition
n
X p
X
I= fi. d2 (i, G) = f.j d2 (j, G)
i=1 j=1
2
Pn fij fi. f.j
or d2 (j, G) = 1
i=1 fi. f.j − f.j , ceci implique
p
n X
X (fij − fi. f.j )2
I=
fi. f.j
i=1 j=1
L'eectif total étant k , on reconnaît en kI la statistique qui est asymptotiquement distribuée suivant
la loi du χ2 à (n − 1)(p − 1) degrés de liberté (sous l'hypothèse d'indépendance) :
χ2 = kI
On pourra rejeter l'hypothèse nulle d'indépendance des variables en lignes et en colonne si la valeur
observée χ2 dépasse la valeur χ20 qui a une probabilité d'être dépassée inférieure à un seuil xé au
préalable.
La valeur de l'inertie est un indicateur de la dispersion du nuage et mesure la liaison entre deux
variables.
L'indicateur χ2 mesure la signicativité (une liaison forte peut ne pas être signicative si elle est
observée sur très peu d'individus ; une liaison faible peut être signicative si elle est observée sur
beaucoup d'individus).
2.8.2 Contribution
Les contributions, parfois appelées contributions absolues, qui expriment la part prise par une
modalité de la variable dans l'inertie (ou variance) expliquée par un facteur. On cherche à connaître
les éléments responsables de la construction de l'axe α.
calculons la variance des coordonnées des n points-ignes i sur l'axe α, chacun d'eux étant muni de la
masse fi. .
L'origine étant prise au centre de gravité, les coordonnées factorielles sont centrées et la variance vaut
λα .
ainsi le quotient :
fi. ψ 2α
i
Crα (i) =
λα
mesure la part de l'élément i dans la variance prise en compte sur l'axe α. Ce quotient est appelé
contribution de l'élément i à l'axe α et permet de savoir dans laquelle proportion un point i contribue
à l'inertie λα du nuage projeté sur l'axe α.
On notera que pour tout axe α
Xn
Crα (i) = 1
i=1
De la même façon, on dénit la contribution de l'élément j à l'axe α par :
fj. φ2αj
Crα (j) =
λα
avec la relation
p
X
Crα (j) = 1
j=1
Pour trouver une éventuelle signication à un axe , on s'intéresse d'abord aux points ayant une forte
contribution. ce sont eux xent la position de l'axe (dans Rp pour les points i, et dans Rn pour les
points j ).
On remarquera que la distance s'annule lorsque le prol du point est égal au prol moyen.
Le carré de la projection de la variable i sur l'axe α vaut
d2α (i, G) = ψ 2α
i
La qualité de la représentation du point i sur l'axe α peut-être évaluée par le cosinus de l'angle
entre l'axe et le vecteur joignant le centre du nuage au point i :
d2α (i, G) ψ 2α
cos2α (i) = 2 = 2 i
d (i, G) d (i, G)
Cette quantité, appelée cosinus carré, représente la part de la distance au centre prise en compte dans
la direction α on l'appelle aussi contribution relative du facteur à la position du point i.
Plus le cosinus carré est proche de 1, plus la position du point observé en projection est proche de la
position réelle du point dans l'espace.
φ2αj
cos2α (j) =
d2 (j, G)
2.9 Conclusion
L'AFC est une méthode puissante pour synthétiser et résumer de vastes tableaux de contingence. En
pratique elle est appliquée à beaucoup d'autres tableaux, notamment les tableaux individus-variables.
Les individus sont alors considérés comme une variable.
Dans le cas de tableaux de contingence, le principal objectif de cette analyse est de dégager les liaisons
entre deux variables.
3.1 Introduction
On désigne sous le nom d'analyse discriminante une famille de techniques destinées à classer (aecter
à des classes préexistantes) des individus caractérisés par un certain nombre de variables numériques
ou nominales.
L'origine de cette méthode remonte aux travaux de Ficher ou, de façon moins directe, à ceux de
Mahalanobis (1936). Elle est une des techniques 'analyse multidimensionnelle les plus utilisées en
pratique (prévision de risques, reconnaissance des formes, contrôle qualité, diagnostique automatique,
credit-scoring).
L'analyse factorielle discriminante (AFD) ou analyse linéaire discriminante, est une méthode à la fois
descriptive et prédictive, qui donne lieu, à des calculs d'axes principaux.
chercher des fonctions linéaires discriminantes sur l'échantillon d'apprentissage de taille n qui
sont les combinaisons linéaires des variables explicatives (x1 , x2 , . . . , xp ) dont les valeurs séparant
au mieux les q classes.
connaître la classe d'aectation de n0 nouveaux individus décrits par les variables explicatives
(x1 , x2 , . . . , xp ). Il s'agit ici d'un problème de classement dans des classes préexistantes, par
opposition au problème de classication qui consiste à construire des classes les plus homogènes
possibles dans un échantillon.
43
3.2 Formulation du problème et notation
Considérons pour xer les idées le tableau de données (200, 30) qui contient, pour n = 200 malades,
les valeurs de p = 30 variables issues d'analyses biologiques et d'examens cliniques Il existe par ailleurs
une partition de ces 220 malades selon q = 3 catégories de diagnostics réalisés après des interventions
beaucoup plus coûteuses que les 30 mesures précédentes. On se pose la question suivante : étant donné
des patients supplémentaires (en nombre n0 ) sur lequel on réalise les 30 analyses et examens, peut-on
prévoir leurs catégories de diagnostics ? La question répond ici à un besoin pratique : est-ce que des
mesures nombreuses mais d'accès facile peuvent contenir une information sur un phénomène ou un
état plus dicile à identier ?
Soit le tableau des données X à n lignes (individus ou observations) et p colonnes (variables), de terme
général xji . Les n individus sont partitionnés en q classes. Chaque classe k caractérise un sous-nuage
Ik de nk individus i avec :
q
X
nk = n
k=1
Par xjk on désigne la moyenne de la variable xj dans la classe k . C'est la j ème coordonnée du centre de
gravité du sous-nuage Ik :
1 X j
xjk = xi = gkj
nk
i∈Ik
La moyenne de la variable xj sur l'ensemble des individus qui correspond à la j ème coordonnée du
centre de gravité G du nuage des individus vaut :
n q
j 1 X j X nk j
x = xi = x = gj
n n k
i=1 k=1
où
PqIG est l'inertie entre les classes (inertie interclasse : séparation maximum des centres des classes),
k=1 Igk est l'inertie interne aux classes (inertie intraclasse : homogénéité maximum des classes).
Soient u(i) la valeur, pour l'individu i, d'une combinaison linéaire u des p variables préalablement
centrées :
p
uj (xji − xj )
X
u(i) =
j=1
La variance var(u) de la nouvelle variable synthétique u(i), puisque u(i) est centrée :
2
n n p
1 1
uj (xji − xj )
X X X
var(u) = u2 (i) =
n n
i=1 i=1 j=1
n p p
1 XX X 0 0
var(u) = uj uj 0 (xji − xj )(xji − xj )
n 0
i=1 j=1 j =1
où u désigne le vecteur dont les p composantes sont u1 , . . . , up et T la matrice des covariances des p
variables , de terme général tjj 0 .
u0 T u = u0 Eu + u0 Du
q
1XX j
j0 0 0
j
cov(x , x ) = [ (xi − xj )(xji − xj ) = tjj 0 ]
n
k=1 i∈Ik
0
Nous allons décomposer cov(xj , xj ) en somme de covariance intra-classe ("Dans les classes"="within
classes ") et covariance inter-classes ("Entre les classes"="between classes").
Pour cela nous partirons de l'identité, pour i, j , k :
La somme entre les crochets dans la formule de la covariance se décompose en quatre termes, dont
deux sont nuls.
q
1 XX j 0 0 0 0
tjj 0 = [(xi − xjk ) + (xjk − xj )][(xji − xjk ) + (xjk − xj )] =
n
k=1 i∈Ik
q q q q
1 XX j j 0 0 1 XX j j 0 0 1 XX j 0 0 1 XX j 0 0
(xi −xk )(xji −xjk )+ (xi −xk )(xjk −xj )+ (xk −xj )(xji −xjk )+ (xk −xj )(xjk −xj )
n n n n
k=1 i∈Ik k=1 i∈Ik k=1 i∈Ik k=1 i∈Ik
avec
q q q
1 XX j 0 0 1X 0 0 1 X j 1X 0 0
(xi −xjk )(xjk −xj ) = nk (xjk −xj )( xi −xjk ) = nk (xjk −xj )(xjk −xjk ) = 0 et
n n nk n
k=1 i∈Ik k=1 i∈Ik k=1
q q q
1 XX j 0 0 1X 1 X j0 0 1X 0 0
(xk − xj )(xji − xjk ) = nk (xjk − xj )( xi − xjk ) = nk (xjk − xj )(xjk − xjk ) = 0
n n nk n
k=1 i∈Ik k=1 i∈Ik k=1
Il en résulte alors :
q q
1 XX j 0 0 1X 0 0
tjj 0 = (xi − xjk )(xji − xjk ) + nk (xjk − xj )(xjk − xj )
n n
k=1 i∈Ik k=1
avec
q
1 XX j 0 0
djj 0 = (xi − xjk )(xji − xjk )
n
k=1 i∈Ik
q
nk 0 0
(xjk − xj )(xjk − xj )
X
ejj 0 =
n
k=1
T =D+E
Ainsi, la variance d'une combinaison linéaire u des variables se décompose d'après var(u) = u0 T u en
variance interne et variance externe :
u0 T u = u0 Du + u0 Eu
Rappelons que, parmi toutes les combinaisons linéaires des variables, on cherche celles qui ont
une variance intra-classes minimale et une variance inter-classes maximale. En projection sur l'axe
discriminant u, chaque sous-nuage doit être, dans la mesure du possible, à la fois bien regroupé et bien
séparé des autres sous-nuages.
Variance intraclasse de u u0 Du
R(u) = = 0 soit minimum
Variance interclasse de u u Eu
u0 T u
R(u) = −1
u0 Eu
Ce qui revient à maximiser le rapport
u0 Eu
f (u) =
u0 T u
Ce rapport étant une fonction homogène de degré 0 en u c'est-à-dire f (u) = f (βu) ∀β , il est équivalent
de maximiser u0 Eu sous la contrainte de normalisation u0 T u = 1
En utilisant la méthode des multiplicateurs de Lagrange, le Lagrangien s'écrit :
L = u0 Eu + λ(1 − u0 T u)
Eu = λT u
0
u Tu = 1
T −1 Eu = λu
u est vecteur propre de la matrice T −1 E associé à la plus grande valeur propre λ. La valeur propre
λ, quotient de la variance externe dela fonction discriminante par la variance totale, est inférieure à 1.
On l'appelle quelquefois pouvoir discriminant de la fonction u.
Après avoir trouvé le premier vecteur propre u noté u1 , on pourra chercher un deuxième vecteur ortho-
gonal au premier, et itérer le processus de façon à obtenir une base orthonormé {u1 , . . . , uα , . . . , up }.
Remarque
La métrique T −1 est appelé métrique de Mahalanobis.
0 Ev
En rendant maximum le quotient vv0 Dv les combinaisons linéaires v seraient alors les vecteurs propres
de la matrice D E où la matrice D dénit la métrique de mahalanobis. La valeur propre µ corres-
−1 −1
−1 1
T 2 Eu = λT 2 u
1 −1
En posant v = T 2 u =⇒ u = T 2 v , il en résulte :
−1 −1
T 2 ET 2 v = λv
Propriété 3.4. Si on note par F (i) = hxi |ui = x0i u, la projection de xi sur u (V ar(F (i)) = n u T u),
1 0
Le dénominateur est le même pour toutes les classes. La classe d'aectation de x sera celle pour
laquelle le produit P (x|Ik )P (Ik ) est maximal. Si les probabilités à priori P (Ik ) des classes sont égales
pour toutes les valeurs de k , les classements selon P (Ik |x) et P (x|Ik ) sont identiques.
La fonction K(z) doit vérier les relations K(z) ≥ 0, et K(z)dz = 1. Elle pourra être choisie parmi
R
les densités de probabilité usuelles. On note que l'on a bien dans ces condition :
Z
fk (x)dx = 1
factoriel discriminant a, déterminé par la droite passant par les centres de gravité des deux classes g1
et g2 . Ainsi nous pouvons écrire :
E = cc0
où le vecteur c de Rp est déni par :
r
n1 n2
ck = (g1 − g2 )
n
Nous avons donc :
T −1 cc0 u = λu
ou encore :
c0 T −1 cc0 u = λc0 u
Donc l'unique valeur propre est donnée par :
λ = c0 T −1 c
L'analyse des correspondances introduite dans le chapitre précédent peut se généraliser de plusieurs
façons au cas où plus de deux ensembles sont mis en correspondance. Une des généralisations la plus
simple et la plus utilisée est l'analyse des correspondances multiples (ACM) qui permet de décrire de
vastes tableaux binaires.
L'Analyse des Correspondances Multiples (ACM) permet d'étudier une population de des individus
décrits par des variables qualitatives.
Etes-vous ?
1 − célibataire, 2 − marié(e) ou vivant maritalement,
3 − veuf(ve), 4 − divorcé(e), 5 − non réponse,
51
4.2 Données et notations
Une variable continue peut être transformée en variable nominale par le découpage en classes des
valeurs de la variable. Par exemple, à la question "âge de l'enquêté", on prévoit 8 modalités de réponse :
Si l'on désigne par s le nombre des questions posées à n individus, on dispose ainsi d'un tableau
de données R ayant n lignes et s colonnes mis sous forme de codage condensé, illustré sur la gure 4.1
par un tableau pour lequel s = 3 et n = 12
Le terme général riq désigne la modalité de la question q choisie par le sujet i. En notant Pq le
nombre des modalités de réponses à une question q , on a : riq ≤ Pq .
Donc, le terme général zij désigne la modalité j de la question q choisie par le sujet i.
Les marges
Pp en ligne du tableau disjonctif complet sont constantes et égales au nombre s de questions :
zi. = j=1 zij = s pour tout i
Pn
Les marges en colonne : z.j = i=1 zij correspondent au nombre de sujets ayant choisi la
modalité j de la question q .
Nous désignerons par D la matrice diagonale, d'ordre (J, J) ayant les mêmes éléments diagonaux
que B ; ces éléments sont les eectifs correspondant à chacune des modalités : Le tableau de Burt est
symétrique. Il est analogue à une matrice des corrélations en ce sens qu'il récapitule l'ensemble des
liaisons entre les variables prises 2 à 2. Il contient beaucoup moins d'information que l'hypertableau et
ne permet pas de reconstruire le TDC.
4.3 Objectifs
La problématique de l'ACM est apparentée à celle de l'ACP (étude d'un tableau Individus×Variables)
mais peut être considérée aussi comme une généralisation de celle de l'AFC (étude de la liaison entre
plusieurs variables qualitatives). Ces deux aspects sont toujours plus ou moins explicitement présents
dans les objectifs de l'ACM, présentés ici à partir des trois familles d'objets qui interviennent en ACM :
les individus, les variables et les modalités des variables.
Remarque
Par rapport à l'ACP, on cherche, selon ce second point de vue, une variable quantitative pour
synthétiser un ensemble de variables qualitatives (et non quantitatives) ce qui implique, d'une façon
ou d'une autre, d'aecter un coecient à chaque modalité de chaque variable ; pour un individu, la
valeur de la variable synthétique est alors la somme des coecients des modalités qu'il possède.
1. en tant que variable indicatrice dénie sur l'ensemble des individus, soit une colonne du TDC ;
2. en tant que classe d'individus dont on connaît la répartition sur l'ensemble des modalités, soit
une ligne ou une colonne du tableau de Burt
La notion de ressemblance entre modalités dière selon le point de vue adopté. Dans le premier cas,
la ressemblance entre deux modalités doit reposer sur leur association mutuelle : deux modalités se
ressemblent d'autant plus qu'elles sont présentes ou absentes simultanément chez un grand nombre
d'individus. Les autres modalités n'interviennent pas.
Dans le second cas, la ressemblance entre deux modalités est analogue à celle que l'on utilise dans
les tableaux de fréquence. Une ligne du tableau de Burt caractérise l'association de la modalité avec
les modalités de toutes les variables : deux modalités se ressemblent d'autant plus qu'elles s'associent
beaucoup ou peu aux mêmes modalités.
- même critère d'ajustement avec pondération des points par leurs prols marginaux ;
L'analyse des correspondances multiples présente cependant des propriétés particulières dues à la nature
même du tableau disjonctif complet.
Deux individus sont proches s'ils ont choisi les mêmes modalités. Ils sont éloignés s'ils n'ont pas répondu
de la même manière.
Le centre de gravité de ce nuage, noté GI , a pour coordonnée, pour la modalité j , z.j /ns, proportion,
au coecient s près, des individus ayant choisi la modalité j .
En outre, le centre de gravité du nuage des modalités, noté GJ , qui se confond avec le prol de la
marge sur I , est caractérisé par un prol constant égal à 1/n. Il en résulte que le prol de la colonne j
ressemble d'autant plus au prol moyen que l'eectif de la modalité j est grand. Réciproquement, une
modalité rare sera toujours loin du centre de gravité du nuage des modalités.
1 zij
F = Z de terme général fij =
ns ns
1 z.j
Dp = D de terme général f.j = δij
ns ns
1 δij
Dn = D de terme général fi. =
n n
Pour trouver les axes factoriels uα on diagonalise la matrice :
1
S = F 0 Dn−1 F Dp−1 = Z 0 ZD−1
s
de terme général (attention, s [sans indice] désigne le nombre de questions dans ce chapitre) :
n
1 X
sjj 0 = zij zij 0
sz.j 0
i=1
1 0
Z ZD−1 uα = λα uα
s
1 −1 0
D Z Zϕα = λα ϕα (4.1)
s
1
ZD−1 Z 0 ψ α = λα ψ α
s
Les facteurs ψ α et ϕα (de norme λα ) représentent les coordonnées des points-lignes et des points-
colonnes sur l'axe factoriel α.
Les relations de transition entre les facteurs ψ α et ϕα sont :
(
ϕα = √1 D −1 Z 0 ψ
λα α
ψα = √1 Zϕα
s λα
c'est-à-dire
p
1 X
ψα = √ ϕαj
i s λα
j∈p(i)
c'est-à-dire
n
1 X
ϕαj = √ ψα
z.j λα i
j∈I(j)
n 2
2
X zij 1 n
d (j, G) = n − = −1
z.j n z.j
i=1
La distance d'une modalité au centre de gravité est d'autant plus grande que l'eectif est plus faible.
Ainsi la part d'inertie due à une question est fonction croissante du nombre de modalités de
réponse.
La part minimale 1s correspond aux questions à 2 modalités. D'où l'intérêt d'équilibrer le système
des questions, c'est-à-dire le découpage des variables en modalités, si on veut faire jouer le même
rôle à toutes les questions.
- Inertie totale
On en déduit que l'inertie totale I vaut :
p
X X z.j
I= I(q) = d2 (j, G)
q
ns
j=1
d'où :
P
I= −1
s
En particulier, elle vaut 1 dans le cas où toutes les questions ont deux modalités de réponse (cas
où p = 2s).
L'inertie totale dépend uniquement du nombre de variables et de modalités et non des liaisons
entre les variables. C'est une quantité qui, dans le cadre de l'analyse des correspondances multiples
(comme dans celui de l'analyse en composantes principales normée), n'a pas de signication
statistique.
Compte tenu de l'équation (4.1) donnant le α ième facteur ϕα de l'analyse du tableau disjonctif
complet Z , la matrice à diagonaliser est :
1 1
S = D−1 Z 0 Z = D−1 B
s s
Pour l'analyse du tableau de B associé à Z , le tableau des fréquences relatives F s'écrit :
1 1
F = B et Dn = Dp = D
ns2 ns
On diagonalise la matrice :
1 −1
S∗ = D BD−1 B
s2
ce qui donne :
S∗ = S2
En prémultipliant les deux membres de (4.1) par 1s D−1 B , on obtient :
1 −1
D BD−1 Bϕα = λ2α ϕα
s2
Les facteurs des deux analyses sont donc colinéaires dans Rp mais les valeurs propres associées dièrent.
Celles issues de l'analyse de B , notées λB , sont le carré de celles issues de l'analyse de Z :
λB = λ2
Les facteurs ϕα issus de l'analyse de Z , représentant les coordonnées factorielles des modalités, ont
pour norme λ, alors que le facteur correspondant de l'analyse de B , noté ϕBα , aura pour norme λ2 .
D'où la relation liant les deux systèmes de coordonnées factorielles :
p
ϕBα = ϕα λα
Ce chapitre se propose d'illustrer les principaux résultats d'algèbre linéaire utiles en exploration
statistique multidimensionnelle. Ceci concerne les valeurs et vecteurs propres de matrices symétriques
en lien avec la décomposition en valeur singulière ou SVD d'une matrice rectangulaire n × p pour en
faire une approximation par une matrice de mêmes dimensions mais de rang inférieur.
La décomposition en valeur singulière ou SVD (Singular Value Decomposition) est motivée par
deux opérations souvent fait dans l'analyse des données :
Découplage : Séparation dans les composantes indépendantes pour faciliter l'analyse ;
Triage : Ordonnancements de contributions par leur importance ou capacité d'explication
A = SΛS −1
Condition nécessaire et susante : Une condition nécessaire et susante pour que A carrée
d'ordre n, soit diagonalisable est que ses n vecteurs propres soient linéairement indépendants.
Condition susante : Les vecteurs propres associés à des valeurs propres distinctes sont linéairement
indépendants. Si toutes les valeurs propres de A sont distinctes, alors A est diagonalisable.
Le vecteur vj est le vecteur propre de A0 associé à λ¯j et vj0 ui = 0 si j 6= i. Ceci signie que les vecteurs
propres distincts de A et A0 sont orthogonaux.
Nous retenons les conclusions suivantes :
1. Si A est carrée n × n avec n vecteurs propres indépendants alors A est diagonalisable et on a :
A = SΛS −1 .
2. Si A est symétrique :
- Elle est diagonalisable (théorème spectral).
- Ses vecteurs propres sont orthogonaux (ou orthonormaux).
61
5.3 Décomposition en valeurs singulières
- A = SΛS 0 .
3. Si A est symétrique et semi-dénie positive alors A = SΛS 0 où λi ≥ 0 pour tout i ∈ {1, 2, . . . , n}.
r
X
A= U Σr1/2 V 0 = σj uj vj0
j=1
avec
• Σr = diag(λ1 , . . . , λr ) où r = min(m, n).
Les σi sont les valeurs singulières de A et sont ordonnées : σ1 ≥ σ2 ≥ . . . ≥ σr ≥ 0
• U = [u1 , . . . , ur ] est la matrice des vecteurs propres de A0 A. Le vecteur uj est le vecteur propre
de A0 A associé à la valeur propre non nulle λj .
• V = [v1 , . . . , vr ] est la matrice des vecteurs propres de AA0 . Le vecteur vj est le vecteur propre
de AA0 associé à la valeur propre non nulle λj .
A = P ΣQ0
P = [u1 | . . . |ur |ur+1 | . . . |um ] = [U |Ũ ] une matrice carrée m×m unitaire et Q = [v1 | . . . |vr |vr+1 | . . . |vn ] =
[V |Ṽ ] une matrice carrée n × n unitaire ont leurs colonnes formées respectivement par les vecteurs
propres de AA0 et de A0 A. Pour obtenir P (resp. Q) on complète les vecteurs colonnes de U (resp.
V ) de la DVS1 par les vecteurs colonnes de Ũ (resp Ṽ ) qui sont les vecteurs propres de AA0 (resp.
A0 A) associés a la valeur propre multiple 0. On forme ainsi une base orthonormée de Rm (resp. Rn ) :
P 0 P = P P 0 = Im , Q0 Q = QQ0 = In . De plus
" #
1/2
Σr 0 σ1 0
Σ= , matrice m × n avec Σr1/2 = , matrice r × r
0 0 0 σr
Remarques
Dans la pratique, pour le calcul de U et de V , on ne calcule que les vecteurs propres de la matrice
qui a la plus petite dimension entre A0 A et AA0 , les vecteurs propres de l'autre se déduisent par
des "formules de transition" suivantes :
U =AV Σ−1/2
V =A0 U Σ−1/2
1 1
avec Σ−1/2 = (Σ1/2 )−1 = diag( ,..., )
σ1 σr
P = [U |Ũ ], Q = [V |Ṽ ]
- D = n−1 In , métrique sur l'espace des variables, formée par la matrice diagonale des poids égaux
pour les individus.
Toutes ces méthodes rentrent dans le cadre de la décomposition en valeurs singulières du triplet
(X, M, D).
Lemme
La matrice X 0 DXM (resp. XM X 0 D) est M -symétrique (resp. D-symétrique), ses r valeurs propres
non-nulles sont réelles positives et ses vecteurs propres forment une base M − orthonormee de ImX 0
(resp. D-orthonormee de ImX ).
Preuve :
Une matrice carrée A est M -symétrique si et seulement si M A = A0 M , ce qui est le cas pour
X 0 DXM à cause de la symétrie de M et de D. La matrice M étant symétrique dénie-positive,
soit M = M 1/2 M 1/2 sa décomposition par la DVS (M 1/2 est symétrique dénie positive). Notons
Λr = diag(λ1 , . . . , lambdar ) et V = [v1 , . . . , vr ] les matrices des valeurs propres non-nulles et des
vecteurs propres associés pour X 0 DXM de rang r
X 0 DXM V = V Λr X 0 DXM 1/2 (M 1/2 V ) = V Λr M 1/2 X 0 DXM 1/2 (M 1/2 V ) = (M 1/2 V )Λr
On pose Y = M 1/2 V ou V = M −1/2 Y . La matrice M 1/2 X 0 DXM 1/2 est symétrique semi-dénie
positive de rang r, ses r valeurs propres non-nulles sont réelles positives et ses r vecteurs propres {yj }
sont orthonormés au sens usuel (métrique identité). Il en résulte
0
Ir = Y 0 Y = V 0 M 1/2 M 1/2 V = V 0 M V.
Puisque V = X 0 DXM V Λ−1 r , ImV ⊂ ImX et comme rang(V ) = rang(X ) = r , il en résulte que les
0 0
Remarque
La construction eective des vecteurs propres {vj } de X 0 DXM passe d'abord par le calcul des
vecteurs propres {yj } de M 1/2 X 0 DXM 1/2 puis par le calcul de vj = M −1/2 yj .
6.1 Introduction
Nous présentons dans ce chapitre, une autre méthode établissant le lien entre les variables explica-
tives et les variables à expliquer.
L'objectif est d'expliquer plusieurs variables Y (n, q) à partir de variables X(n, p). C'est une géné-
ralisation de la régression linéaire multiple. Cette généralisation peut être vue à travers l'analyse en
composantes principales sur variables instrumentales (ACPVI) proposée par Rao (1964).
L'ACPVI a été présentée pour la première fois par Rao (1964), elle a été étudiée de manière plus
approfondie par Van Den Wollenberg (1977) et Sabatier (1987). Mais dans ce chapitre, nous allons
nous appesantir sur l'ACPVI de Rao (1964) et de Van Den Wollenberg (1977).
6.3 Dénition
L'ACPVI consiste à déterminer la composante t = Xa de l'ACPVI est basée sur la minimisation
du critère suivant :
65
6.4 Recherche de la solution
Concrètement, ceci revient à maximiser la distance entre la matrice de produit scalaires entre
individus dans l'espace des variables de Y et la représentation des individus sur la composante t
contrainte d'être dans l'espace engendré par les variables de X .
6.4.1 Propriété 1
Minimiser le critère (2.1), revient à maximiser le critère : a0 X 0 Y Y 0 Xa sous la contrainte a0 X 0 Xa = 1
Preuve
Posons A = Y Y 0 − λtt0 . On vérie aisément que la matrice A est symétrique. Puisque A0 =
(Y Y 0 − λtt0 )0 = Y Y 0 − λtt0 = A.
On sait que ||A||2 = tr(A0 A). Le produit matriciel A0 A conduit à :
Alors, on a :
||A||2 = tr(Y Y 0 Y Y 0 ) − λtr(Y Y 0 tt0 ) − λtr(tt0 Y Y 0 ) + λ2 tr(tt0 tt0 )
Or, on sait que tr(AB) = tr(BA) et par hypothèse t0 t = 1, alors on a :
Si nous posons φ(λ) = tr(Y Y 0 Y Y 0 ) − 2λt0 Y Y 0 t + λ2 et en dérivant la fonction φ(λ) par rapport à λ,on
obtient :
∂φ
= −2t0 Y Y 0 t + 2λ
∂λ
En égalant la dérivée à zéro, il en résulte :
λ = t0 Y Y 0 t = a0 X 0 Y Y 0 Xa
6.4.2 Propriété 2
La solution de l'ACPVI vérie l'équation suivante :
où a est vecteur propre de la matrice VX−1 VXY VY X associé à la plus grande valeur propre λ1 .
Preuve
Maximiser le critère (2.1) sous la contrainte a0 X 0 Xa = 1, revient à maximiser le Lagrangien dénit
par :
L(a, θ) = a0 X 0 Y Y 0 Xa + θ(1 − a0 X 0 Xa)
où θ, est un multiplicateur de Lagrange. En dérivant L par rapport à a et θ, il résulte les équations
normales suivantes :
∂φ
= −2X 0 Y Y 0 Xa + 2θX 0 Xa = 0 (6.3)
∂a
∂φ
= 1 − a0 X 0 Xa = 0 (6.4)
∂θ
θ = a0 X 0 Y Y 0 Xa = λ1
(X 0 X)−1 X 0 Y Y 0 Xa = λ1 a (6.5)
VX−1 VXY VY X a = λ1 a
où a est vecteur propre de la matrice VX−1 VXY VY X associé à laplus grande valeur propre λ1 .
Nous abordons dans cette partie l'analyse des redondances proposée par Van den Wollenberg (1977).
Elle est équivalente à l'analyse en composantes principales sur variables instrumentales (ACPVI) de
Rao (1964) décrite aussi dans Sabatier &Van Campo (1984) et Bry (1996).
6.5 Dénition
L'analyse des redondances consiste à rechercher des composantes centrées-réduites et non corrélées
t = Xa maximisant le critère
q
X
f (a) = cov 2 (yk , t) sous la contrainte ||t|| = 1 (6.6)
k=1
6.5.1 Propriété 3
La solution de l'analyse des redondances d'ordre 1 est donnée par l'équation aux valeurs propres
suivante :
1
(X 0 X)−1 X 0 Y Y 0 Xa = λ1 a ou VX−1 VXY VY X a = λ1 a (6.8)
n2
où λ1 est la plus grande valeur propre de la matrice n12 (X 0 X)−1 X 0 Y Y 0 X
Preuve
En développant le critère (2.6) on obtient
L = a0 VXY VY X a − λ(a0 VX a − 1)
VX−1 VXY VY X a = λa
a = a(1) est donc vecteur de VX−1 VXY VY X = n12 (X 0 X)−1 X 0 Y Y 0 X associé à la valeur propre λ. On
trouve la composante t(1) = Xa(1) d'ordre 1 correspondant au tableau X .
6.5.2 Propriété 4
La solution de l'analyse des redondances d'ordre s est donnée par l'équation aux valeurs propres
suivante :
1 0 0
(X (s) X (s) )−1 X (s) Y Y 0 X (s) a(s) = λ1 a(s) ou VX−1
(s) VX (s) Y VY X (s) a
(s)
= λ1 a(s) (6.11)
n2
0 0
où λs est la plus grande valeur propre de la matrice 1
n2
(X (s) X (s) )−1 X (s) Y Y 0 X (s) .
Preuve
En développant le critère (2.7) on obtient
0 0 0 (s) 0
f (a) = a(s) VXY VY X a(s) et la contrainte de normalisation t(s) t(s) = a(s) VX = 1 et a(s) a(t) = 0
Si a(s) ∈ ImPa⊥(t) , alors a(s) = Pa⊥(t) a(s) et en substituant a(s) dans la relation (2.15), on obtient :
0
Pa⊥(t) VXY VY X Pa⊥(t) a(s) = λs VX Pa⊥(t) a(s) (6.16)
Si X (s) est le résidu de la régression de X sur a(t) , alors X (s) = XPa⊥(t) et il en résulte :
0 0
X (s) DY Y 0 DX (s) a(s) = λs X (s) DX (s) a(s) (6.20)
−1/2 −1/2
VX (s) VX (s) Y VY X (s) VX (s) w(s) = λ1 w(s) (6.21)
Le maximum de la fonction f est atteint pour les vecteurs propres w(1) , . . . , w(r) de la matrice
−1/2 −1/2
symétrique VX (s) VX (s) Y VY X (s) VX (s) associés aux r plus grandes valeurs propres λ1 , . . . , λr et a pour
−1/2
valeur λ1 + . . . + λr . On en déduit les vecteurs a(s) = VX (s) w(s) et les composantes t(s) = Xa(s) =
−1/2
XVX (s) w(s) . Les vecteurs a(s) sont vecteurs propres de la matrice VX−1 VXY VY X associés aux mêmes
valeurs propres λs . Le nombre maximum de composantes qu'il est possible d'extraire est égal au rang
r de VXY .
6.5.3 Propriété 5
−1/2 −1/2
Les vecteurs propres de la matrice VX (s) VX (s) Y VY X (s) VX (s) forment une base orthonormée.
Preuve
0 0
Il s'agit de montrer que : w(s) w(t) = 0 et w(s) w(s) = 1
−1/2
D'après ce qui précède a(s) = VX (s) w(s) . Ce qui implique
0
0 0
−1/2 −1/2
a(s) VX (s) a(t) = VX (s) w(s) VX (s) VX (s) w(t) = w(s) w(t) = 0
7.1 Introdution
L'analyse canonique développée par Hotelling (1936)a été généralisée de diérentes manières, on
peut par exemple citer Horst (1961, 1965) et Kettenring (1971). D'autres auteurs tels que : Carroll
(1968), Saporta (1975), Lazraq et al. (1992),Nzobounsana (2001),ont également étudié ce problème.
Mais ici, nous allons présenter laméthode développée par Carroll (1968) pour comprendre son défaut
et son intérêt.
7.3 Dénition
On appelle analyse canonique généralisée (ACG) de Carroll (1968) de K -tableaux Xk , k = 1, . . . , K
de variables centrées mesurées sur les mêmes n individus, la recherche d'une variable auxiliaire z de
Rn meilleur compromis de K composantes (variables canoniques) dans Rn qui maximise le critère :
K
X
f (cXk , z) = πk corr2 (Xk ak , z) sous la contrainte de normalisation ||z|| = 1 (7.1)
k=1
K
(s) (s) 0
X
f (cXk , z (s) ) = πk corr2 (cXk , z (s) ) sous les contraintes ||z (s) || = 1 et z (s) Dz (t) = 0 pour s 6= t
k=1
(7.2)
71
7.4 Solution d'ordre 1 dans Rn
K
!
X
πk PXk z (1) = λ1 z (1) (7.3)
k=1
Preuve
On sait que
c0Xk Dzz 0 DcXk c0Xk Dzz 0 DcXk
2
corr (cXk , z) = = (7.4)
z 0 Dzc0Xk DcXk c0Xk DcXk
Si cXk ∈ ImXk , alors cXk = PXk z et cXk = PXk cXk . En substituant cXk dans la relation suivante et
en tenant compte de la D-symétrie du projecteur : PX0 D = DP
k Xk , on a :
Ceci implique
corr2 (cXk , z) = c0Xk Dz = z 0 PX0 k Dz = z 0 DPXk z (7.6)
Ainsi, en prenant la somme dans la relation (3.6) après avoir multiplié par πk , on a :
K
X K
X
πk corr2 (Xk ak , z) = πk z 0 DPXk z
k=1 k=1
K
X
= z0D πk PXk z (7.7)
k=1
K
1 ∂L X
=D πk PXk z − λ1 Dz = 0 (7.8)
2 ∂z
k=1
∂L
= 1 − z 0 Dz = 0 (7.9)
∂λ1
K
!
X
πk PXk z = λ1 z
k=1
PK
. z = z (1) est donc vecteur de k=1 πk PXk associé à la valeur propre λ1 . On trouve la composante
(1) (1)
cXk = Xk ak = PXk z (1) d'ordre 1 correspondant au tableau Xk .
Le projecteur PXk étant D-symétrique, alors K k=1 πk PXk est D -symétrique et admet n vecteurs
P
propres qui sont deux à deux orthogonaux et ses valeurs propres sont réelles.
Dans un cadre très général appelé Partial Least Squares (PLS), Herman et Svante Wold ont proposé
des méthodes d'analyse des données permettant d'étudier K blocs de variables observées sur les mêmes
individus. On suppose que chaque bloc est résumé par une variable latente et qu'il existe des relations
structurelles entre les variables latentes. L'approche PLS permet d'estimer les variables latentes et les
relations structurelles. L'approche PLS est à l'algorithme LISREL ce que l'analyse en composantes
principales est à l'analyse factorielle en facteurs communs et spéciques. L'approche PLS est une mé-
thode très synthétique puisqu'elle contient comme cas particuliers l'analyse en composantes principales,
l'analyse canonique, l'analyse des redondances, la régression PLS, l'analyse canonique généralisée aux
sens de Horst (1961) et de Carroll (1968), au niveau de la première composante.
De plus l'approche PLS permet l'analyse de tableaux avec données manquantes en utilisant l'algo-
rithme NIPALS et la régression PLS.
La méthode NIPALS (Nonlinear estimation by iterative Partial Least Squares), proposée par Wold
(1966), permet d'étudier un seul bloc de variables (K = 1). Elle conduit à l'analyse en composantes
principales lorsque les données sont complètes, mais fonctionne également lorsqu'il y a des données
manquantes.
La régression PLS permet de relier un bloc de variables à expliquer à un bloc de variables explica-
tives (K = 2). Elle a été proposée par Wold, Martens & Wold (1983). On obtient les composantes PLS
par applications successives de l'analyse factorielle inter-batteries de Tucker (1958). L'utilisation des
principes de l'algorithme NIPALS permet le traitement des données manquantes. Il peut y avoir beau-
coup plus de variables que d'observations. La régression PLS est sans doute actuellement la meilleure
réponse au problème de la multicolinéarité en régression multiple.
Le cas de K blocs a été étudié dans le cadre de la modélisation de relations structurelles sur
variables latentes (Path models with latent variables). L'estimation de ces modèles peut être abordée
de deux manières très diérentes : l'approche maximum de vraisemblance ou l'approche PLS.
L'approche maximum de vraisemblance a été développée par Jôreskog (1970) à travers le logiciel
LISREL (Jôreskog et Sôrbom (1979,1984) et Hayduk ( 1987)). Cette approche est disponible dans le
logiciel SAS (Proc CALIS) et dans le logiciel AMOS (Arbuckle, 1997) diusé par SPSS.
L'approche PLS proposée par Wold (1975, 1982, 1985) est aussi décrite dans Lohmoller (1989)
et Fomell & Cha (1994). L'approche PLS a été particulièrement développée en France par Valette-
Florence (1988a,b, 1990) pour des applications en Marketing. L ?approche PLS est disponible dans le
programme LVPLS 1.8 de Lohmoller (1987).
75
8.1 L'algorithme NIPALS
L'algorithme NIPALS permet de réaliser une analyse en composantes principales d'un tableau
individus × variables X avec données manquantes, sans avoir à supprimer les individus à données
manquantes ni à estimer les données manquantes, ne soit pas plus connu.
Nous allons décrire dans ce chapitre l'algorithme utilisé pour l'analyse en composantes principales en
suivant la présentation de Wold, Esbensen et Geladi (1987).
On dispose d'un tableau individus × variables noté X = {xji } et de rang r. Les colonnes de
X sont notées x1 , . . . , xj , . . . , xp et supposées centrées. La formule de décomposition de 'analyse en
composantes principales s'écrit
Xr
X= th a0h (8.1)
h=1
où les vecteurs th = (th1 , . . . , thn et ah = (ah1 , . . . , ahn )0 ont respectivement les composantes prin-
)0
cipales et les vecteurs directeurs des axes principaux. Les variables xj s'expriment en fonction de
composantes t1 , . . . , tr :
r
X
xj = ahj th , j = 1, . . . , p (8.2)
h=1
la i-ième ligne de X est notée x0i = (x1i , . . . , aji , . . . , xpi ). Alors les individus xi peuvent aussi s'exprimer
en fonction des vecteurs a1 , . . . , ar :
r
X
xi = thi ah , i = 1, . . . , n (8.3)
h=1
La double orthogonalité des composantes principales th et des vecteurs directeurs ah est caractéristique
de l'analyse en composantes principales. on en déduit que ahj est le coecient de régression de th dans
la régression de xj sur th et thi celui de ah dans la régression sans constante de xi sur ah . on en déduit
également que, pour h > 1, ahj est le coecient de régression de th dans la régression de xj − h−1
P
Ph−1 l=1 alj tl
sur th et thi celui de ah dans la régression sans constante de xi − l=1 tli al sur ah .
On peut aussi considérer la décomposition (4.1) comme un modèle et les paramètres ahj et thi
comme des quantités à estimer. Wold propose pour chaque indice h une recherche itérative de ces
paramètres. pour h = 1, on obtient une solution (a1 , t1 ) telle que a1j est la pente de la droite des
moindres carrés du nuage de points (t1 , xj ) et t1i est la pente de la droite des moindres carrés passant
par l'origine du nuage de points (a1 , xi ). Pour h > 1 on obtient une solution (ah , th ) telle que ahj est la
pente de la droite des moindres carrés du nuage de points (th , xj − h−1 ) et thi est la pente de la
P
l=1 alj tlP
droite des moindres carrés passant par l'origine du nuage de points (ah , xi − h−1 l=1 tli al ).
Lorsqu'il n'y a pas de donnée manquante, NIPALS conduit à l'analyse en composantes principales
usuelle. Lorsqu'il y a des données manquantes on obtient encore des valeurs utiles (estimations) des
composantes th et des vecteurs ah qui permettent de décrire la matrice des données X et d'estimer les
données manquantes.
Ainsi, l'algorithme NIPALS permet d'estimer les paramètres d'un modèle non-linéaire (en fait bili-
néaire) à l'aide d'une seule suite de régressions simples entre les données et une partie des paramètres.
D'où la signication complète du terme NIPALS (Nonlinear estimation by Iterative Partial Least
Squares) qui nous a été suggérée par Antoine de Falguerolles. Par ailleurs l'algorithme NIPALS a été
étendu à l'estimation de modèles bilinéaires généralisés par de Falguerolles et Francis (1995) et Ducros,
Mondot et de Falguerolles (1997).
77
9.2 Dénition et solutions
où tr(A) est la trace de la matrice A, c'est-à-dire la somme de ses éléments diagonaux et de la covariance
vectorielle entre deux études (Xj , Qj , D) et (Xl , Ql , D) introduite par Escouer (1973) et λs désigne
la sième valeur propre de Wj D et, par
Ce résultat est bien connu et traduit la co-inertie entre les triplets (Xj , Qj , D) et (Xl , Ml , D). Elle
mesure la concordance parfaite entre deux nuages d'individus et est l'équivalent entre deux tableaux
d'une covariance entre deux variables.
Enn, on dénit le coecient de corrélation vectorielle entre études, plus communément appelé RV
par
Covv(Xj , Xl )
RV (Xj , Xl ) = p p
V arv(Xj ) V arv(Xl )
Si RV (Xj , Xl ) = 0, alors toutes les variables de Xj ont une covariance nulle avec celles de Xl .
Si RV (Xj , Xl ) = 1 les études sont équivalentes, dans le sens où l'image euclidienne de l'une est
proportionnelle à celle de l'autre.
Ces dénitions ont une grande importance puisque ce sont elles qui permettent de trouver un objet
moyen appelé compromis Wc résumant les objets Wj , pour j = 1, . . . N .
9.2.1 Interstructure
C'est l'étude des relations entre les diérents tableaux. Cette étape consiste à chercher les ressem-
blances et les dissemblances des N -objets en diagonalisant la matrice de covariance vectorielle. A cette
étape, on cherche d'abord à déterminer les objets Wj qui sont les matrices de produits scalaires entre
les individus du tableau Xj . Ensuite, on dénit une distance c'est-à-dire une métrique permettant de
mesurer la distance entre deux de ces objets. A partir de ces distances, on construit une image eucli-
dienne des N études.
Si C est la matrice des produits scalaires entre les tableaux Wj et Wl d'élément général Cjl =
covv(Xj , Xl ) = tr(Wj DWl ), alors la diagonalisation de la matrice C∆ permet d'obtenir les vecteurs
propres {us }s=1,...,r appartenant à RN associés aux valeurs propres {θs }α=1,...,r , avec r le rang de la
matrice C .
La gure a représente l'interstructure qui n'a pas de problème de norme car les èches ont tous
approximativement la même longueur alors que la gure b , les èches n'ont pas tous la même longueur.
WXj
C'est pourquoi il sera utile de diviser les objets par leurs normes ||WXj ||HS . Ainsi, la notion de covariance
vectorielle est remplacée par la corrélation vectorielle.
Il est donc possible de diagonaliser la matrice des corrélations vectorielles RV d'élément général
Rv(Xj , Xl ) représentant le cosinus de l'angle formé par les objets d'Escouer (1976).
La diagonalisation de cette matrice conduit à l'équation aux valeurs propres suivantes : RV u = αu Où
u est un vecteur propre de la matrice RV associé à la plus grande valeur propre α.
9.2.2 Compromis
L'interstructure ne sut pas car elle ne permet d'expliquer ni les ressemblances, ni les dissemblance
entre les diérents tableaux étudiés. Il est donc nécessaire de dénir un compromis de la même nature
que les objets représentant les études et qui soit un bon résumé global de l'ensemble de tous les objets
au sens du critère. Le compromis peut être déni comme moyenne pondérée des objets Wj :
N N
X 1 X
Wc = ε πj αj Wj avec ε = √ πj ||Wj ||HS , dans le cas des objets non normés
j=1
θ1 j=1
N
X 1
Wc = ε πj αj Wj avec ε = √ , dans le cas des objets normés
j=1
θ1
On a ||Wc || = εθ1
XN N
X
||Wc ||2HS = tr(Wc DWc D) = ε2 tr πj αj Wj D π l αl Wl D
j=1 l=1
N X
X N
= πj πl αj αl tr(Wj DWl D)
j=1 l=1
N X
X N
= πj πl αj αl Cj,l car Cj,l = tr(Wj DWl D)
j=1 l=1
0
= u C∆u (9.1)
Le compromis étant une matrice dénie positive, d'après le théorème de Perron-Frobenius, le premier
vecteur u1 a toutes les composantes de même signe et pour cela elles peuvent être choisies positives.
Théorème de Perron-Frobenius
Toute matrice symétrique ayant tous ses termes positifs admet un premier vecteur propre dont
toutes les coordonnées sont de même signe.
W étant de même nature que les objets Wj , il peut être vu comme la matrice des produits scalaires
√ √ √
entre les individus du tableau Xc = [ επ1 α1 X1 | . . . | επj αj Xj . . . | επN αN XN ] ou si les objets sont
√ √ √
non normés Xc = [ επ1 α1 X1 / ||Wj ||HS | . . . | επj αj Xj / ||Wj ||HS . . . | επN αN XN / ||Wj ||HS ]
p p p
Remarque
√
W est situé sur le premier axe de l'interstructure à la distance ||Wc || = ε θ1
La gure a montre le cas où le compromis n'a aucun sens. En eet les objets sont de même norme
mais qui n'ont pas de structure commune. Dans ce cas l'analyse s'arrête.
La gure b montre également le cas où le compromis n'a pas de sens puisque les objets n'ont pas
la même norme. Dans ce cas l'analyse ne s'arrête pas mais on travaille avec les objets normés ou le
coecient de corrélation.
La gure c montre un cas particulier où un objet semble diérent des autres , dans ce cas, il
serait bon de comprendre pourquoi l'étude 1 est diérente des autres et l'éliminer de l'étude avant de
continuer l'analyse.
La gure d est le modèle du compromis réussi car tous les objets ,de même norme, sont autour du
compromis
9.2.4 Intrastructure
L'intrastructure est une étape qui consiste à représenter le nuage des individus (ou nuage des
variables) caractérisés par l'ensemble de K tableaux an d'obtenir l'image euclidienne compromis des
individus (ou des variables).
Pour obtenir l'image euclidienne compromis des individus, on fait l'analyse en composantes principales
du nuage d'individus dont les produits scalaires sont caractérisés par la matrice Wc .
L'image euclidienne compromis des individus obtenue est composée des points Ne , e = 1, . . . , n de
√ √
coordonnées ( µs vs , µt vt ) pour tous s = 1, . . . , n et t = 1, . . . , n avec vs vecteur propre de la matrice
Wc D associé à la valeur propre µs . Pour interpréter la position des individus sur un axe quelconque s,
on calcule les corrélations de la composante principale du compromis correspondant à cet axe s avec
les variables de chaque étude.
Ces corrélations entre les variables (xj )k , j = 1, . . . , pj centrée réduite du tableau Xj et la variable vα
est égale :
0
< (xj )k , vs >D = (xj )k Dvs
Ces corrélations peuvent être résumées sur un graphique qui est très utile pour expliquer les positions
compromis des individus dans leur image euclidienne.
Les trajectoires permettent de décrire les écarts des objets (objets entre eux et avec le compromis) qui
ont été mis en évidence lors de l'étude de l'interstructure au niveau individuel.
Pour situer dans l'image euclidienne du compromis les individus qui n'ont pas intervenu dans la déter-
mination de l'intrastructure ni dans la dénition du compromis, il est nécessaire de les traiter comme
individus supplémentaires puis calculer les coordonnées des points de leurs trajectoires correspondant
aux études dans lesquelles ils sont présents. Ainsi les coordonnées des individus du tableau Xj sur l'axe
α sont données par :
1
√ Wj Dvs
ρs
où vs est le vecteur propre D-normé d'ordre s de la matrice Wc D associé à la plus grande propre ρ.
Cette méthode a la même démarche que STATIS, mais ces deux méthodes ne conduisent pas au
même résultat. Lorsque les données se présentent sous la forme de plusieurs groupes d'individus mesurés
sur les même variables dans des situations diérentes,la méthode STATIS Duale, basée sur l'analyse
en composantes principales, permet de répondre aux objectifs suivants :
déceler quels sont les tableaux qui se ressemblent,
décrire les diérences entre tableaux par rapport à ce résumé : sont-elles dues aux individus ou
variables ?
83
10.3 Procédure de détermination de la solution
Covv(Xi , Xk )
Rv(Xi , Xk ) = p
V arv(Xi )V arv(Xk )
Un coecient RV proche de 1 signie qu'on a la structure des variables à l'intérieur des tableaux Xi
et Xk , et que par conséquent les positions mutuelle des variables sont les même dans les conditions i
et k .
10.3.1 Interstructure
C'est l'étape de mise en évidence des ressemblances et des dissemblances entre les M études sans
les expliquer. On compare les tableaux aux moyen des objets VXi . Par opposition de l'intrastructure
qui décrit la structure des individus à l'intérieur d'un tableau, on appelle interstructure les relations
entre les tableaux, décrites par la distances VXi . Ces distances sont déduites du produit scalaire de
Hilbert-Schmidt entre applications linéaires.
Après avoir associé à VXi Q un poids positif πi , on diagonalise la matrice Ω = [πi πk zik ]1≤i,k≤M
contenant l'information des M études. Cette diagonalisation permet d'obtenir les vecteurs {a(s) }s=1,...,r
associés aux valeurs propres {ηs }s=1,...,r vériant la relation
1 √
√ Ω = ηs a(s)
ηs
où ∆ = diag(πi /i = 1, . . . , M ).
Cette relation montre que l'analyse du nuage des opérateurs VXi Q n'est autre que l'analyse en compo-
santes principales. Cela fournit alors une image euclidienne dénie par un nuage des opérateurs VXi Q
auquel on a attribué les poids πi . En notant par Oi , i = 1, . . . , M les points de ce nuage associé à
√ √
VXi Q, les coordonnées de ces derniers sont de la forme ( ηs a(s) ; ηs a(s) ).
10.3.2 Compromis
C'est l'étape fondamentale de la méthode. A partir de l'image euclidienne des tableaux, on construit
un objet compromis Vc en prenant la moyenne des Vi pondérée par les coordonnées des points-tableaux
sur le premier axe. Vc peut être considéré comme un tableau de variance-covariance moyen entre
les variables. L'image euclidienne des individus, associée à ces variances-covariances, représente les
positions mutuelles moyennes des variables.
Le compromis Vc est une matrice de variance-covariances de taille p × p. C'est une combinaison
linéaire des M opérateurs initiaux VXi Q. La recherche de compromis Vc résulte du problème de maxi-
misation
hVc |Vc iHS = tr(Vc QVc Q)
sous la contrainte
M
X
b0 b = βi2 = 1 (10.1)
i=1
√ √
où Vc = M i=1 πi βi VXi = Xc DXc avec Xc = [ π1 β1 X1 | . . . | πM βM XM ] .
0 0 0 0
P
Par conséquent, ce problème peut encore s'écrire :
Maximiser
sous la contrainte b0 b = 1.
Le vecteur b est vecteur propre de la matrice Ω∆.
D'où il en résulte le tableau compromis Xc et la matrice de variance-covariances Vc .
Lorsque les distances entre les objets Vi dénies dans l'interstructure sont faibles, on peut armer qu'il
existe bien une structure des variables, commune aux tableaux. Cette structure est alors décrite par
les distances compromis entre variables.
10.3.3 Intrasructure
C'est l'étape de la description des individus et des variables compromis, ainsi que des individus et
des variables des tableau Xi , i = 1, . . . , M . Comme dans STATIS, l'image euclidienne des variables-
compromis est obtenue en faisant l'ACP de Xc avec la métrique diagonale par bloc des métriques
Di . Dans l'image euclidienne compromis des variables, on trace la trajectoire de chaque variable,
en utilisant la technique des éléments supplémentaires. L'interstructure a mis en évidence, sans les
expliquer, les écarts entre tableaux. Les trajectoires permettent de déceler quels sont les variables qui
sont responsables de ces écarts. En notant λsd l la l
ieme valeur propre de la matrice V Q = V et bsd
c c l
vecteur propre de norme unité associé, les coordonnées des variables-compromis sur l'axe l sont données
par : q q
sd sd
λsd
l bl = Vc bl / λsd
l
Les trajectoires des variables sont obtenue en représentant en supplémentaire les variables des objects
Vi (Vi /||Vi ||HS . Les coordonnées des p variables du tableau Xi sur l'axe l sont données par :
q q
sd sd
Vi bl / λl (resp Vi bl / λsd
sd
l ||Vi ||HS
. Cette représentation des trajectoires n'est pas forcément optimale. Les individus du tableau ne sont
pas projetés sur les individus compromis, et ne sont pas non plus donnés par une représentation
euclidienne.
L'ACCPS a été introduite et utilisée dans le cadre de l'analyse sensorielle par Quannari et al.
(2000)et Quannari et al.(2001). Elle a été ensuite introduite par Pram Nielsen et al. (2001) pour
l'étude de données instrumentales puis utilisée par Courcoux et al. (2002) pour analyser les images
multispectrales et par (Mazerolles et al., 2002 ; Mazerolles et al., 2006 ; Hana et al., 2006) pour le
couplage de plusieurs appareils de mesure. Cependant, son aspect algorithmique n'a jamais été discuté
de manière détaillée.
Récemment, une nouvelle formulation de la méthode et des nouvelles propriétés utiles pour l'interpré-
tation des résultats ont été proposées par Hana et Quannari (2008). Cette nouvelle formulation a
permis de suggérer un nouvel algorithme plus rapide que l'algorithme original.
N
(1)
X
L1 = ||Wj D − αj W ||2
j=1
0
W étant semi dénie positive , elle peut s'écrire alors sous la forme W = c(1) c(1) (une matrice com-
promis de dimension 1) où c(1) est une composante commune ayant une conguration compromis de
tableaux X1 , X2 , . . . , XN . La fonction de perte peut s'écrire encore
N
(1) 0
X
L1 = ||Wj D − αj c(1) c(1) ||2
j=1
N N N
(1) 0 (1)
X X X
2
L1 = ||Wj D|| − 2 αj tr(c(1) DWj Dc(1) ) + [αj ]2
j=1 j=1 j=1
Une fois trouvé à l'ordre 1 la composante c(1) par minimisation de L1 , on calcule les poids spéciques
(1)
αj et la fonction de perte L1 .
Les solutions d'ordre supérieur s, (s > 1) sont déterminées par récurrence en maximisant la même
fonction de perte après avoir remplacé les le tableau Xj = Xj,0 par Xj,s−1 .
(1)
La solution de l'ACCPS est obtenue à partir d'un algorithme. Pour αj xés pour tout j = 1, . . . , N ,
87
10.4 Dénition et solutions
0
la minimisation de L1 sous la contrainte c(1) Dc(1) = 1 conduit à l'équation stationnaire
N
(1)
X
αj Wj D c(s) = ρmax
1 c(1)
j=1
P
N (1)
c(1) est le vecteur propre de la matrice j=1 αj Wj D associé à la plus grande valeur propre ρmax
1 .
En xant maintenant c(1) , il en résulte les poids spéciques tels que
(1) 0 0
αj = tr(Wj Dc(1) c(1) D) = c(1) DWj Dc(1)
Ces dernières relations conduisent à l'algorithme de Qannari et al. (2000) dont le résumé est le suivant :
(1)
(1) Les poids spéciques αj , j = 1, . . . , N sont initialisés à 1.
P
N (1)
(2) Le vecteur c(1) est le vecteur propre de la matrice α
j=1 j W j D associé à la plus grande
valeur propre ρ1 .
max
(1) 0 0
(3) Les poids spéciques sont dénis par les relations : αj = tr(Wj Dc(1) c(1) D) = c(1) DWj Dc(1)
On peut alors évaluer la fonction L1 à l'ordre 1 par la relation :
N N N
(1) 0 (1)
X X X
L1 = ||Wj D − αj c(1) c(1) ||2 = ||Wj D||2 − [αj ]2
j=1 j=1 j=1
N
X
= ||Wj D||2 − ρmax
1
j=1
PN (1)
où ρmax
1 = j=1 [αj ]2 . En commençant l'algorithme à l'étape (2), on réitère la procédure jusqu'à ce
que la variation de cette fonction devienne inférieure à un seuil xé par l'utilisateur. Les choix successifs
des composantes communes et poids spéciques conduisent à une minimisation du critère L1 , ce qui
rassure la convergence et la monotonie de l'algorithme.
Le critère de l'analyse en composantes communes et poids spéciques est équivalent à la maximisation
de la fonction
XN
f (c) = (c0 DWk Dc)2
j=1
où
Xj,0 = Xj
(s−1) (s−2)
Xj = Pc⊥(s−1) Xj
et
(s−1) (s−1) (s−1)0
Wj = Xj Mj Xj
0
avec Pc⊥(s−1) = In − Pc(s−1) et Pc(s−1) = c(s−1) c(s−1) D le projecteur D-orthogonal sur l'espace en-
gendré par c(s−1) .
Nous constatons que le poids spécique associé à chaque composante commune est positif. Il reète
la part d'inertie expliquée par la composante commune associé.
L'ACCPS proposée par Hana et Qannari (2008) a un intérêt multiple.
(1) Elle apporte un éclairage en exhibant des composantes partielles dans tous les tableaux qui sont
associés de façon optimal aux composantes communes.
(2) Elle fournit des éléments d'interprétation nouveaux précisant plus la nature des composantes
communes et des poids spéciques.
(3) Elle suggère un nouvel algorithme pour déterminer des composantes communes et des poids
spéciques ainsi que des composantes partielles.
(4) Elle permet de mieux situer l'ACCPS par rapport aux autres méthodes d'analyses de tableaux
multiples.
10.5 Commentaires
Les trois méthodes sont centrées sur la notion de structures communes et les résultats communs
qu'elles donnent avec des logiques diérentes sont normalement cohérents. Elles déterminent la solution
de manière successive. L'ACOM fait le découpage de l'inertie des N nuages d'individus dans chaque
espace Rpj . L'ACOM fait N analyses (coordonnées) et en trouve une moyenne. STATIS cherche une
moyenne et en fait une analyse. La méthode STATIS est basée sur les matrices individuelles Wk des
produits scalaires entre produits. L'utilisation des matrices de produits scalaires au lieu des con-
gurations elles-mêmes présente l'avantage de déterminer explicitement les rotations qui ajustent les
congurations.
L'ACCPS détermine un tableau compromis de dimension xée. Les composantes communes cs forment
une base orthonormée de Rn et s'apparentent aux variables auxiliaires zs dans l'ACOM.
Cette façon de généraliser les méthodes du chapitre 1 permet de privilégier les individus. Nous al-
lons présenter dans le chapitre suivant une autre façon de généraliser ces méthodes.
Dans le chapitre précédent, il était question d'étudier la structure des méthodes d'analyses conjointes
de plus de deux tableaux appariés par lignes. Cette étude a révélé que les trois méthodes sont centrées
sur la notion de structures communes et les résultats communs qu'elles donnent avec des logiques dif-
férentes sont cohérents. Ces méthodes tiennent compte de la structure interne des tableaux et du lien
entre ces diérents tableaux. Elles dénissent un élément commun à tous les tableaux qui est soit une
variable ou une matrice appelée compromis.
Dans ce chapitre, nous allons étendre les méthodes du chapitre 1 en étudiant la structure interne
de chaque tableau et en caractérisant des relations existant entre les diérents tableaux. Quand l'ob-
servation est renouvelée, l'étude privilégie les relations entre les variables au lieu des individus. En
outre, lorsque les observations et les variables sont les mêmes, l'étude traite d'égal à égal les relations
entre les observations et entre les variables.
91
11.1 La méthode STATIS duale
Dans le second cas, on présentera l'analyse triadique partielle (ATP) introduite en écologie par Thiou-
louse et Chessel (1987) et qui permet de trouver une structure commune à tous les tableaux. On
présentera en plus deux récentes méthodes : l'analyse triadique partielle successive (ATPs) et l'analyse
triadique simultannée (ATPS) proposées respectivement par Mizère et al. (2013) et par Nguessolta
(2014).
Une analyse est réservée par section. Dans le premier cas, on privilégiera une présentation spécique
qui permettra de dénir un élément commun des tableaux appelé compromis. Enn, pour ce contexte
un commentaire de ces méthodes sera fait.
On montrera alors qu'aucune de ces méthodes de la famille STATIS n'a pu apporter d'indication
qui aurait échappé à l'autre. Les diérences théoriques entre les trois analyses résident au niveau de la
mise ÷uvre.
Interstructure
C'est l'étape de mise en évidence des ressemblances et des dissemblances entre les M études sans les ex-
pliquer. Après avoir associé à VXi Q un poids positif πi , on diagonalise la matrice Ω = [πi πk zik ]1≤i,k≤M
contenant l'information des M études. Cette diagonalisation permet d'obtenir les vecteurs {a(s) }s=1,...,r
associés aux valeurs propres {ηs }s=1,...,r vériant la relation
1 √
√ Ω = ηs a(s)
ηs
où ∆ = diag(πi /i = 1, . . . , M ).
Cette relation montre que l'analyse du nuage des opérateurs VXi Q n'est autre que l'analyse en compo-
santes principales. Cela fournit alors une image euclidienne dénie par un nuage des opérateurs VXi Q
auquel on a attribué les poids πi . En notant par Oi , i = 1, . . . , M les points de ce nuage associé à
√ √
VXi Q, les coordonnées de ces derniers sont de la forme ( ηs a(s) ; ηs a(s) ).
Compromis
C'est l'étape fondamentale de la méthode. Le compromis Vc est une matrice de variance-covariances de
taille p×p. C'est une combinaison linéaire des M opérateurs initiaux VXi Q. La recherche de compromis
Vc résulte du problème de maximisation
sous la contrainte
M
X
b0 b = βi2 = 1 (11.1)
i=1
√ √
où Vc = M i=1 πi βi VXi = Xc DXc avec Xc = [ π1 β1 X1 | . . . | πM βM XM ] .
0 0 0 0
P
Par conséquent, ce problème peut encore s'écrire :
Maximiser
sous la contrainte b0 b = 1.
Le vecteur b est vecteur propre de la matrice Ω.
D'où il en résulte le tableau compromis Xc et la matrice de variance-covariances Vc .
Intrasructure
C'est l'étape de la description des individus et des variables compromis, ainsi que des individus et
des variables des tableau Xi , i = 1, . . . , M .
sous la contrainte u0 Qu = 1.
Cette fonction peut aussi s'écrire sous la forme
M
X
f (u) = (u0 QVXi Qu)2
i=1
XM
= ρi (u0 QVXi Qu)
i=1
où les ρi = u0 QVXi Qu sont les poids spéciques des vecteurs communs associés aux tableaux Xi
(i = 1, . . . , M ) ou encore des inerties projetées.
11.2.3 Solutions
Comme l'ACCPS, l'ACCPS duale est une méthode qui utilise un algorithme pour déterminer
la solution. Pour ρi (i = 1, . . . , M ) xés, la maximisation de la fonction f sous la contrainte de
normalisation du vecteur u conduit à l'équation suivante :
M
!
(1)
X
ρi VXi Qu(1) = λmax
1 u(1) (11.2)
i=1
(1) 0
ρi = u(1) QVXi Qu(1) (11.3)
Il en résulte la relation
M
(1) 0
X
K1 = ||VXi − ρi u(1) u(1) ||2HS
i=1
M M
(1)
X X
= ||VXi ||2HS − (ρi )2
i=1 i=1
XM
= ||VXi ||2HS − λmax
1
i=1
(1) 2
où λmax = M i=1 (ρi ) est la valeur du critère à l'ordre 1.
P
1
Cette solution peut être approchée en utilisant un algorithme identique à celui de l'ACCPS résumé
par les points suivants :
(1)
(1) Les poids spéciques ρi (i = 1, . . . , M ) sont initialisés à 1 ;
P
M (1)
(2) Le vecteur u(1) est le vecteur propre Q-normé de la matrice i=1 ρi VXi Q, associé à la plus
grande valeur propre λmax
1 ;
(1) 0
(3) Les poids spéciques sont dénis par ρi = u(1) QVXi Qu(1) .
avec
Pu⊥(s−1) = Ip − Pu(s−1)
0
où Pu(s−1) = u(s−1) u(s−1) Q est le projecteur Q-orthogonal sur l'espace engendré par u(s−1) .
L'équation stationnaire à l'ordre s de l'ACCPS duale est donnée par
M
!
(s)
X
ρi VX (s−1) Qu(s) = λmax
s u(s) (11.4)
i
i=1
où
(s) 0
ρi = u(s) QVX (s−1) Qu(s) (11.5)
i
On en déduit
M
(s) 0
X
Ks = ||VX (s−1) − ρi u(s) u(s) ||2HS
i
i=1
M M
(s)
X X
= ||VX (s−1) ||2HS − (ρi )2
i
i=1 i=1
XM
= ||VX (s−1) ||2HS − λmax
s
i
j=1
(s−1)0 (s−1)
où VX (s−1) = Xi Di Xi .
i
La solution d'ordre s de L'ACCPS duale est obtenue en exécutant le même algorithme utilisé à l'ordre
1.
sous la contrainte U 0 QU = Ir .
Cette fonction peut encore s'écrire
M X
r
0
X
f (u(1) , . . . , u(r) ) = (u(s) QVXi Qu(s) )2
i=1 s=1
M X r
(s)
X
= (ρi )2 (11.7)
i=1 s=1
(s) 0
où ρi = u(s) QVXi Qu(s) , s = 1, . . . , r et i = 1, . . . , M , sont les inerties projetées sur les vecteurs
communs u(s) associés aux tableaux Xi .
L'algorithme de l'analyse en composantes communes et poids spéciques duale simultanée est le même
que celui de l'analyse en composantes communes et poids spéciques (voir Kissita et al., 2009). L'ana-
lyse en composantes communes et poids spéciques duale simultanée substitue les matrices de variance-
covariances à la place des matrices des produits scalaires entre individus.
(s) 0
6) On calcule les poids spéciques ρi = u(s) QVXi Qu(s) pour i = 1, . . . , M et pour s = 1, . . . , r.
La monotonie de l'algorithme est analogue à celle de l'ACCPS simultanée de Kissita et al. (2009).
Les solutions de l'ACCPS et de l'ACCPS duale simultanée ne sont pas les mêmes.
Interstructure
Dans la phase de l'interstructure, il s'agit de faire une typologie commune des tableaux, c'est-à-dire de
comparer entre eux les M tableaux considérés comme les variables d'une ACP. Pour cela, on recherche
une moyenne Xc pondérée de tableaux appelée compromis qui servira de base à la comparaison de M
tableaux entre eux et dénie par :
M
X
Xc = αi Xi
i=1
où les coecients αi , i = 1, . . . , M sont des pondérations indiquant la participation du tableau Xi à la
dénition du compromis. Ils sont calculés de façon que le tableau compromis ait une inertie maximale
sous la contrainte :
M
X
a0 a = αi2 = 1
i=1
où a = [α1 , . . . , αM ]0 .
Dans cette phase la matrice diagonalisée est la matrice des Covv, car on suppose que des tableaux
de mêmes individus et de mêmes variables présentent des inerties de même ordre de grandeur. Les
variances vectorielles sont les inerties des nuages, donc les moyennes des variances des variables, car
les variables sont normalisées.
La diagonalisation de la matrice de covariances vectorielles (Covv) fournit les axes principaux. Ce sont
les composantes du premier vecteur propre normé qui fournissent les coecients de pondération αi af-
fectés à chacun des tableaux. Ces coecients représentent les poids des tableaux Xi dans la dénition
du compromis. Dans certains cas particuliers, les coecients de pondération dans l'ATP ne sont pas
tous de même signe contrairement à la méthode STATIS qui renvoie systématiquement des coecients
de même signe (théorème de Perron-Frobenius).
Compromis
Cette phase est très déterminante, car une analyse de chaque tableau conduirait à exécuter M ACP
dont la structure simultanée serait extrêmement dicile. On pourrait, pour simplier cette tâche, ana-
lyser directement le tableau compromis Xc . On analyse ce compromis comme une analyse d'inertie
standard.
Pour cela, on maximise
0
||Xc ||2HS = tr(Xc DXc Q)
sous la contrainte
a0 a = 1
où
0
||Xc ||2HS = hXc , Xc iHS = tr(Xc DXc Q)
M M
0
X X
= tr( αi Xi D αk Xk Q)
i=1 k=1
M M
0
XX
= αi αk tr(Xi DXk Q)
i=1 k=1
XM X M
= αi αk Covv(Xi , Xk )
i=1 k=1
0
= a Sa
Intrastructure
(1)
L'intrastructure fournit des axes principaux du compromis Xc sur lesquels se projettent ses lignes
et des composantes principales sur lesquelles se projettent ses colonnes. Elle sert également à tracer
les trajectoires qui permettent de projeter chaque individu du tableau Xi comme individu supplémen-
taire sur les axes principaux du compromis, c'est-à-dire à calculer les composantes : ψ (1)
i
= Xi Qω (1) ,
(1)0 (1)
(i = 1, . . . , M ) avec ω (1) le vecteur propre Q−normé d'ordre 1 de la matrice VX (1) Q = Xc DXc Q.
c
Il en est de même pour les colonnes du tableau Xi qui sont aussi considérées comme variables supplé-
(1) 0
mentaires. Les coordonnées des variables supplémentaires sont logées dans le vecteur φi = Xi Dv (1)
avec v (1) le vecteur propre D−normé de l'opérateur WX (1) D.
c
VX Qu = λu
ou encore
M
!
X
VXi Qu = λu
i=1
0
où VX = M i=1 VXi = X DX avec VXi = Xi Di Xi avec Di la matrice des poids des individus du tableau
0
P
Xi et D = diag(Di ) est la matrice diagonale par blocs dont le bloc i est la matrice Di .
Pour rechercher la structure commune entre les M tableaux tout en expliquant au mieux les tableaux
individuellement, on fait l'analyse en composantes principales orthogonale successive (ACPOs) en
maximisant le même critère et en remplaçant à l'ordre s, avec 2 ≤ s ≤ r ≤ min(rg(Xi )), les tableaux
(s−1)
Xi , i = 1, . . . , M par :
(s−1) (s−2)
Xi = P ⊥(s−1) Xi
cX
i
sachant que
(0)
Xi = Xi
(s−1) (s−1)0
où P ⊥(s−1) = Ini − Pc(s−1) avec Pc(s−1) = 1
(s−1) 2 cXi cXi Di est le projecteur Di -orthogonal sur
cX Xi Xi ||cX ||D
i i i
(s−1)
l'espace engendré par cXi .
Ainsi, la solution à l'ordre s vérie l'équation suivante :
ou encore
M
!
X
VX (s−1) Qu(s) = λs u(s)
i
i=1
PM
où VX = i=1 VXi = X 0 DX .
(s) (s−1)
Ainsi, les M systèmes de composantes {cXi = Xi Qu(s) }s=1,...,r sont Di -orthogonaux et les axes
{u(s) }s=1,...,r forment un système de vecteurs Q-orthonormés.
kukQ = 1 (11.9)
(s−1)
A l'étape s, un s ième
! axe factoriel commun peut être obtenu en remplaçant le tableau Xi =
0
(s−1) (s−1)
cX cX Di (s−2) (0)
Ini − i i
(s−1) 2 Xi avec Xi = Xi pour i = 1, · · · , M et en procédant de la même manière
kcX kD
i i
que pour la première étape.
Cette procédure permet de construire les axes factoriels orthogonaux.
11.6.3 Solutions
Les propriétés suivantes permettent de donner les solutions de la méthode AMVs.
Propriété
L'axe u d'ordre 1 de l'analyse d'un multi-tableau vertical X vérie l'équation stationnaire
M
!
X
VX2i Qu = αu (11.10)
i=1
Preuve
La solution de ce problème revient à maximiser le lagrangien
M
!
0 0
X
L=uQ VX2i Qu + α(1 − u Qu)
i=1
Propriété
Les solutions d'ordre s, c(s) (s = 1, · · · , r), constituent une base orthonormée et s'obtiennent à
l'aide de l'équation stationnaire
M
!
1 X 1
Q2 VXi Q 2 c(s) = αs c(s)
2
(11.13)
i=1
−1 0 0 0 0
avec u(s) = Q 2 c(s) vériant c(s) c(s) = u(s) Qu(s) = 1 et c(s) c(t) = u(s) Qu(t) = 0 pour s 6= t.
(s) (s−1)
Les variables synthétiques cXi = Xi Qu(s) ne sont pas Di -orthogonales.
An de déterminer les composantes d'ordre deux qui doivent être orthogonales aux premières com-
posantes synthétiques, les tableaux Xi sont remplacés dans le critère par leurs résidus de la régression
sur les premières composantes cXi = Xi Qu :
0
!
(1) cXi cXi Di (0)
Xi = Ini − Xi
kcXi k2Di
(0)
Xi = Xi pour i = 1, · · · , M .
(s) (s−1)
Cette procédure est répétée plusieurs fois pour obtenir les composantes cXi = Xi Qu(s) pour tout
s = 1, · · · , r où r est le rang des tableaux Xi pour tout i = 1, · · · , M et
(s−1) (s−1)0
!
(s−1) cXi cXi Di (s−2)
Xi = Ini − (s−1)
Xi
kcXi k2Di
Les composantes synthétiques ainsi obtenues sont mutuellement orthogonales deux à deux.
Propriété
Les vecteurs u(s) (s = 1, · · · , r) sont Q-orthogonaux et vérient l'équation stationnaire
M
!
X
V 2 (s−1) Qu(s) = αs u(s) (11.14)
Xi
i=1
Preuve
Montrons l'orthogonalité des axes de co-inertie du système {u(s) } ,s = 1, · · · , r. En multipliant à
droite par la transposée de (3.17) par Qu(t) , pour tout t = 1, · · · , s − 1, nous obtenons
M
!
(s)0 (s)0 (s−1)0 (s−1)
X
(t)
αs u Qu =u Q VX (s−1) Xi Di Xi Qu(t)
i
i=1
car
(t)
P ⊥(t) cXi = 0
cX
i
et
s−1
!
(s−1) (t−1) (t−1)
Y
Xi = P ⊥(t) Xi = P ⊥(s−1) P ⊥(s−2) · · · P ⊥(t+1) P ⊥(t) Xi
cX cX cX cX cX
t=l i i i i i
pour tout t = 1, · · · , s − 1 et i = 1, · · · , M .
0
Comme αs 6= 0, nous avons u(s) Qu(t) = 0.
D'où l'orthogonalité des axes de co-inertie du système {u(s) }s .
Cette méthode est appelée analyse d'un multi-tableau orthogonale successive en sigle AMVOs.
Le principe de cette méthode consiste à chaque étape à ne retenir que l'axe de co-inertie u qui corres-
pond à la plus grande valeur propre et aux variables synthétiques partielles associées. Elle présente plus
d'intérêt par rapport à l'analyse d'un multi-tableau vertical en ce sens que l'AMVOs est interprétable
au niveau des individus et des variables, mais ces méthodes sont confondues à l'ordre 1.
11.7 Commentaire
Toutes les méthodes déterminent la solution de manière séquentielle et présentent des diérences
théoriques et des moyens de mise en ÷uvre diérents. Le contexte de STATIS duale est le même que
celui de l'ACCPS duale et de l'AMVs. STATIS duale est une méthode qui détermine la solution en
trois étapes (interstructure, compromis et intrastructure) ; elle construit un compromis qui est une
moyenne et l'analyse de ce compromis vise à trouver une structure moyenne des variables entre les M
structures des variables dénie respectivement par les M tableaux. Elle utilise les notions d'Escouer
et de produit scalaire d'Hilbert Schmidt. L'ACCPS duale est une méthode algorithmique dont le but
principal est de déterminer les axes communs de représentation des individus qui jouent le rôle de
compromis, lesquels sont directement liés aux poids spéciques. L'AMVs est une méthode pas à pas
dont le but est de déterminer les axes communs de représentation qui jouent le rôle de compromis,
directement liés aux composantes partielles de chaque tableau qui ne sont pas orthogonales. Ces axes
sont obtenus à partir de la diagonalisation d'une matrice. L'AMVs peut être remplacée par l'AMVOs
dont le but est de représenter simultanément les individus et les variables.
Le contexte de l'ATP est le même que celui de l'ATPs et de l'ATPS. Celui d'utiliser les cubes des
données. Toutes ces trois méthodes ont un objectif commun la recherche d'une structure commune aux
diérents tableaux. Elles se déroulent en trois étapes (interstructure, compromis et intrastructure).
Une diérence réside du point de vue du critère et de la détermination de la solution. L'ATP et l'ATPs
sont des méthodes successives et l'ATPS une méthode simultanée. L'ATPs est une méthode algorith-
mique qui détermine, à chaque pas par déations successives des tableaux initiaux, les coecients de
pondération et les axes communs de représentation des individus et des variables. Si les coecients
de pondération sont de même signe, on fait directement l'ACP du compromis. L'ATPS est une mé-
thode algorithmique dans la détermination de la solution. Les axes communs de représentation et les
coecients de pondération sont déterminés de manière globale. Si les coecients de pondération sont
de même signe, on fait directement l'ACP du compromis. Les algorithmes utilisés pour approcher la
solution sont croissants et convergents. Les trois méthodes déterminent les coecients de pondération
qui sont très souvent de même signe dans le cas où la structure commune des tableaux est la même.
L'analyse canonique (AC) a été introduite initiallement par Hotelling (1936) et popularisée en
écologie par Gittins (1985). Sous sa forme générale, l'analyse Canonique ne présente qu'un intérêt res-
treint pour les applications, car elle conduit à de grandes dicultés d'interprétation, mais son cadre
théorique est fondamental. Elle généralise plusieurs méthodes d'analyses des données : la régression
multiple, l'analyse discriminante et l'analyse factorielle des correspondances.
L'analyse canonique présente aussi des similarités à la fois avec l'analyse en composantes principales
(ACP) pour déterminer les axes et interpréter les graphiques des individus et des variables. En re-
vanche, l'AC et l'ACP étudient respectivement les liens entre les variables de deux tableaux X1 et X2 ,
et les liens entre les variables d'un tableau.
Sur le plan géométrique, l'AC revient à minimiser, dimension par dimension, l'angle entre les compo-
santes de ces deux groupes de variables (Cazes, 1980).
L'AC est la méthode centrale de la statistique multidimensionnelle descriptive.
105
12.3 Recherche de la solution dans les espaces des individus
(s) (s)
A l'ordre s, on cherche le triplet {λs , X1 Qa1 , X2 Ra2 } pour tout s ∈ {1, . . . , min(p, q)}. Avec
(s) (s)
λ2s = maxf (u(s) , v (s) ) = cor(X1 Qa1 , X2 Ra2 est appelé corrélation canonique.
VX−1
2
VX2 X1 VX−1
1
VX1 X2 v = λ2 v (12.3)
où u = Qa1 et v = Ra2 .
Démonstration. Soient cX1 = X1 Qa1 et cX2 = X2 Ra2 les deux combinaisons linéaires associées res-
pectivement aux tableaux X1 et X2 . La corrélation linéaire entre cX1 = X1 Qa1 et cX2 = X2 Ra2
est maximale si et seulement si les vecteurs canoniques a1 et a2 maximisent la fonction f sous les
contraintes de normalisation var(cX1 ) = var(cX2 ) = 1. Ceci est équivalent à maximiser le Lagrangien :
VX−1
2
VX2 X1 Qa1 = λRa2 (12.10)
En posant u = Qa1 et v = Ra2 , il s'ensuit :
VX−1
1
VX1 X2 v = λu (12.11)
VX−1
2
VX2 X1 u = λv (12.12)
En combinant (4.11) et (4.12), on en déduit les équations aux valeurs propres (4.2) et (4.3).
VX−1
1
VX1 X2 VX−1
2
VX2 X1 u = λ2 u (12.13)
VX−1
2
VX2 X1 VX−1
1
VX1 X2 v = λ2 v (12.14)
Par conséquent, les vecteurs u et v sont des vecteurs propres normés respectivement des matrices
VX−1
1
VX1 X2 VX−1
1
et VX−1
VX2 X1 2
VX2 X1 VX−1
1
VX1 X2 associés à la plus grande valeur propre λ2 .
Propriété 12.2. Les matrices VX−11 VX1 X2 VX−11 VX2 X1 et VX−12 VX2 X1 VX−11 VX1 X2 respectivement
−1 −1 −1 −1
VX12 VX1 X2 VX−1
1
VX2 X1 VX12 et VX22 VX2 X1 VX−1
1
VX1 X2 VX22 ont les mêmes valeurs propres non nulles, mais
de vecteurs propres diérents.
Démonstration. On sait que a est vecteur propre de la matrice VX−1
1
VX1 X2 VX−1
1
VX2 X1 associé à la valeur
propre λ2 , c'est-à-dire :
VX−1
1
VX1 X2 VX−1
2
VX2 X1 u = λ2 u
−1 −1
En écrivant la matrice VX−1
1
= VX12 VX12 dans cette dernière relation et en pré-multipliant cette relation
1
par VX21 , on a :
−1 1
VX12 VX1 X2 VX−1
2
VX2 X1 u = λ2 VX21 u (12.15)
1
−1
En posant b1 = VX21 u, ceci implique u = VX12 b1 , et on obtient :
−1 −1
VX12 VX1 X2 VX−1
2
VX2 X1 VX12 b1 = λ2 b1 (12.16)
−1 −1
Donc b1 est un vecteur propre de la matrice symétrique VX12 VX1 X2 VX−1
2
VX2 X1 VX12 associé à la même
valeur propre λ2 .
Par conséquent, les vecteurs propres de cette matrice forment une base orthonormée.
Après avoir donné la solution d'ordre 1, il est donc question de donner les solutions d'ordre supérieur
de l'analyse canonique.
Propriété 12.3. On suppose que les équations aux valeurs propres (4.2) et (4.3) sont vériées, les
vecteurs b1 et b2 l'ordre s vérient les relations suivantes :
−1 − 1 (s) (s)
VX12 VX1 X2 VX−1
2
VX2 X1 VX12 b1 = λ2s b1 (12.17)
−1 − 1 (s) (s)
VX22 VX2 X1 VX−1
1
VX1 X2 VX22 b2 = λ2s b2 (12.18)
1
(s)
Les vecteurs b1 = VX21 u(s) sont orthogonaux comme vecteurs propres d'une matrice symétrique
rappelons-le associés aux valeurs propres non nulles.
D'où, on a :
(s)0 (s)0 0 0 (s)0 (s)
a1 QVX1 Qa1 = u(s) VX1 u(s) = b1 b1 = 1
et pour tout s 6= t
(s)0 (t) 0 0 (s)0 (t)
a1 QVX1 Qa1 = u(s) VX1 u(t) = b1 b1 = 0
(s)
Ce qui veut dire les vecteurs propres b1 , s ∈ 1, . . . , min(p, q) forment une base orthonormée par
rapport à la métrique usuelle.
Propriété 12.4. L'analyse canonique entre deux tableaux de variables X1 et X2 à l'ordre s vérie les
équations aux valeurs propres suivantes :
(s) (s)
PX1 PX2 cX1 = λ2 cX1 (12.19)
(s) (s)
PX2 PX1 cX2 = λ2 cX2 (12.20)
Démonstration. Comme VX1 X2 = X10 DX2 et VXi = Xi0 DXi (i = 1, 2), la relation (4.2) à l'ordre s
devient :
VX−1
1
X10 DX2 VX−1
2
X20 DX1 u(s) = λ2s u(s)
En pré-multipliant cette relation par X1 , il vient la relation suivante :
X1 VX−1
1
X10 D X2 VX−1
2
X10 D X1 u(s) = λ2s X1 u(s)
| {z }| {z }
PX1 PX2
(s) (s)
Puisque cX1 = X1 Qa1 = X1 u(s) et PXi = Xi (Xi0 DXi )−1 Xi0 D = Xi VX−1 i
Xi0 D, (i = 1, 2), on a bien la
relation (4.19). Une preuve analogue permet d'établir la relation (4.20).
12.6 Conclusion
Rappelons que les composantes canoniques de chaque groupe de variables sont des combinaisons
linéaires des variables initiales de chaque groupe de variables. Ces composantes canoniques sont forte-
ment corrélées et expliquent moins leur groupe d'origine, l'inertie de chacun des groupes n'est pas prise
en compte par le critère (Gleason, 1976 ; Tenenhaus, 1998). En outre, les corrélations canoniques entre
ces deux variables canoniques peuvent être élevées, du fait des variables x et y très corrélées (Obadia,
1978). En dépit de son cadre théorique fondamental, l'AC est très sensible à la quasi-colinéarité des
variables. Celle-ci entraîne une instabilité des valeurs des paramètres du modèle (forte variance) et
une perte de leur interprétabilité. Sur le plan analytique, cette quasi-colinéarité provoque un mauvais
0 0
conditionnement des matrices VX = X DX et VY = Y DY : un des déterminants est presque nul, et
l'inversion des matrices provoque des dicultés de calcul numérique rendant le résultat incertain.
L'analyse précédemment étudiée utilise les métriques de Mahalanobis dans les espaces des indivi-
dus ; ces métriques présentent une instabilité au cas où les variables dans chaque groupe sont fortement
corrélées. En outre, l'analyse canonique ne prend pas en compte la structure interne des données. En
haute dimension, c'est-à-dire si p et q sont supérieurs à n, l'estimation des poids des combinaisons
linéaires de chaque tableau devient illusoire puisque les tableaux X et Y ne sont plus de plein rang.
C'est ainsi que dans ce chapitre, nous allons remplacer les métriques de Mahalanobis par les métriques
quelconques. Ce qui conduit à l'analyse de co-inertie 1 proposée par Chessel et Mercier (1993).
Cette méthode recouvre l'analyse inter-batterie proposée par Tucker (1958), l'analyse canonique pro-
posée par Hotelling (1936), l'analyse canonique sur variables qualitatives proposée par Cazes (1980) et
l'analyse des correspondances de tableaux de prols écologiques (Mercier et al., 1992).
111
13.2 Recherche de la solution dans les espaces d'individus
On arrête l'algorithme de détermination de la solution quand on trouve r solutions avec r = min(rg(X1 ), rg(X2 ))
0
le rang de la matrice VX1 X2 = X1 DX2 de co-inertie qui est aussi la matrice des inter-covariances entre
X1 et X2 .
Propriété 13.1. La solution de l'analyse de co-inertie 1 dans les espaces des individus Rp et Rq d'ordre
s est donnée par les équations aux valeurs propres suivantes :
Démonstration. Soient cX1 = X1 Qa1 et cX2 = X2 Ra2 les deux combinaisons linéaires associées res-
pectivement aux tableaux X1 et X2 . La covariance entre cX1 = X1 Qa1 et cX2 = X2 Ra2 est maximale
sous les contraintes de normalisation sur les vecteurs a1 et a2 si et seulement si le Lagrangien qui est
déni ci-dessous est aussi maximal ; ce qui est équivalent à maximiser :
En dérivant respectivement L par rapport à a1 , a2 , α1 et α2 , et, en égalant toutes ces relations à zéro,
il en découle les équations normales suivantes :
∂L
= QVX1 X2 Ra2 − α1 Qa1 = 0 (13.5)
∂a1
∂L
= RVX2 X1 Qa1 − α2 Ra2 = 0 (13.6)
∂a2
∂L
= 1 − a01 Qa1 = 0 (13.7)
∂α1
∂L
= 1 − a02 Ra2 = 0 (13.8)
∂α2
En pré-multipliant (5.5) par a01 et (5.6) par a02 , et, compte tenu de ce que les vecteurs sont respective-
ment Q−normé et R−normé. En outre, en usant du fait que a01 QVX1 X2 Ra2 est un scalaire, il en résulte
l'égalité suivante :
a01 QVX1 X2 Ra2 = α1 = α2 = λ = cov(X1 Qa1 , X2 Ra2 ) (13.9)
En tenant compte de la relation (5.9), les relations (5.5) et (5.6) deviennent :
a1 et a2 sont respectivement vecteurs propres des matrices VXY RVY X Q et VY X QVXY R associés à
la plus grande valeur propre λ2 .
On peut donc conclure que les vecteurs a1 et a2 sont vecteurs propres normés des matrices VX1 X2 RVX1 X2 Q
et VX2 X1 QVX1 X2 R respectivement associés à la même valeur propre λ2 . C'est la plus grande valeur
propre de ces deux matrices.
Les relations (5.10) et (5.11) qui permettent de passer d'un espace vectoriel des individus vers un autre
espace sont appelées relations de transition.
(s) (s)
On note donc par a1 et a2 les solutions d'ordre s correspondant à la plus grande valeur propre
(s) (s)
λs = cov(X1 Qa1 , X2 Qa2 ).
(s)
Par conséquent, les composantes synthétiques d'ordre s qui correspondent respectivement aux cX1 =
(s) (s) (s)
X1 Qa1 et cX2 = X2 Ra2 .
suivantes :
(s) (s)
VX1 X2 RVX2 X1 Qa1 = λ2s a1 (13.14)
(s) (s)
VX2 X1 QVX1 X2 Ra2 = λ2s a2 (13.15)
Vérions maintenant l'orthogonalité des vecteurs de co-inertie d'ordre diérent. Pour cela il faut
utiliser le fait que les vecteurs propres d'une matrice symétrique sont orthogonaux.
Propriété 13.3. On suppose que les équations aux valeurs propres (3.3) et (3.4) sont vériées. Alors
on a :
1 1 (s) (s)
Q 2 VX1 X2 RVX2 X1 Q 2 b1 = λ2s b1 (13.16)
1 1 (s) (s)
R VX2 X1 QVX1 X2 R b2 = λ2s b2
2 2 (13.17)
1
Démonstration. Si on pose dans (5.14) a(s)
1 =Q
− 2 (s)
b1 , cette même relation devient :
1 (s) 1 (s)
VX1 X2 RVX2 X1 Q 2 b1 = λ2s Q− 2 b1
1
En pré-multipliant cette dernière équation par Q 2 , on trouve la relation (5.16) recherchée.
1 1 1 1
Par le même raisonnement, on montre la relation (5.17). Les matrices Q 2 VX1 X2 RVX2 X1 Q 2 et R 2 VX2 X1 QVX1 X2 R 2
sont maintenant symétriques, les vecteurs de ces deux matrices constituent désormais des bases ortho-
normées.
(s) 1 (s)
Les vecteurs b1 = Q 2 a1 sont orthogonaux comme vecteurs propres d'une matrice symétrique
rappelons-le associés aux valeurs propres non nulles λ2s .
D'où, pour tout s 6= t
(s)0 (t) (s)0 (s)
a1 Qa1 = b1 b1 = 0
(s)
Les vecteurs propres a1 de la matrice VX1 X2 RVX2 X1 Q associés à la valeur propre λ2s sont également
(s)
M -orthogonaux. On montrerait de même l'orthogonalité des a2 .
Propriété 13.4. L'analyse de co-inertie 1, à l'ordre s, dans l'espace des variables Rn vérie les équa-
tions aux valeurs propres suivantes :
(s) (s)
WX1 DWX2 DcX1 = αs2 cX1 (13.18)
(s) (s)
WX2 DWX1 DcX2 = αs2 cX2 (13.19)
Démonstration. Comme VX1 X2 = X10 DX2 et VX2 X1 = VX1 X2 ', l'équation (5.14) devient :
(s) (s)
X10 DX2 RX20 DX1 Qa1 = λ2s a1
En posant dans cette relation WX1 = X1 QX10 et WX2 = X2 RX20 les matrices des produits scalaires des
tableaux X1 et X2 respectivement, on en déduit la relation (5.18) suivante :
(s) (s)
WX1 DWX2 DcX1 = αs2 cX1
(s) (s)
où cX1 = X1 Qa1 est la composante synthétique qui contient les coordonnées des individus du tableau
X1 à l'ordre s.
(s) (s) (s) (s)
On montrerait de la même façon la relation (5.19). Les vecteurs cX1 = X1 Qa1 et cX2 = X2 Ra2 sont
vecteurs propres des matrices WX1 DWX2 D et WX2 DWX1 D associés à la même valeur propre λ2s .
Remarques
1) Les composantes
(s) (s)
cX1 = X1 Qa1
(s) (s)
(s = 1, . . . , r) sont corrélées. De même pour les composantes cX2 = X2 Ra2 .
2) L'analyse de co-inertie de deux études statistiques (X1 , Q, D) et (X2 , R, D) revient à faire l'ACP
non centrée de l'étude statistique (X20 DX1 , Q, R).
L'analyse de co-inertie 2 proposée par Lafosse et Hana (1997) est une autre version de l'analyse
de co-inertie 1.
115
14.2 Recherche de la solution dans les espaces individus
0 0
où pi=1 xi1 xi1 = X1 X10 , qj=1 xj2 xj2 = X2 X20 , VX1 X2 = X10 DX2 et VX2 X1 = X20 DX1 .
P P
La fonction g soumise aux contraintes est maximale si et seulement si le Lagrangien qui est déni
ci-dessous est maximal :
" p # q
où α1 et α2 sont deux réels qui sont appelés multiplicateurs de Lagrange. Puisque VX1 X2 = X10 DX2 et
VX2 X1 = X20 DX1 rappelons-le. Ce Lagrangien peut encore s'écrire :
0 0
L(a1 , a2 , α1 , α2 ) = a1 QVX1 X2 VX2 X1 Qa1 a2 RVX2 X1 VX1 X2 Ra2 + α1 (1 − a01 Qa1 ) + α2 (1 − a02 Ra2 )
a1 et a2 sont respectivement vecteurs propres des matrices VX1 X2 VX2 X1 Q et VX2 X1 VX1 X2 R associés
aux plus grandes valeurs propres respectives ra1 et ra2 .
(s) (s)
On note donc par a1 et a2 les solutions d'ordre s correspondant aux plus grandes valeurs propres
(s)0 (s)0
(s) (s)
ra(s) et ra(s) vériant la relation αs = a1 QVX1 X2 VX2 X1 Qa1 a2 RVX2 X1 VX1 X2 Ra2 = ra(s) ra(s) .
1 2 1 2
Par conséquent, les composantes synthétiques d'ordre s qui correspondent respectivement aux vecteurs
(s) (s) (s) (s) (s) (s)
a1 et a2 s'écrivent cX1 = X1 Qa1 et cX2 = X2 Ra2 .
suivantes :
(s) (s)
VX1 X2 VX2 X1 Qa1 = ra(s) a1 (14.14)
1
(s) (s)
VX2 X1 VX1 X2 Ra2 = ra(s) a2 (14.15)
2
Les matrices VX1 X2 VX2 X1 Q et VX2 X1 VX1 X2 R ne sont pas symétriques. La propriété ci-dessous per-
met de les rendre symétrique.
1 1
R 2 VY X VXY R 2 v (s) = ra(s) v (s) (14.17)
2
1
Démonstration. Si on pose dans (6.14) a(s)
1 =Q u , cette même relation devient :
− 2 (s)
1 1
VX1 X2 RVX2 X1 Q 2 u(s) = λ2s Q− 2 u(s)
1
En pré-multipliant cette dernière équation par Q 2 , on trouve la relation (6.16) recherchée.
Par le même raisonnement, on montre la relation (6.17).
1 1 1 1
Les matrices Q 2 VX1 X2 RVX2 X1 Q 2 et R 2 VX2 X1 QVX1 X2 R 2 sont maintenant symétriques, les vecteurs
de ces deux matrices constituent désormais des bases orthonormées.
(s) (s) 0 (s)0 (s)
Ainsi, les axes {a1 }s (resp.{a2 }s ) sont orthonormés dans Rp (resp.Rq ) puisque u(s) u(s) = a1 Qa1 =
0 (s) 0 (s)
1 et v (s) v (s) = a2 Ra2 = 1. En plus, deux axes d'ordres diérents forment un système orthonormé
(u(s) , u(t) ) de Rp (resp. (v (s) , v (t) ) de Rq dans lequel les individus projetés de X1 (resp.X2 ) ont pour
(s) (t) (s) (t)
coordonnées les composantes cX1 = X1 u(s) et cX1 = X1 u(t) (resp.cX2 = X2 v (s) et cX2 = X2 v (t) )
0 (s)0 (t) 0 (s)0 (t)
puisque u(s) u(t) = a1 Qa1 = 0 et v (s) v (t) = a2 Ra2 = 0 pour s 6= t.
14.3 Commentaires
Cette présentation des méthodes d'analyses conjointe de deux tableaux nous a permis de voir à quel
point les approches possibles étaient variées du point de vue critère à analyser et détermination de la
solution. Nous avons pu mettre en valeur des points de ressemblance et de dissemblance des tableaux.
Le critère de l'analyse canonique est un critère de corrélation qui nous permet que d'étudier le lien
entre deux tableaux. Par contre dans les analyses de co-inertie, nous avons maximiser un critère de
covariance qui est un compromis entre les deux analyses simples permettant d'étudier les structures
internes des tableaux et l'analyse canonique des deux tableaux, qui d'un certain point de vue sont
exécutées simultanément avec deux axes.
En général, les analyses de co-inertie l'emportent largement sur l'analyse canonique en terme de stabilité
numérique. Elles évitent de fabriquer de la corrélation sans signication.
Ferreol G. et SChlacther D., Dictionnaire des techniques quantitatives appliquées aux sciences écono-
miques et sociales, Armand collin, 1995.
Malouata, R. O. Proposition d'analyse de co-inertie d'une série de couples de tableaux. Eléments théo-
riques et appliqués. Thèse, Université Marien NGouabi, 2015.
Veysseyre R., Aide mémoire statistique et probabilités pour l'ingénieur, 2è édition, Dunod, 2006.
119