Académique Documents
Professionnel Documents
Culture Documents
teurs gnotype et rgime), nous raliserons ces graphiques et nous verrons 2.3 Principe gnral de la mthode
quel est leur intrt.
Chaque variable de chacun des deux groupes (les 10 gnes et les 11 acides
2.2 Notations gras) sont mesures sur les n individus (n = 40). On peut donc associer
chacune un ensemble de 40 valeurs, autrement dit un vecteur de R40 (espace
Dans toute la suite de ce chapitre, on notera n le nombre dindividus consi- vectoriel que lon a pralablement muni dune base adquate et dune mtrique
drs (autrement dit, la taille de lchantillon observ, ici 40), p le nombre de approprie). Cest dans cet espace (R40 ) que lon peut dfinir la mthode :
variables (quantitatives) du premier groupe (les gnes) et q le nombre de va- elle consiste rechercher le couple de vecteurs, lun li aux gnes, lautres
riables (galement quantitatives) du second groupe (les acides gras). On dsi- aux acides, les plus corrls possible. Ensuite, on recommence en cherchant
gnera par X la matrice, de dimension np, contenant les observations relatives un second couple de vecteurs non corrls aux vecteurs du premier et le plus
au premier groupe de variables et par Y la matrice, de dimension n q, conte- corrls entre eux, et ainsi de suite. La dmarche est donc similaire celle
nant celles relatives au second groupe. La j-ime colonne de X (j = 1, . . . , p) utilise en A.C.P. ou en analyse factorielle discriminante. La reprsentation
contient donc les observations xji de la j-ime variable du premier groupe (no- graphique des variables se fait soit par rapport aux vecteurs lis aux gnes,
te X j , il sagit de lexpression du j-ime gne retenu) sur les n individus soit par rapport ceux lis aux acides (en gnral, les deux sont quivalentes,
considrs (i = 1, . . . , n). De mme, la k-ime colonne de Y (k = 1, . . . , q) au moins pour ce qui est de leur interprtation). Ces vecteurs, obtenus dans
contient les observations yik de la k-ime variable du second groupe (note Y k , chaque espace associ chacun des deux groupes de variables, sont analogues
il sagit du pourcentage relatif au k-ime acide gras retenu). aux facteurs de lA.C.P. et sont ici appels variables canoniques. Comme en
En A.C., il est ncessaire davoir p n, q n, X de rang p et Y de rang A.C.P., on peut tracer le cercle des corrlations sur le graphique des variables,
q. Par consquent, dans lexemple considr, il a t ncessaire de faire une ce qui en facilite linterprtation (dont le principe est le mme que pour le
slection des gnes et de ne retenir que les plus importants (ceux dont le rle graphique des variables en A.C.P.). Des considrations techniques permettent
prpondrant a pralablement t mis en vidence au moyen des techniques de faire galement un graphique pour les individus.
exploratoires). Bien que ce ne soit pas impos par la thorie, nous avons gale- Appelons d le nombre de couples de variables canoniques jugs intressants,
ment fait, pour tre cohrents, une slection des acides gras. Finalement, nous autrement dit la dimension retenue pour les reprsentations graphiques. On a
avons slectionn 10 gnes et 11 acides gras hpatiques. ncessairement 1 d p, et on choisit en gnral d entre 2 et 4. Nous note-
Les gnes sont les suivants : rons (V s , W s ) (s = 1, . . . , d) les couples de variables canoniques retenus ; on
PMDCI THIOL CYP3A11 CYP4A10 CYP4A14 Lpin Lpin1 GSTmu GSTpi2 posera
S14.s = Cor(V s , W s ) et on appellera corrlations canoniques les coeffi-
cients s qui sont, par construction, dcroissants.
Les acides gras sont les suivants :
C16_0 C18_0 C18_1n_7 C18_1n_9 C18_2n_6 C18_3n_3
3 Approche mathmatique
C20_4n_6 C20_5n_3 C22_5n_3 C22_5n_6 C22_6n_3.
Remarque. On notera que la notation habituelle des acides gras est un peu Dans ce paragraphe, nous reprenons, plus en dtail et avec plus de rigueur
diffrente de celle ci-dessus ; ainsi C18_1n_7 correspond C18:1n-7 ; la mathmatique, les lments prsents dans le paragraphe prcdent. Le lecteur
notation adopte est ncessaire pour la lecture par le logiciel SAS. biologiste peu familiaris avec ces notions de mathmatiques pourra donc le
parcourir trs rapidement et se contenter daller y chercher quelques rsultats,
Enfin, sans perte de gnralit, on suppose galement p q (on dsigne lorsque ncessaire.
donc par premier groupe celui qui comporte le moins de variables). Finale-
ment, nous avons ici : n = 40 ; p = 10 ; q = 11.
3 Analyse canonique des corrlations (ACC)
3.1 Reprsentations vectorielles des donnes Ensuite, on cherche le couple norm (V 2 , W 2 ), V 2 combinaison linaire
des X j non corrle V 1 et W 2 combinaison linaire des Y k non corrle
Comme en A.C.P., on peut considrer plusieurs espaces vectoriels rels as- W 1 , telles que V 2 et W 2 soient le plus corrles possible. Et ainsi de suite...
socis aux observations.
Remarque. Dans la mesure o lA.C. consiste maximiser des corrla-
Tout dabord, lespace des variables ; cest F = Rn , muni de la base cano- tions, quantits invariantes par translation et par homothtie de rapport positif
nique et dune certaine mtrique, en gnral lidentit. chaque variable X j sur les variables, on peut centrer et rduire les variables initiales X j et Y k
est associ un vecteur unique xj de F dont les coordonnes sur la base cano- sans modifier les rsultats de lanalyse. Pour des raisons de commodit, on le
nique sont les xji (i = 1, . . . , n). De mme, chaque variable Y k est associ fera systmatiquement. Par consquent, les matrices X et Y seront dsormais
un vecteur unique y k de F , de coordonnes les yik . On peut ainsi dfinir dans F supposes centres et rduites (en colonnes).
deux sous-espaces vectoriels : FX , engendr par les vecteurs xj (j = 1, . . . , p),
en gnral de dimension p, et FY , engendr par les vecteurs y k (k = 1, . . . , q), LA.C. produit ainsi une suite de p couples de variables (V s , W s ), s =
en gnral de dimension q. 1, . . . , p. Les variables V s constituent une base orthonorme de FX (les V s ,
combinaisons linaires de variables centres, sont centres ; comme elles sont
Remarque. Il est courant de munir lespace vectoriel F de la mtrique non corrles, elles sont donc orthogonales pour la mtrique identit). Les
dite des poids, dfinie, relativement la base canonique, par la matrice diag variables W s constituent, de mme, un systme orthonorm de F (ils nen
Y
(p1 , . . . , pn ), o les pi (i = 1, . . . , n) sont des poids (positifs et de somme constituent une base que si q = p). Les couples (V s , W s ), et plus particulire-
gale 1) associs aux individus observs. Lorsque tous ces poids sont gaux, ment les premiers dentre eux, rendent compte des liaisons linaires entre les
ils valent ncessairement n1 et la matrice dfinissant la mtrique des poids vaut deux groupes de variables initiales. Les variables V s et W s sont appeles les
1
n In , o In est la matrice identit dordre n. Dans ce cas, il est quivalent variables canoniques. Leurs corrlations successives (dcroissantes) sont ap-
dutiliser la mtrique identit, ce que nous ferons par la suite, dans la mesure peles les coefficients de corrlation canonique (ou corrlations canoniques)
o les individus seront systmatiquement quipondrs. et notes s (1 1 2 p 0).
On peut ensuite considrer deux espaces vectoriels pour les individus, Remarque. Toute variable canonique V s0 est, par construction, non corrle
EX = Rp et EY = Rq , eux aussi munis de leur base canonique et dune (donc orthogonale) avec les autres variables canoniques V s , s 6= s . On peut
0
certaine mtrique. Dans EX , chaque individu i est reprsent par le vecteur galement montrer que V s0 est non corrle avec W s , si s 6= s (la mme
j 0
xi , de coordonnes xi (j = 1, . . . , p) sur la base canonique. De mme, dans proprit est bien sr vraie pour toute variable W s0 avec les variables V s ,
EY , lindividu i est reprsent par le vecteur yi , de coordonnes les yik . s 6= s ).
0
En fait, cest surtout lespace F que nous considrerons par la suite, la dfi- Remarque. Si ncessaire, on peut complter le systme des variables W s
nition de lA.C. y tant plus naturelle. (s = 1, . . . , p) pour obtenir une base orthonorme de FY dans laquelle les
3.2 Retour sur le principe de la mthode dernires variables W s (s = p + 1, . . . , q) sont associes des coefficients de
corrlation canonique nuls (s = 0, pour s = p + 1, . . . , q).
Le principe gnral de lA.C. est dcrit ci-dessous, dans lespace des va-
riables F . 3.3 Proprit
Dans un premier temps, on cherche un couple de variables (V 1 , W 1 ), V 1 La proprit donne ici permet, dans la pratique, de dterminer les variables
tant une combinaison linaire des variables X j (donc un lment de FX ), canoniques V s et W s en utilisant un algorithme standard de recherche des
norme, et W 1 une combinaison linaire des variables Y k (donc un lment vecteurs propres dune matrice.
de FY ), norme, telles que V 1 et W 1 soient le plus corrles possible.
4 Analyse canonique des corrlations (ACC)
Dans lespace vectoriel F muni de la mtrique identit, notons PX et PY Dans le mme espace, on peut galement reprsenter les variables de lautre
les matrices des projecteurs orthogonaux sur les sous-espaces FX et FY d- groupe, les Y k , en projetant tout dabord les vecteurs y k dans FX , au moyen
finis plus haut. Les formules usuelles de dfinition des projecteurs permettent de PX , puis en prenant le produit scalaire de ces projections avec les vecteurs
dcrire (X0 dsignant la matrice transpose de X) : v s . On doit donc calculer pour cela les produits scalaires
PX = X(X0 X)1 X0 ; PY = Y(Y0 Y)1 Y0 . < PX (y k ), v s >=< y k , PX (v s ) >=< y k , v s >,
On peut alors montrer la proprit ci-dessous. encore gaux aux corrlations entre les variables initiales Y k et les variables
canoniques V s .
P ROPOSITION 1. Les vecteurs V s sont les vecteurs propres norms de la Dans la mesure o le graphique ainsi obtenu est bon (sur ce point, voir
matrice PX PY respectivement associs aux valeurs propres s ranges par plus loin), on peut lutiliser pour interprter les relations (proximits, opposi-
ordre dcroissant (on peut vrifier que ces valeurs propres sont comprises entre tions, loignements) entre les deux ensembles de variables. Par construction,
1 et 0). De mme, les vecteurs W s sont les vecteurs propres norms de la ma- ce graphique reprsente les corrlations entre les variables canoniques V s et
trice PY PX respectivement associs aux mmes valeurs propres s . De plus, les variables initiales X j et Y k , corrlations la base de son interprtation. On
les coefficients de corrlation canonique
s sont les racines carres positives peut aussi conforter cette interprtation en utilisant les coefficients de corr-
de ces valeurs propres : s = s , s = 1, . . . , p (le logiciel SAS fournit les lation linaire entre variables X j , entre variables Y k , et entre variables X j et
corrlations canoniques s ainsi que leurs carrs s ). Y k . Tous ces coefficients sont en gnral fournis par les logiciels.
3.4 Retour sur les reprsentations graphiques Reprsentation des variables dans le sous-espace FY
Comme en A.C.P., les reprsentations graphiques des rsultats dune A.C. se De faon symtrique, on restreint le systme (w1 , . . . , wp ) de FY aux pre-
1 d
font en dimension rduite (souvent 2 ou 3). Nous noterons d cette dimension, mires variables (w , . . .j , w ), par rapportk
auxquelles on reprsente aussi bien
avec : 1 d p. Plusieurs reprsentations sont envisageables, la fois pour les variables initiales X que les Y , selon le mme principe que celui dcrit
les variables et pour les individus. ci-dessus (les coordonnes sont les corrlations).
L encore, dans la mesure o ce graphique est bon, il permet dinterprter
Reprsentation des variables dans le sous-espace FX les relations entre les deux ensembles de variables.
Dsignons par v s et ws les vecteurs de FX et FY respectivement associs Les deux graphiques (dans FX et dans FY ) ayant la mme qualit et condui-
aux variables canoniques V s et W s . sant aux mmes interprtations, un seul suffit pour interprter les rsultats
Dans FX , on considre la base orthonorme (v 1 , . . . , v p ) que lon restreint dune analyse.
(v 1 , . . . , v d ) pour les reprsentations graphiques. Reprsentation des individus
On peut tout dabord reprsenter chacune des variables initiales X j au
moyen de ses coordonnes sur les v s . Ces coordonnes sobtiennent en cal- Dans chacun des espaces relatifs aux individus (EX et EY ), il est encore
culant les produits scalaires < xj , v s >, j = 1, . . . , p, s = 1, . . . , d. Les possible de faire une reprsentation graphique de ces individus en dimension
variables X j tant centres et rduites, les vecteurs xj sont centrs et norms d, ces deux reprsentations graphiques tant comparables (dautant plus com-
(et il en va de mme pour les vecteurs v s ), de sorte que ces produits scalaires parables que les corrlations canoniques sont leves).
sont gaux aux corrlations entre variables initiales X j et variables canonique En fait, on peut vrifier que les coordonnes des individus sur les axes ca-
V s (au coefficient n prs, puisquon a considr la mtrique identit). noniques pour ces deux reprsentations sont respectivement donnes par les
5 Analyse canonique des corrlations (ACC)
p
PX Y(Y0 Y)1 Y0 = PX PY , X s
T 2 = trace HE1 = .
s=1
1 s
cest--dire les s (s = 1, . . . , p), carrs des corrlations canoniques.
Remarque. On peut vrifier (le rsultat est classique) que les valeurs propres Le test du khi-deux est bas sur la statistique
s
de la matrice HE1 valent . Ces valeurs propres sont fournies par le p
1 s 1 Y
logiciel SAS, ainsi que les pourcentages (et les pourcentages cumuls) quelles K = [(n 1) (p + q + 1)] ln (1 s ).
2
reprsentent par rapport leur somme, trace de la matrice HE1 . s=1
7 Analyse canonique des corrlations (ACC)
Le test du khi-deux prsente lavantage dtre directement utilisable, puis- 5 Exemple : nutrition chez la souris
quon compare la statistique K une loi de khi-deux pq degrs de liberts (il
sagit dun test approch). 5.1 Traitements prliminaires
Dans les trois autres tests ci-dessus, on doit transformer la statistique (, Z Nous donnons ci-dessous les statistiques lmentaires relatives aux deux
ou T 2 ) pour obtenir un test de Fisher approch, les transformations tant assez groupes de variables. Les corrlations entre gnes se trouvent en Annexe A,
compliques expliciter (toutefois, SAS les ralise automatiquement). celles entre acides en Annexe B.
Remarque. Dans un article de 1951, Rao a montr que, dans la plupart des
Variable N Mean Std Dev Minimum Maximum
cas, lapproximation de Fisher du test de Wilks est la meilleure. Cest donc le --------------------------------------------------------------
test que nous conseillerons. PMDCI 40 -0.7673 0.1861 -1.07 -0.44
THIOL 40 -0.4110 0.2125 -0.90 -0.03
Si le modle de rgression est significatif (il en va alors de mme pour CYP3A11 40 -0.5083 0.2556 -1.02 0.06
CYP4A10 40 -0.9798 0.2237 -1.33 -0.48
lanalyse canonique), on peut tester la significativit dune dimension et de CYP4A14 40 -0.9930 0.2460 -1.29 -0.15
lensemble des suivantes, en particulier pour guider le choix de la dimension Lpin 40 -0.7533 0.1735 -1.13 -0.48
Lpin1 40 -0.7648 0.1638 -1.10 -0.49
en A.C. Ainsi, supposons que les corrlations canoniques soient significatives GSTmu 40 -0.1190 0.1504 -0.44 0.23
depuis la premire jusqu la k-ime (1 k p). On peut alors tester lhypo- GSTpi2 40 0.2298 0.1422 0 0.55
S14 40 -0.8068 0.2008 -1.05 -0.25
thse nulle
et la comparer une loi de khi-deux (p k)(q k) degrs de libert. 5.2 Analyse canonique
Remarque. Dans lutilisation de ces tests, il convient de ne pas perdre de Gnralits
vue dune part quil sagit de tests asymptotiques (dautant meilleurs que la
taille de lchantillon, n, est grande), dautre part quils ne sont valables que Les premiers rsultats fournis par une A.C. sont les corrlations croises
sous lhypothse de normalit des variables Y k . entre les deux groupes de variables. Nous donnons ces corrlations dans lan-
8 Analyse canonique des corrlations (ACC)
Par ailleurs, les tests de Wilks, de significativit de chaque dimension, sont Pour la reprsentation des variables, nous avons considr le sous-espace
les suivants : F X , engendr par les 10 gnes, et nous avons reprsent la fois les gnes
et les acides gras relativement aux deux premires variables canoniques, V 1
Test of H0: The canonical correlations in the et V 2 (Fig. 2). Comme indiqu en 3.4, les coordonnes des variables initiales
9 Analyse canonique des corrlations (ACC)
5 par rapport aux souris PPAR. On peut galement noter les proximits entre le
5
5 C16_0 et le gne THIOL, ainsi que les proximits entre CYP3A11 et GSTpi2
et les acides gras C18_0 et C22_6n_3. Par ailleurs, lopposition entre le r-
0.7
2
gime 2-efad et les rgimes 1-dha et 3-lin est lie, sous rgime efad,
laccumulation dacides gras monoinsaturs (C18_1n_9 et C18_1n_7) chez
0.6
2 2 2 1
4 4 3 les souris des deux gnotypes (mais plus marque chez les souris PPAR), ac-
2
Dimension 2
5
1 compagne de la sur-expression du gne S14 presque exclusivement chez les
4
souris WT. Sous rgime riche en Omga 3 (1-dha et 3-lin), on observe une
0.5
1 1
2
3
5 4
3
accumulation prfrentielle des acides gras C20_5n_3 (surtout pour le r-
2
gime lin), C22_6n_3 (surtout pour le rgime dha) et C18_0 accompagne
0.4
5
3 1 de rgulations positives des gnes GSTpi2, CYP3A11 et des CYP4A qui, ce-
2 5 3 13 pendant, se rvlent moins marques, voire absentes, chez les souris PPAR.
1
Enfin, remarquons que la position particulire du rgime 5-tsol chez les
0.3
4 3 1
4 3 souris PPAR est lie laccumulation extrmement marque de C18_2n_6
4 dans le foie de ces souris sous le rgime tsol (sous ce rgime, la proportion
0.2
4 de C18_2n_6 est presque deux fois plus importante chez les souris PPAR que
chez les souris WT), soulignant ainsi le rle primordial de PPAR dans la prise
0.1 0.0 0.1 0.2 0.3 0.4 0.5
en charge de cet acide gras, que ce soit pour sa dgradation ou pour son uti-
Dimension 1
lisation pour la biosynthse des acides gras longs polyinsaturs de la famille
Omga 6.
F IGURE 1 Souris : reprsentation des individus (souris) dans lespace des
gnes. Les WT sont en rouge-gras et les PPAR en bleu-italique ; les numros
correspondent aux rgimes.
10 Analyse canonique des corrlations (ACC)
1.0
0.5
C18.2n.6
C18.1n.9
C18.1n.7
C22.5n.6
Dimension 2
S14
0.0
GSTmu C18.3n.3
C20.4n.6
Lpin
Lpin1 C22.5n.3
C20.5n.3
CYP4A14
0.5
CYP4A10 C22.6n.3
C16.0 GSTpi2
THIOL C18.0
CYP3A11
PMDCI
1.0
Dimension 1