Académique Documents
Professionnel Documents
Culture Documents
Exploration Statistique
Multidimensionnelle
P HILIPPE B ESSE
Exploration Statistique
Exploration Statistique
Introduction la Statistique
Description unidimensionnelle
Description bidimensionnelle
Introduction exploration multidimensionnelle
Analyse en Composantes Principales
Analyse Factorielle Discriminante
Analyse Factorielle des Correspondances
Analyse Factorielle des Correspondances Multiple
Analyse Canonique des Corrlations
Positionnement Multidimensionnel
Classification non supervise
Factorisation par matrices non ngatives (NMF)
Annexe
Complments dalgbre linaire
page 5
page 12
page 23
page 29
page 31
page 43
page 49
page 57
page 65
page 75
page 80
page 93
page 99
Attention ce cours est dense, la lecture de ce document ne suffira pas la bonne comprhension des outils qui y sont dcrits de
faon synthtique. La prsence aux cours et la participation active aux TDs sont indispensables lacquisition des comptences
incontournables pour une utilisation raisonnable et raisonne des techniques dapprentissage statistique.
Exploration Statistique
Statistique : Introduction
pour lemploi et les dbouchs des tudiants, la gestion des ressources humaines et les investissements conomiques des entreprises ou encore les stratgies scientifiques des laboratoires de recherche.
Statistique : Introduction
Rsum
Introduction la Statistique et ses mthodes. Contexte et objectifs
(descriptif, explicatif, prdictif) dune analyse statistique ; les comptences ncessaires.
Ce cours est structur en deux niveaux principaux et quelques
grands thmes :
L : Description et infrences statistiques lmentaires
M1 : Exploration multivarie
M1 : Infrence statistique
M1 : Modle linaire et linaire gnral
M2 : Modle linaire, modle mixte
M2 : Apprentissage et modlisation
Rflexions autour de : Statistique et Dontologie scientifique
Le mtier de statisticien
Terminologie
2.1
Le mot statistiques avec un "s" est apparu au XVIIIme sicle pour dsigner des quantits numriques : des tables ou tats, issus de techniques de
dnombrement et dcrivant les ressources conomiques (impts...), la situation dmographique (conscription...), dun pays. La Statistique est une sousdiscipline des Mathmatiques qui sest dveloppe depuis la fin du XIXme
sicle notamment la suite des travaux de lcole anglaise (K. Pearson, W.
Gosset (Student), R. Fisher, J. Neyman...). Une statistique est une quantit dfinie par rapport un modle (i.e. une statistique de test) permettant dinfrer
sur son comportement dans une situation exprimentale donne.
2.2
De manire approximative, il est possible de classer les mthodes statisUne question merge alors de faon trs prsente ; elle est fondamentale tiques en trois groupes : celui des mthodes descriptives, celui des mthodes
Page 5 sur 104
06/14
Statistique : Introduction
pal est la description des donnes tudies ; cette description des donnes
se fait travers leur prsentation (la plus synthtique possible), leur reprsentation graphique, et le calcul de rsums numriques. Dans cette
optique, il nest pas fait appel des modles probabilistes. On notera que
les termes de statistique descriptive, statistique exploratoire et analyse des
donnes sont quasiment synonymes.
La statistique infrentielle. Ce terme regroupe les mthodes dont lobjectif principal est de prciser un phnomne sur une population globale,
partir de son observation sur une partie restreinte de cette population,
lchantillon. Il sagit donc dinduire (ou encore dinfrer) du particulier au gnral avec un objectif principalement explicatif. Ce passage ne
peut se faire quaux moyens de modles et dhypothses probabilistes.
Les termes de statistique infrentielle, statistique mathmatique, et statistique inductive sont eux aussi quasiment synonymes.
Lapprentissage statistique est issu de linterface entre deux disciplines :
Statistique et Machine Learning (apprentissage machine). Lobjectif est
principalement la construction dun modle statistique traditionnel ou
algorithmique sans ncessairement dhypothse probabiliste, en privilgiant la prvision dune variables qualitative (discrimination ou classification supervise) ou quantitative (rgression). Le contexte est souvent
celui de donnes de grandes dimensions avec comme dfi majeur le cas o
le nombre de variables explicatives p est considrablement plus important
que le nombre n dobservations ou taille de lchantillon dit dapprentissage.
06/14
3.1
Statistique : Introduction
Exprimentation
3.2
Quel logiciel ?
Deux logiciels sont privilgis : lun commercial SAS car le plus rpandu
et le plus demand dans les offres demplois ; lautre, R, en distribution libre
(licence GNU) comme outil de dveloppement des dernires avances mthodologiques du monde universitaire.
4.1
Cette tape est de toute faon un pralable tout autre objectif. Les donnes
recueillies sont elles de qualit suffisante ? Sont-elles bien exemptes de biais
ou artefacts exprimentaux ? Leurs grandes structures (groupes, corrlations...)
sont-elles en accord avec les connaissances acquises sur le sujet ?
Valeurs manquantes, errones ou atypiques,
Modalits trop rares,
Distributions anormales,
Incohrences, liaisons non linaires,
Transformations, imputation, codage...
3.3
SAS
Mis part le module SAS/IML de langage matriciel trs peu utilis, SAS
est un logiciel de type "bote noire" superposant des couches basses, pour lesquelles lutilisateur crit des lignes de code dans une syntaxe complexe, et des
interfaces graphiques conviviales (SAS/INSIGHT, SAS User Guide, Sas Enterprise Miner...). Sa diffusion est telle quil apparat en situation de quasi monopole dans certaines branches dactivit comme lindustrie pharmaceutique.
Paradoxalement, sa complexit et son cot sont des atouts pour lemploi de
statisticiens indispensables sa bonne utilisation et donc sa rentabilisation.
Son apprentissage est incontournable.
4.2
Telle variable ou tel facteur a-t-il une influence sur la variable dintrt ? Le
modle thorique est-il en accord avec les rsultats exprimentaux ?
Explicitation de lhypothse statistique rpondant la question biologique,
Dtermination du modle statistique correspondant,
Estimation des paramtres du modle et calcul de la statistique de test,
Prise de dcision : rejet ou acceptation de lhypothse.
06/14
Statistique : Introduction
4.3
Quel choix ?
Domaines dapplication
5.1
ref rgime dont lapport en Omga 6 et en Omga 3 est adapt des Apports
Nutritionnels Conseills pour la population franaise, soit sept fois plus
dOmga 6 que dOmga 3 ;
tsol riche en Omga 6, base dhuile de tournesol.
Les expressions des gnes ainsi que des concentrations de 21 acides gras sont
mesures au niveau du foie aprs euthanasie. Ce jeu de donnes aux problmatiques statistiques trs riches est trs souvent repris tout au long des prsentations des diffrentes mthodes.
5.2
Sciences de la Vie
Depuis les travaux pionniers de Sir Ronald Fisher, les disciplines des
Sciences de la Vie ont toujours motiv les dveloppements de la Statistique :
modles de dure de vie, modles pidmiologiques, dynamique de population... Les techniques de squenage et les technologies dinstrumentation
haut dbit (transcriptomique, protomique, mtabolomique...) viennent renforcer lourdement cette tendance en posant des dfis redoutables au statisticien :
Marketing
06/14
1.0
C22.6n.3
0.0
1.0
0.5
Dimension 2
0.5
C20.5n.3
GSTpi2 CYP3A11
C22.5n.3
CYP2c29
C18.0
G6Pase
CYP4A14
SPI1.1
CYP4A10
GSTmu
C20.3n.3
C18.2n.6
Tpalpha
PMDCI
mHMGCoAS
CBS
AOX C16.0
C18.3n.3
C16SR
PECI THIOL
IL.2 PPARd
THB
MCAD
Tpbeta
C20.3n.6GSTa
Pex11a LCE BACT
apoE
HPNCL
ACOTH
BIEN
CACP
ACAT1
CAR1
ALDH3
M.CPT1
PXR
i.BABP
PPARg
L.FABP
apoB
X36b4
OCTN2
CPT2
Waf1
ACBP
ACAT2
CIDEA
CYP26
RXRb2
i.BAT
SHP1
MDR1
LXRb
TRa
C20.2n.6PON
cMOAT BSEP
PAL CYP8b1
LPL
mABC1
CYP27b1
VLDLr
CYP2b10
FXR
MTHFR
NURR1
ADISP
MRP6 Lpin2 FAS
ACC1
SIAT4cRXRa
GS
AM2R
Lpin
ap2COX1
C20.4n.6
Lpin3
CYP27a1
apoC3
Lpin1
LXRa
C20.1n.9
Bcl.3
hABC1
LPK
PDK4
TRb
NGFiB
C22.4n.6
CYP7a
MS
MDR2
RXRg1
GK
PPARa
CYP2b13
RARa
ADSS1
UCP3
RARb2
C22.5n.6
COX2
CYP24
VDR
c.fos
eif2g
i.NOS
apoA.I
UCP2
C18.3n.6
FDFT
SR.BIFAT G6PDH
Ntcp
i.FABP cHMGCoAS
LDLr
S14
C14.0
C20.3n.9
C16.1n.9 C16.1n.7
ACC2HMGCoAred
PLTP
C18.1n.9
C18.1n.7
1.0
0.5
0.0
0.5
1.0
Dimension 1
dha
0.2
WT
PPAR
dha
dha
dha
lin
0.0
lin
tsol
lin
lin tsol
tsol
0.2
0.1
Dimension 2
0.1
dha
dha
dha
dha lin
lin lin
refref
ref
ref
lin
tsol ref
ref
efad
refref
efad
tsol
tsol
tsol
tsol
efad
efad
efad
efad
efad
efad
0.4
0.3
0.2
0.1
0.0
Dimension 1
0.1
0.2
Statistique : Introduction
F IGURE 1 Souris : premier plan des facteurs canoniques : reprsentation 5.3 Industrie
conjointe des relations gnes et acides gras puis des souris selon le gnotype
Pour des raisons culturelles et historiques trop longues dvelopper (culture
et le rgime suivi.
dterministe des coles dingnieurs...), la Statistique a une place trs miPage 9 sur 104
06/14
Statistique : Introduction
neures dans lindustrie franaise sauf en cas dobligation lgale : essais cliniques pour lautorisation de mise sur le march des mdicaments, contrle
de qualit et fiabilit des matriaux pour la conformit aux normes ISO... La
Statistique est ainsi plus vcue comme une contrainte, un contrle, que comme
une aide la dcision. Dautre part, les exemples dvelopps dans le cadre
de thses sont, outre les questions de confidentialit, souvent trop complexes
expliciter pour sadapter la simple illustration de ce cours. Nanmoins, il
faut tre conscient que chacune des techniques abordes, en particulier celles
de biostatistique, se transposent directement : dure de vie et fiabilit des matriaux, fouille de donnes et traabilit pour la dtection de dfaillances... Le
contexte est souvent techniquement trs complexe en terme de modlisation
physique mais plus favorable sur le plan statistique, du fait notamment dun
plus grand nombre dobservations que dans le domaine de la sant.
5.4
Big Data
Les entreprises industrielles sont actuellement confrontes la mme situation que celles du tertiaire il y a vingt ans : afflux automatique et stockage
massif de donnes. La situation et donc les mtiers de la Statistique voluent
considrablement dans ce domaine. Aprs une priode o la question principale est : comment organiser et structurer les matriels et bases de donnes, la
question suivante est : que faire, quelles analyses dveloppes pour les valoriser et aider la dcision ? Prospection numrique dans lindustrie ptrolire,
web mining des sites marchands en pleine explosion, utilisation massive des
reprages GPS de flottes de vhicules, btiments intelligents bards de capteurs, imagerie 3D... Les applications et problmes ncessitent en plus, par
F IGURE 2 Banque : reprsentation des classes de clients, w1 w5, dans le rapport au data mining maintenant classique, une rflexion approfondie sur les
structures de donnes : fonctions, surfaces, graphes...
premier plan factoriel de lanalyse des correspondances multiples
Quelles comptences ?
06/14
Statistique : Introduction
06/14
Rsum
Les objectifs et la dmarche dun premire exploration dun jeu
de donnes, les outils de la description statistique dune variable
quantitative (indicateur de tendance centrale, de dispersion, histogramme, diagramme-bote), puis dune variable qualitative (frquences).
Retour au plan.
Introduction
1.1
Dmarche
Toute tude sophistique dun corpus de donnes doit tre prcde dune
tude exploratoire laide doutils, certes rudimentaires mais robustes, en privilgiant les reprsentations graphiques. Cest la seule faon de se familiariser
avec des donnes et de dpister les sources de problmes :
valeurs manquantes, errones ou atypiques, biais exprimentaux,
modalits trop rares,
distributions anormales (dissymtrie, multimodalit, paisseur des
queues),
incohrences, liaisons non linaires.
...
Cest ensuite la recherche de prtraitements des donnes afin de corriger les
sources de problmes et les rendre exploitables par des techniques plus sophistiques :
transformation : logarithme, puissance, rduction, rangs. . . des variables,
codage en classe ou recodage de classes,
imputations ou non des donnes manquantes,
lissage, dcompositions (ondelettes, Fourier) de courbes,
Ensuite, les techniques exploratoires multidimensionnelles permettent des
reprsentations graphiques synthtiques,
rductions de dimension pour la compression ou le rsum des donnes,
recherches et reprsentations de typologies des observations.
Dans le cas dune seule variable, Les notions les plus classiques sont celles
de mdiane, quantile, moyenne, frquence, variance, cart-type dfinies paralllement des reprsentations graphiques : diagramme en bton, histogramme,
diagramme-bote, graphiques cumulatifs, diagrammes en colonnes, en barre ou 1.2 Avertissement
en secteurs.
Attention le ct rudimentaire voire trivial des outils de statistique descripDans le cas de deux variables, on sintresse la corrlation, au rapport tive uni et bidimensionnelle ne doit pas conduire les ngliger au profit dune
de corrlation ou encore la statistique dun test du 2 associ une table mise en uvre immdiate de mthodes beaucoup plus sophistiques, donc
de contingence. Ces notions sont associes diffrents graphiques comme le beaucoup plus sensibles aux problmes cits ci-dessus. Sils ne sont pas pris
nuage de points (scatterplot), les diagrammes-botes parallles, les diagrammes en compte, ils rapparatront alors comme autant dartefacts susceptibles de
dnaturer voire de fausser toute tentative de modlisation.
de profils ou encore en mosaque.
Les dfinitions de ces diffrentes notions se trouvent dans nimporte quel ouvrage lmentaire de Statistique, nous nous proposons simplement de rappeler
dans ce chapitre certains outils moins classiques mais efficaces et prsents dans
la plupart des logiciels statistiques. Cela nous permettra galement dillustrer
les premires tapes descriptives raliser sur un jeu de donnes.
06/14
xl
24
26
29
31
33
37
38
41
43
45
46
49
50
52
57
59
60
62
donnes atypiques, la symtrie des distributions sont des proprits importantes des sries observes pour sassurer de la qualit et de la validit des
rsultats.
Le droulement pdagogique linaire ne doit pas faire perdre de vue que
la ralit dune analyse est plus complexe et ncessite diffrentes tapes en
boucle afin, par exemple, de contrler linfluence possible des choix parfois
trs subjectifs oprs dans les tapes de normalisation ou transformation des
donnes pour ventuellement les remettre en cause.
2
2.1
Variable quantitative
Variable quantitative discrte
nl
1
2
3
2
4
2
4
3
3
1
6
3
1
3
5
2
2
1
Nl
1
3
6
8
12
14
18
21
24
25
31
34
35
38
43
45
47
48
fl (%)
2,08
4,17
6,25
4,17
8,33
4,17
8,33
6,25
6,25
2,08
12,50
6,25
2,08
6,25
10,42
4,17
4,17
2,08
Fl (%)
2,08
6,25
12,50
16,67
25,00
29,17
37,50
43,75
50,00
52,08
64,58
70,83
72,91
79,16
89,58
93,75
97,92
100,00
Introduction
TABLE 1 Effectifs, effectifs cumuls, frquences et frquences cumules.
En gnral, on appelle variable quantitative discrte une variable quantitative ne prenant que des valeurs entires (plus rarement dcimales). Le nombre
de valeurs distinctes dune telle variable est habituellement assez faible (sauf appeles effectifs et notes n . Les effectifs n sont souvent remplacs par les
l
l
exception, moins dune vingtaine). Citons, par exemple, le nombre denfants quantits f = nl , appeles frquences (rappelons que n dsigne le nombre
l
n
Pr
dans une population de familles, le nombre dannes dtudes aprs le bac dans total dobservations,
cestdire le cardinal de : n =
l=1 nl ).
une population dtudiants. . .
On a not lge (arrondi lanne prs) des 48 salaris dune entreprise ; la srie statistique brute est donne ci-dessous (il sagit de
donnes fictives).
43 29 57 45 50 29 37 59 46 31 46 24 33 38 49 31
62 60 52 38 38 26 41 52 60 49 52 41 38 26 37 59
Les effectifs cumuls et les frquences cumules Il peut tre utile de complter le tableau statistique en y rajoutant soit les effectifs cumuls, soit les
frquences cumules. Ces quantits sont respectivement dfinies de la faon
suivante :
l
l
X
X
Nl =
nj et Fl =
fj .
j=1
57 41 29 33 33 43 46 57 46 33 46 49 57 57 46 43
j=1
On notera que Nr = n et Fr = 1.
Illustration Dans le tableau statistique (1), on a calcul, sur les donnes prsentes dans lexemple 2.1, les effectifs, effectifs cumuls, frquences et frquences cumules.
Remarque.
06/14
pourcentages.
Le choix entre effectifs (resp. effectifs cumuls) et frquences (resp. fr-
466999
113333778888
1113335666666999
02227777799
002
Elle consiste donc, dans la prsentation des donnes, sparer la partie des
dizaines de celle des units. En face de la partie des dizaines, chaque unit
est rpte autant de fois quil y a dobservations de la valeur correspondante.
Bien entendu, cette prsentation doit tre adapte de faon approprie lorsque
les donnes sont dun autre ordre de grandeur.
Reprsentations graphiques
Pour une variable discrte, on rencontre essentiellement deux sortes de re- dobservations infrieures ou gales une valeur donne de la srie. Lorsquil
prsentations graphiques, qui sont en fait complmentaires : le diagramme en est relatif aux frquences, cest en fait le graphe de la fonction de rpartition
btons et le diagramme cumulatif (en escaliers).
empirique FX dfinie de la faon suivante :
Le diagramme en btons Il permet de donner une vision densemble des
observations ralises. La figure 1 donne le diagramme en btons des donnes
de lexemple 2.1.
0
Fl
FX (x) =
si x < x1 ,
si xl x < xl+1 ,
si x xr .
l = 1, . . . , r 1,
06/14
Notion de quantile
Dfinition La frquence cumule Fl (0 Fl 1) donne la proportion dobservations infrieures ou gales xl . Une approche complmentaire consiste
se donner a priori une valeur , comprise entre 0 et 1, et rechercher x
vrifiant FX (x ) ' . La valeur x (qui nest pas ncessairement unique)
est appele quantile (ou fractile) dordre de la srie. Les quantiles les plus
utiliss sont associs certaines valeurs particulires de .
La mdiane et les quartiles La mdiane est le quantile dordre 12 ; elle partage donc la srie des observations en deux ensembles deffectifs gaux. Le
premier quartile est le quantile dordre 14 , le troisime quartile celui dordre 43
(le second quartile est donc confondu avec la mdiane).
F IGURE 3 Diagramme-bote et moyenne en rouge
Les autres quantiles Les quintiles, dciles et centiles sont galement
dusage assez courant.
la mdiane,
la moyenne (ou moyenne arithmtique).
Le diagramme-bote (ou boxandwhisker plot) Il sagit dun graphique trs simple qui rsume la srie partir de ses valeurs extrmes, de ses Formule de la moyenne pour une variable quantitative discrte :
quartiles et de sa mdiane. La figure 3 donne le diagrammebote de lexemple
2.1. Dans cet exemple, on a obtenu x 14 = 35, x 12 = 44 et x 34 = 52 ; on nor
r
X
1X
tera que lobtention, dune part de x 14 et x 12 , dautre part de x 43 , ne sest pas
x =
n l xl =
fl xl .
n
faite de la mme faon (en fait, avec une variable discrte, la dtermination
l=1
l=1
des quantiles est souvent approximative comme on peut le constater avec cet
exemple).
Caractristiques numriques
x
x
),
l
l=1 l
2
Tendance centrale Leur objectif est de fournir un ordre de grandeur de la
P
r
1
lcart-moyen la moyenne ( n l=1 nl |xl x|),
srie tudie, cestdire den situer le centre, le milieu. Les deux caractristiques les plus usuelles sont :
sont des caractristiques de dispersion que lon rencontre parfois.
Page 15 sur 104
06/14
bl1 et bl sont appels les bornes de la li`eme classe ; bl12+ bl est le centre de
cette classe et (bl bl1 ) en est lamplitude (en gnral note al ).
2094
1X
n l xl =
= 43, 625 ' 43, 6 ans ;
n
48
l=1
2
X
r
1X
96620
=
nl (xl )2 (x)2 =
(43, 625)2 ' 109, 7760 ;
n
48
l=1
q
2 ' 10, 5 ans.
=
X
2.2
frquences (%)
24,0
10,9
17,8
20,3
10,2
16,8
Gnralits
Reprsentations graphiques
Une variable quantitative est dite continue lorsque les observations qui lui
Les deux graphiques usuels remplaant respectivement dans ce cas le diasont associes ne sont pas des valeurs prcises mais des intervalles rels. Cela
signifie que, dans ce cas, le sousensemble de R des valeurs possibles de la gramme en btons et le diagramme cumulatif sont lhistogramme et la courbe
cumulative.
variable tudie a t divis en r intervalles contigus appels classes.
Page 16 sur 104
06/14
0
Fl1 +
FX (x) =
fl
bl bl1 (x
si x < b0 ,
bl1 ) si bl1 x < bl ,
si x br
l = 1, . . . , r,
fX (x) =
fl
bl bl1
si x < b0 ,
si bl1 < x < bl ,
si x br .
l = 1, . . . , r,
Le graphe de fX est alors appel histogramme de la variable X. Un histogramme est donc la juxtaposition de rectangles dont les bases sont les amplitudes des classes considres (al = bl bl1 ) et dont les hauteurs sont
fl
les quantits bl b
, appeles densits de frquence. Laire du li`eme rectangle
l1
vaut donc fl , frquence de la classe correspondante.
Lhistogramme correspondant aux donnes de lexemple 2.2 est prsent
dans la figure 5.
06/14
06/14
3.2
Il est clair quon ne peut pas envisager de calculer des caractristiques numriques avec une variable qualitative (quelle soit nominale ou ordinale). Dans
ltude statistique dune telle variable, on se contentera donc de faire des tableaux statistiques et des reprsentations graphiques. Encore fautil noter que
les notions deffectifs cumuls et de frquences cumules nont de sens que
pour des variables ordinales (elles ne sont pas dfinies pour les variables nominales).
plutt que 125, car cette valeur nous a sembl plus proche de la ralit ;
ensuite, il se trouve que, dans ce cas, on peut calculer la vraie valeur de
la moyenne, connaissant la SAU totale en France (31 285 400 ha) et le
nombre total dexploitations agricoles (981 720) ; on obtient 31,9 ha, ce
qui signifie que lapproximation obtenue ici est trs correcte ;
enfin, le fait que la mdiane soit sensiblement plus faible que la moyenne
caractrise les sries fortement concentres sur les petites valeurs.
2.3
3.3
Traitements statistiques
Reprsentations graphiques
Les reprsentations graphiques que lon rencontre avec les variables qualiLe volume des donnes et la pratique gnralise des logiciels statistiques tatives sont assez nombreuses. Les trois plus courantes, qui sont aussi les plus
induit une prise en compte particulire des notions prcdentes. Par principe, appropries, sont :
le codage des valeurs, mmes relles, est toujours discret, et la prcision fonc le diagramme en colonnes,
tion du nombre de chiffres significatifs pris en compte En consquences, tous
le diagramme en barre,
les calculs des indicateurs (moyenne, variance, quantile...) sont traits avec
le diagramme en secteurs.
les formules considrant les valeurs comme connues et discrtes, sans pour
Les figures 8, 7 et 9 prsentent chacun de ces trois graphiques sur les donautant sintresser aux frquences des valeurs car ces dernires sont gnralement distinctes les unes des autres. En revanche, les graphiques produits (his- nes de lexemple 3.3.
togramme, courbe cumulative mais pas lestimation fonctionnelle) sont issus
Le tableau cidessous donne la rpartition de la population active
de dcoupages automatiques en classes damplitudes gales, pas toujours trs
occupe (ayant effectivement un emploi) selon la CSP (catgorie sojudicieux, selon les principes des variables continues.
cioprofessionnelle), en France, en mars 1988 (Tableaux de lconomie Franaise, INSEE, 1989, p. 59).
3.1
Variable qualitative
Par dfinition, les observations dune variable qualitative ne sont pas des valeurs numriques, mais des caractristiques, appeles modalits. Lorsque ces
modalits sont naturellement ordonnes (par exemple, la mention au bac dans
une population dtudiants), la variable est dite ordinale. Dans le cas contraire
(par exemple, la profession dans une population de personnes actives) la variable est dite nominale.
CSP
1. agriculteurs exploitants
2. artisans, commerants, chefs dentreprises
3. cadres, professions intellectuelles suprieures
4. professions intermdiaires
5. employs
6. ouvriers
effectifs en milliers
1312
1739
frquences (%)
6,1
8,1
2267
10,6
4327
5815
6049
20,1
27,0
28,1
06/14
Dtection de problmes
Les erreurs, lorsquelle sont dceles, conduisent naturellement et ncessairement leur correction ou llimination des donnes douteuses mais dautres
problmes pouvant apparatre nont pas toujours de solutions videntes.
Le mitage de lensemble des donnes ou absence de certaines valeurs en
fait partie. Faut-il supprimer les individus incrimins ou les variables ?
Faut-il complter, par une modlisation et prvision partielles, les valeurs
manquantes ? Les solutions dpendent du taux de valeurs manquantes,
de leur rpartition (sont-elles alatoires) et du niveau de tolrance des
mthodes qui vont tre utilises.
La prsence de valeurs atypiques peut influencer svrement des estimations de mthodes peu robustes car bases sur le carr dune distance. Ces
valeurs sont-elles des erreurs ? Sinon faut-il les conserver en transformant
les variables ou en adoptant des mthodes robustes bases sur des carts
absolus ?
Mme sans hypothse explicite de normalit des distributions, il est prfrable davoir faire des distributions relativement symtriques. Une
transformation des variables par une fonction monotone (log, puissance)
est hautement recommande afin damliorer la symtrie de leur distribution ou encore pour linariser (nuage de points) la nature dune liaison.
4.1
Marketing bancaire
Les donnes de patrimoine, de revenu, comme galement celles de concentration prsente des distributions trs disymtriques (figure 10 accompagnes
de nombres importants de valeurs atypiques. Le diagramme bote est un outil
efficace pour identifier ce problme avant dy remdier par une transformation
approprie, ici le logarithme.
06/14
10
F IGURE 10 Banque : La simple transformation (log(50 + x)), de la variable cumulants les avoirs, rsout bien les problmes poss par lallure lognormale de sa distribution avec son cortge de valeurs atypiques.
PPAR
WT
4.2
Donnes gnomiques
1
Le diagramme bote parallle est galement trs efficace pour visualiser simultanment les distributions dun grand nombre de variables, par exemple
de centaines voire de milliers de gnes, dont lexpression a t observe dans
diffrentes conditions exprimentales. Dans cet exemple, la reprsentation des
dha
tsol
dha
tsol
efad
ref
efad
ref
lin
lin
diagrammes en botes pour les souris, ordonnes selon le gnotype et le rgime suivi (Fig. 11) ne donne a priori aucune tendance spcifique sur le com1
3
5
7
9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
portement de lensemble des gnes. Cette reprsentation atteste de la qualit
40 souris
de la production et de prtraitement des donnes. En effet, celles-ci ont t recueillies en utilisant une membrane par souris ; ainsi, une quelconque anomalie
sur un support, affectant lensemble des mesures relatives une souris parti- F IGURE 11 Souris : diagrammes en botes pour les 40 souris. La ligne verculire, apparatrait ncessairement sur cette reprsentation. Notons seulement ticale et paisse spare les souris selon leur gnotype. Les lignes verticales et
que quelques gnes atypiques, facilement reprables sur la figure 12 comme les fines sparent les souris selon le rgime quelles ont suivi. La ligne horizontale
plus sur-exprims, se retrouvent dans les valeurs extrmes pour chaque souris reprsente la mdiane de lensemble des valeurs.
sur la figure 11.
Les diagrammes en botes pour chaque gne (Fig. 12) rvlent des gnes
dont lexpression est, sur lensemble des souris, nettement diffrentes des
autres (par exemple, 16SR, apoA.I, apoE). Les gnes des ARN ribosomiques comme le 16SR (ARN 16s ribosomique mitochondrial), prsentent,
Page 21 sur 104
06/14
11
16SR
SPI1.1
apoE
apoA.I
FAS
THIOL
S14
i.BAT
Tpbeta
F IGURE 12 Souris : Diagrammes-botes parallles reprsentant simultanment les distributions des logarithmes des expressions des gnes.
dans toutes les cellules de lorganisme, des niveaux dexpression plus levs
que tous les gnes codant des ARN messagers. Ces ARN servent en effet
la traduction des ARN messagers en protines. Par ailleurs, on peut constater
que les expressions de certains gnes varient beaucoup plus que dautres sur
lensemble des souris (par exemple, FAS, S14 et THIOL). Pour ces derniers
gnes, on peut supposer quune part de cette variabilit est due aux facteurs
considrs, ce que nous essaierons de confirmer par la suite au moyen de techniques de modlisation.
Lintrt de ces reprsentations rside davantage dans la vision synthtique
quelles offrent que dans linformation biologique que lon peut en extraire.
Elles nous orientent galement dans les premiers choix mthodologiques tablir avant de poursuivre lanalyse. En effet, les botes relatives la distribution
des gnes mettent clairement en vidence un certain nombre de gnes dont
Page 22 sur 104
06/14
0.55
0.70
ACAT1
0.75
Retour au plan.
0.65
0.60
Rsum
Introduction
0.55
0.50
0.45
0.40
0.35
0.30
X36b4
sez bonne de la variation conjointe des deux variables et est appel nuage. On
notera quon rencontre parfois la terminologie de diagramme de dispersion,
traduction plus fidle de langlais scatter-plot.
Le choix des chelles retenir pour raliser un nuage de points peut savrer dlicat. Dune faon gnrale, on distinguera le cas de variables homognes
(reprsentant la mme grandeur et exprimes dans la mme unit) de celui des
variables htrognes. Dans le premier cas, on choisira la mme chelle sur
les deux axes (qui seront donc orthonorms) ; dans le second cas, il est re2 Deux variables quantitatives
command soit de reprsenter les variables centres et rduites sur des axes
orthonorms, soit de choisir des chelles telles que ce soit sensiblement ces
2.1 Nuage de points
variables l que lon reprsente (cest en gnral cette seconde solution quutiIl sagit dun graphique trs commode pour reprsenter les observations si- lisent, de faon automatique, les logiciels statistiques).
multanes de deux variables quantitatives. Il consiste considrer deux axes 2.2 Rappel : variables centres et rduites
perpendiculaires, laxe horizontal reprsentant la variable X et laxe vertical
la variable Y , puis reprsenter chaque individu observ par les coordonnes
Si X est une variable quantitative de moyenne x et dcarttype X , on
des valeurs observes. Lensemble de ces points donne en gnral une ide as- appelle variable centre associe X la variable X x (elle est de moyenne
Page 23 sur 104
06/14
nulle et dcarttype X ), et variable centre et rduite (ou tout simplement Par consquent, corr(X, Y ) est indpendant des units de mesure de X et de
x
variable rduite) associe X la variable X
(elle est de moyenne nulle et Y . Le coefficient de corrlation est symtrique et prend ses valeurs entre -1 et
X
+1. Les valeurs 1 et +1 correspondent une liaison linaire parfaite entre X
dcarttype gal un). Une variable centre et rduite sexprime sans unit.
et Y (existence de rels a, b et c tels que : aX + bY + c = 0).
2.3
Indice de liaison
n
X
3
wi [xi x][yi y]
i=1
n
X
wi xi yi x y.
3.1
Notations
i=1
x1 , . . . , x ` , . . . , x m
La covariance est une forme bilinaire symtrique qui peut prendre toute vaet soit Y la variable quantitative de moyenne y et de variance Y2 . Dsignant
leur relle et dont la variance est la forme quadratique associe. En particulier,
par lchantillon considr, chaque modalit x` de X dfinit une souson en dduit les deux formules suivantes :
population (un sous-ensemble) ` de : cest lensemble des individus, supposs pour simplifier de poids wi = 1/n et sur lesquels on a observ x` ; on
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ),
obtient ainsi une partition deP en m classes dont nous noterons n1 , . . . , nm
m
2
les cardinaux (avec toujours `=1 n` = n, o n = card()).
[cov(X, Y )] var(X)var(Y ) ;
Considrant alors la restriction de Y ` (l = 1, . . . , m), on peut dfinir
(cette dernire proprit est lingalit de Cauchy-Schwarz).
la moyenne et la variance partielles de Y sur cette sous-population ; nous les
la covariance dpend des units de mesure dans lesquelles sont exprimes noterons respectivement y` et 2 :
`
les variables considres ; en ce sens, ce nest pas un indice de liaison intrin1 X
sque.
Y (i ) ;
y` =
n`
Cest la raison pour laquelle on dfinit le coefficient de corrlation linaire
i `
(appel coefficient de Pearson ou de Bravais-Pearson), rapport entre la cova1 X
riance et le produit des carts-types :
`2 =
[Y (i ) y` ]2 .
n`
i `
cov(X, Y )
corr(X, Y ) =
.
X Y
3.2 Botes parallles
Le coefficient de corrlation est gal la covariance des variables centres et
Une faon commode de reprsenter les donnes dans le cas de ltude simulY y
rduites respectivement associes X et Y : corr(X, Y ) = cov( Xx
,
).
tane
dune variable quantitative et dune variable qualitative consiste raliser
X
Y
Page 24 sur 104
06/14
2
, est appel variance
Le premier terme de la dcomposition de Y2 , not E
explique (par la partition, cest--dire par X) ou variance inter (between) ;
2
le second terme, not R
, est appel variance rsiduelle ou variance intra
(within).
3.4
Rapport de corrlation
Il sagit dun indice de liaison entre les deux variables X et Y qui est dfini
par :
s
sY /X =
2
E
;
2
Y
F IGURE 2 Banque : Diagrammes-boites illustrant les diffrences de distribution des ges en fonction de la possession dune carte Visa Premier.
X et Y ntant pas de mme nature, sY /X nest pas symtrique et vrifie
0 sY /X 1. Cet encadrement dcoule directement de la formule de ddes diagrammes-botes parallles ; il sagit, sur un mme graphique dot dune composition de la variance. Les valeurs 0 et 1 ont une signification particulire
chelle unique, de reprsenter pour Y un diagramme-bote pour chacune des intressante.
sous-populations dfinies par X. La comparaison de ces botes donne une ide
assez claire de linfluence de X sur les valeurs de Y , cest--dire de la liaison 4 Deux variables qualitatives
entre les deux variables.
3.3
Formules de dcomposition
4.1
Notations
On considre dans ce paragraphe deux variables qualitatives observes siCes formules indiquent comment se dcomposent la moyenne et la variance
multanment
sur n individus. On suppose que la premire, note X, possde
de Y sur la partition dfinie par X (cest--dire comment scrivent ces caracr
modalits
notes
x1 , . . . , x` , . . . , xr , et que la seconde, note Y , possde c
tristiques en fonction de leurs valeurs partielles) ; elles sont ncessaires pour
modalits
notes
y
1 , . . . , yh , . . . , yc .
dfinir un indice de liaison entre les deux variables.
Ces donnes sont prsentes dans un tableau double entre, appel table
m
de
contingence, dans lequel on dispose les modalits de X en lignes et celles
X
1
y =
n` y` ;
de
Y en colonnes. Ce tableau est donc de dimension r c et a pour lment
n
`=1
gnrique le nombre n`h dobservations conjointes des modalits x` de X et
m
m
yh de Y ; les quantits n`h sont appeles les effectifs conjoints.
1X
1X
2
2
Y2 =
n` (y` y)2 +
n` `2 = E
+ R
.
n
n
Une table de contingence se prsente donc sous la forme suivante :
`=1
`=1
06/14
x1
..
.
x`
..
.
xr
sommes
y1
n11
..
.
n`1
..
.
nr1
n+1
yh
n1h
..
.
n`h
..
.
nrh
n+h
yc
n1c
..
.
n`c
..
.
nrc
n+c
sommes
n1+
..
.
n`+
..
.
nr+
n
4.2
On peut envisager, dans le cas de ltude simultane de deux variables qualitatives, dadapter les graphiques prsents dans le cas unidimensionnel : on
dcoupe chaque partie (colonne, partie de barre ou secteur) reprsentant une
modalit de lune des variables selon les effectifs des modalits de lautre.
Mais, de faon gnrale, il est plus appropri de raliser des graphiques reprsentant des quantits trs utiles dans ce cas et que lon appelle les profils.
On appelle `-me profil-ligne lensemble des frquences de la variable Y
conditionnelles la modalit x` de X (cest--dire dfinies au sein de la souspopulation ` de associe cette modalit). Il sagit donc des quantits :
n`h
n`c
n`1
,...,
,...,
}.
{
n`+
n`+
n`+
n1h
n`h
nrh
,...,
,...,
}.
n+h
n+h
n+h
06/14
4.3
Indices de liaison
Le coefficient T de Tschuprow :
Lorsque tous les profils-lignes sont gaux, ce qui est quivalent ce que tous
les profils-colonnes soient gaux et que
(`, h) {1, . . . , r} {1, . . . , c} : n`h =
n`+ n+h
,
n
(r 1)(c 1)
On peut vrifier : 0 T 1 .
Khi-deux
2
,
d1
avec : d = inf(r, c). On vrifie maintenant : 0 T C 1 .
Enfin, la p-valeur dun test dindpendance (test du 2 ) est aussi utilise
pour comparer des liaisons entre variables.
C=
r X
c
X
(n`h s`h )2
.
s`h
`=1 h=1
2
p
Le coefficient C de Cramer :
on dit quil nexiste aucune forme de liaison entre les deux variables considres X et Y . Par suite, la mesure de la liaison va se faire en valuant lcart
entre la situation observe et ltat de non liaison dfini ci-dessus.
4.3.1
T =
Autres indicateurs
Lorsquon a observ simultanment plusieurs variables quantitatives (p variables, p 3) sur le mme chantillon, il est possible de calculer dune part
les variances de toutes ces variables, dautre part les p(p1)
covariances des va2
riables prises deux deux. Lensemble de ces quantits peut alors tre dispos
dans une matrice carre (p p) et symtrique, comportant les variances sur la
diagonale et les covariances lextrieur de la diagonale ; cette matrice, appele matrice des variances-covariances (ou encore matrice des covariances) sera
note S. Elle sera utilise par la suite, mais na pas dinterprtation concrte.
Notons quil est possible de vrifier que S est semi dfinie positive.
De la mme manire, on peut construire la matrice symtrique pp, comportant des 1 sur toute la diagonale et, en dehors de la diagonale, les coefficients de
corrlation linaire entre les variables prises deux deux. Cette matrice est appele matrice des corrlations, elle est galement semi dfinie positive, et nous
la noterons R. Elle est de lecture commode et indique quelle est la structure de
corrlation des variables tudies.
06/14
C14.0
C16.0
C18.0
C22.6n.3
C22.5n.3
C20.5n.3
C20.3n.3
C18.3n.3
C22.5n.6
C22.4n.6
C20.4n.6
C20.3n.6
C20.2n.6
C18.3n.6
C18.2n.6
C20.3n.9
C20.1n.9
C18.1n.7
C18.1n.9
C16.1n.7
C16.1n.9
C18.0
C16.0
C14.0
5.2
Tableaux de nuages
Notons X 1 , . . . , X p les p variables quantitatives considres ; on appelle tableau de nuages le graphique obtenu en juxtaposant, dans une sorte de matrice
carre p p, p2 sous-graphiques ; chacun des sous-graphiques diagonaux est
relatif lune des p variables, et il peut sagir, par exemple, dun histogramme ;
le sous-graphique figurant dans le bloc dindice (j, j 0 ), j 6= j 0 , est le nuage de
0
points ralis avec la variable X j en abscisses et la variable X j en ordonnes. Dans certains logiciels anglo-saxons, ces graphiques sont appels splom
(Scatter PLOt Matrix). Le tableau de nuages, avec la matrice des corrlations,
fournit ainsi une vision globale des liaisons entre les variables tudies.
C16.1n.9
C16.1n.7
C18.1n.9
5.3
C18.1n.7
C20.1n.9
C20.3n.9
C18.2n.6
C18.3n.6
C20.2n.6
C20.3n.6
C20.4n.6
C22.4n.6
C22.5n.6
C18.3n.3
C20.3n.3
C20.5n.3
Considrons maintenant le cas o lon tudie simultanment plusieurs variables qualitatives (p variables, p 3). La matrice des coefficients de Tschuprow est la matrice carre dordre p, symtrique, comportant des 1 sur la diagonale et, en dehors de la diagonale, les coefficients de Tschuprow entre les
variables prises deux deux. Il sagit donc dune matrice du mme type que la
matrice des corrlations (elle est dailleurs, elle aussi, semi dfinie positive), et
son utilisation pratique est analogue. Notons que lon peut, de la mme faon,
utiliser les coefficients de Cramer au lieu des coefficients de Tschuprow.
C22.5n.3
C22.6n.3
5.4
Le tableau de Burt
Le tableau de Burt est une gnralisation particulire de la table de contingence dans le cas o lon tudie simultanment p variables qualitatives. Notons
j
X 1 , . . . , X p ces variables,
Ppappelons cj le nombre de modalits de X , j =
1, . . . , p et posons c =
j=1 cj . Le tableau de Burt est en fait une matrice
2
F IGURE 4 Souris : reprsentation graphique des corrlations entre les va- carre c c, constitue de p sousmatrices. Chacune des p sousmatrices
diagonales est relative lune des p variables ; la j i`eme dentre elles est carriables de concentration de lipides par des intensits de couleur.
re dordre cj , diagonale, et comporte sur la diagonale les effectifs marginaux
de X j . La sousmatrice figurant dans le bloc dindice (j, j 0 ), j 6= j 0 , est la
0
table de contingence construite en mettant X j en lignes et X j en colonnes ;
le tableau de Burt est donc symtrique. Il apparat en fait comme lanalogue
qualitatif du tableau des nuages.
06/14
sein dun chantillon statistique dont la distribution est le plus souvent soumise
des hypothses de normalit.
En France, lexpression Analyse des Donnes recouvre les techniques
ayant pour objectif la description statistique des grands tableaux (n lignes,
o n varie de quelques dizaines quelques milliers, p colonnes, o p varie de
quelques units quelques dizaines). Ces mthodes se caractrisent par une
utilisation intensive de lordinateur, leur objectif exploratoire et une absence
quasi systmatique dhypothses de nature probabiliste au profit des proprits et rsultats de gomtrie euclidienne. Elles insistent sur les reprsentations
graphiques en particulier de celles des individus qui sont considrs au mme
titre que les variables.
Depuis la fin des annes 1970, de nombreux travaux ont permis de rapprocher ou concilier les deux points de vue en introduisant, dans des espaces
multidimensionnels appropris, les outils probabilistes et la notion de modle,
usuelle en statistique infrentielle. Les techniques se sont ainsi enrichies de notions telles que lestimation, la convergence, la stabilit des rsultats, le choix
de critres. . .
Lobjectif essentiel de ces mthodes est laide la comprhension de volumes de donnes souvent considrables. Rduction de dimension, reprsentation graphique optimale, recherche de facteurs ou variables latentes... sont des
formulations quivalentes.
Mthodes
Historique
06/14
5. Multidimensional Scaling (M.D.S.) ou positionnement multidimensionnel ou analyse factorielle dun tableau de distances.
Toutes les prcdentes mthodes sont bases sur des outils classiques de gomtrie euclidienne qui sont dvelopps dans les rappels et complments dalgbre linaire.
6. Non negative Matrix Factorisation ou NMF.
Mthodes de classification :
Rfrences
[1] P.C. Besse et A. Pousse, Extension des analyses factorielles, Modles pour
lAnalyse des Donnes Multidimensionnelles (J.J. Droesbeke et al., rds.),
Economica, 1992, p. 129158.
[2] J.M. Bouroche et G. Saporta, LAnalyse des Donnes, Que Sais-je, PUF,
1980.
[3] J.D. Jobson, Applied Multivariate Data Analysis, t. II : Categorical and
multivariate methods, Springer-Verlag, 1992.
[4] L. Lebart, A. Morineau et M. Piron, Statistique exploratoire multidimensionnelle, Dunod, 1995.
[5] K.V. Mardia, J.T. Kent et J.M. Bibby, Multivariate Analysis, Academic
Press, 1979.
[6] G. Saporta, Probabilits, Analyse des Donnes et Statistique,
deuxime d., Technip, 2006.
06/14
tion, qui sont l pour aider lutilisateur faire linterprtation la plus juste et la
plus objective possible.
Lanalyse en Composantes Principales (ACP) est un grand classique de
lanalyse des donnes en France pour ltude exploratoire ou la compression dun grand tableau n p de donnes quantitatives. Le livre de Jolliffe
(2002)[2] en dtaille tous les aspects et utilisations de faon exhaustive. Elle
est introduite ici comme lestimation des paramtres dun modle, afin de prciser la signification statistique des rsultats obtenus. LACP est illustre dans
ce chapitre travers ltude de donnes lmentaires. Elles sont constitues
des moyennes sur dix ans des tempratures moyennes mensuelles de 32 villes
franaises. La matrice initiale X est donc (32 12). Les colonnes sont lobservation diffrents instants dune mme variable ; elles sont homognes et il
est inutile de les rduire.
LACP joue dans ce cours un rle central ; cette mthode sert de fondement
thorique aux autres mthodes de statistique multidimensionnelle dites facto1 introduction
rielles qui en apparaissent comme des cas particuliers. Cette mthode est donc
tudie en dtail et aborde avec diffrents niveaux de lecture. La premire
Lorsquon tudie simultanment un nombre important de variables quantita- section prsente les grands principes de faon trs lmentaire, voire intuitive,
tives (ne serait-ce que 4 !), comment en faire un graphique global ? La difficult tandis que les suivantes explicitent les expressions matricielles des rsultats.
vient de ce que les individus tudis ne sont plus reprsents dans un plan, esDun point de vue plus mathmatique, lACP correspond lapproximapace de dimension 2, mais dans un espace de dimension plus importante (par
tion
dune matrice (n, p) par une matrice de mme dimensions mais de rang
exemple 4). Lobjectif de lAnalyse en Composantes Principales (ACP) est
q
<
p
(cf. rappels dalgbre linaire) ; q tant souvent de petite valeur 2, 3 pour
de revenir un espace de dimension rduite (par exemple 2) en dformant le
la
construction
de graphiques facilement comprhensibles.
moins possible la ralit (cf. lintroduction lmentaire lACP). Il sagit donc
dobtenir le rsum le plus pertinent possible des donnes initiales.
Cest la matrice des variances-covariances (ou celle des corrlations) qui va 2 Espaces vectoriels
permettre de raliser ce rsum pertinent, parce quon analyse essentiellement
la dispersion des donnes considres. De cette matrice, on va extraire, par 2.1 Notations
un procd mathmatique adquat, les facteurs que lon recherche, en petit
Soit p variables statistiques relles X j (j = 1, . . . , p) observes sur n indinombre. Ils vont permettre de raliser les graphiques dsirs dans cet espace vidus i (i = 1, . . . , n) affects des poids wi :
de petite dimension (le nombre de facteurs retenus), en dformant le moins
n
X
possible la configuration globale des individus selon lensemble des variables
i = 1, . . . , n : wi > 0 et
wi = 1 ;
initiales (ainsi remplaces par les facteurs).
i=1
06/14
1
..
.
i
..
.
n
X1
Xj
Xp
x11
..
.
x1i
..
.
x1n
xj1
..
.
xji
..
.
xjn
xp1
..
.
xpi
..
.
xpn
2.3
Objectifs
la reprsentation graphique des variables dans un sous-espace Fq en ex chaque variable X est associ le vecteur x contenant la j-me coplicitant au mieux les liaisons initiales entre ces variables,
lonne centre (la moyenne de la colonne est retranche toute la colonne)
0
xj
= Xej , 1n D = ej X0 D1n .simultane.
Moyenne empirique de X j :
x
= X0 D1n .
Barycentre des individus :
Matrice des donnes centres : X
= X 1n x0 .
3 Modle
0
j
cart-type de X :
j
= (xj Dxj )1/2 =
xj
D .
j k
0
Les notations sont celles du paragraphe prcdent :
Covariance de X j et X k :
xj Dxk
= P
x ,x D .
n
0 X dsigne le tableau des donnes issues de lobservation de p variables
w
(x
x)
i
i=1 i i
0
quantitatives X j sur n individus i de poids wi ,
= X DX.
E est lespace des individus muni de la base canonique et de la mtrique
hxj ,xk iD
Corrlation de X j et X k :
= cos D (xj , xk ).
kxj k kxk k
D
06/14
de matrice M,
(X, M, D) :
cq =
Z
q
X
1/2
k uk vk = Uq 1/2 Vq0 .
k=1
i=1
Aq = z + Eq .
i=1
06/14
dfinit une nouvelle variable centre C qui, tout individu i, associe la mesure
C(i) = (xi x)0 f .
cq
Z
x,
q
X
0
cq ,
1/2 uk vk = Uq 1/2 Vq0 = XP
P ROPOSITION 2. Soient p variables quantitatives centres X 1 , . . . , X p observes sur n individus de poids wi ; lACP de (X, M, D) est aussi la recherche des q combinaisons linaires normes des X j , non corrles et dont
la somme des variances soit maximale.
k=1
cq
o P
cq
E
c2
E
vect{v1 , . . . , vq },
est
zbi
Remarques
1. Les solutions sont embotes pour q = 1, . . . , p :
cov(C k , C ` )
(Xf k ) DXf ` = f k Sf `
0
= vk MSMv` = ` vk Mv` = ` k` .
C = XF = XMV = U1/2
3. Si les variables ne sont pas homognes (units de mesure diffrentes, variances disparates), elles sont pralablement rduites :
3.2
factoriels.
Graphiques
4.1
Individus
Autre dfinition
06/14
xi x, vk M = (xi x)0 Mvk = e0i XMvk = cki .
A
x
e
2
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
-8
-10
Qualits
10
20
Axe 1
La qualit globale des reprsentations est mesure par la part de dispersion explique :
Pq
cq
k
trSMP
rq =
= Pk=1
.
p
trSM
k=1 k
Remarque. La dispersion dun nuage de points unidimensionnel par rapport
sa moyenne se mesure par la variance. Dans le cas multidimensionnel, la
dispersion du nuage N par rapport son barycentre x se mesure par linertie,
gnralisation de la variance :
Ig (N ) =
n
X
2
0
2
wi kxi xkM =
X
M,D = tr (X DXM) = tr (SM).
4.1.3
Contributions
Pp
2
wi
(ck )2
wi kxi xkM
= Ppk=1 i ,
trSM
k=1 k
i=1
ik =
wi (cki )2
,
k
Pq
(cki )2
= Pk=1
.
p
k 2
k=1 (ci )
06/14
4.1.4
Individus supplmentaires
4.2.2
Qualit
Il sagit de reprsenter, par rapport aux axes principaux dune analyse, des
La qualit de la reprsentation de chaque xj est donne par le cosinus carr
individus qui nont pas particip aux calculs de ces axes. Soit s un tel vecteur, de langle quil forme avec sa projection :
il doit tre centr, ventuellement rduit, puis projet sur le sous-espace de
c j
2
Pq
j 2
h
i2
Qq x
reprsentation. Les coordonnes sont fournies par :
k=1 k (vk )
D
cq xj ) =
cos (xj , Q
=
.
P
p
2
j 2
kxj kD
k
k=1 k (vk )
0
0
v , Vq Vq0 M(s x) M = vk MVq Vq0 M(s x) = ek Vq0 M(s x).
4.2.3 Corrlations variables facteurs
Les coordonnes dun individu supplmentaire dans la base des vecteurs prinCes indicateurs aident linterprtation des axes factoriels en exprimant les
cipaux sont donc :
corrlations entre variables principales et initiales.
j k
4.2
Variables
Les graphiques obtenus permettent de reprsenter au mieux les corrla- 4.2.4 Cercle des corrlations
tions entre les variables (cosinus des angles) et, si celles-ci ne sont pas rduites,
j
e
D = 1, les x
ej sont sur la
ej = j1 xj ,
x
Dans le cas de variables rduites x
leurs variances (longueurs).
sphre unit Sn de F . Lintersection Sn F2 est un cercle centr sur lorigine
4.2.1 Projection
ej et xj sont
et de rayon 1 appel cercle des corrlations. Les projections de x
j
e tant lintrieur du cercle :
cq xj sur colinaires, celle de x
Une variable X j est reprsente par la projection D-orthogonale Q
c j
le sous-espace Fq engendr par les q premiers axes factoriels. La coordonne
c2 xj ) 1.
e
= cos (xj , Q
Q
x
2
D
de xj sur uk est :
c2 x
ej est proche de ce cercle, meilleure est la qualit de sa reprAinsi, plus Q
j k
1 j0
j0
k
k
sentation. Ce graphique est commode interprter condition de se mfier
x , u D = x Du = x DXMv
k
des chelles, le cercle devenant une ellipse si elles ne sont pas gales. Comme
p
1 j0 0
pour les individus, la taille des caractres est aussi fonction de la qualit des
k
k
= e X DXMv = k vj .
k
reprsentations.
4.3
Biplot
partir de la dcomposition en valeurs singulires de (X, M, D), on reP ROPOSITION 4. Les coordonnes de la projection D-orthogonale de xj marque que chaque valeur
sur le sous-espace Fq sont les q premiers lments de la j-me ligne de la
p
h
ij
X
p
matrice V1/2 .
xji xj =
k uki vkj = U1/2 V0
k=1
06/14
1.0
Pour q = 2, la quantit zbi j en est une approximation limite aux deux premiers
termes.
0.5
A
x
e
0.0
2
-0.5
-1.0
-1.0 -0.5 0.0
0.5
1.0
Axe 1
1.0
0.5
A
x
e
0.0
3
-0.5
5
-1.0
-1.0 -0.5 0.0
0.5
Choix de dimension
La qualit des estimations auxquelles conduit lACP dpend, de faon vidente, du choix de q, cest--dire du nombre de composantes retenues pour
reconstituer les donnes, ou encore de la dimension du sous-espace de reprsentation.
1.0
Axe 2
06/14
Dautres critres, non explicits, sinspirent des pratiques statistiques dcisionnelles ; sous lhypothse que lerreur admet une distribution gaussienne, on
peut exhiber les lois asymptotiques des valeurs propres et donc construire des
tests de nullit ou dgalit de ces dernires. Malheureusement, outre la ncessaire hypothse de normalit, ceci conduit une procdure de tests embots
dont le niveau global est incontrlable. Leur utilisation reste donc heuristique.
0
10
15
20
0
0.4
0.2
La valeur de q est choisie de sorte que cette part dinertie explique rq soit
suprieure une valeur seuil fixe a priori par lutilisateur. Cest souvent le
seul critre employ.
5.2
10
0.0
renn
roue
janv
nant
dece
ange lill
toul
fevr
stqu
ajac
nove
ango limo
orle
tour
mars
octo
pari reim
nice bord
avri tlse cler
vich
sept
perp mai
nanc
besa
juin
aout
juilmont
dijoembr
gren
mars
nime
lyon stra
0.2
Pq
k
rq = Ppk=1 .
k=1 k
10
0.4
0.2
0.0
0.2
Part dinertie
15
bres
biar
Comp.2
5.1
20
0.6
10
On considre que, si tous les lments de Y sont indpendants, les composantes principales sont toutes de variances gales (gales 1 dans le cas de
lACP rduite). On ne conserve alors que les valeurs propres suprieures leur
moyenne car seules juges plus informatives que les variables initiales ; dans
le cas dune ACP rduite, ne sont donc retenues que celles plus grandes que 1.
Ce critre, utilis implicitement par SAS/ASSIST, a tendance surestimer le
nombre de composantes pertinentes.
0.6
Comp.1
5.3
Rgle de Kaiser
boulis
06/14
PCTVAR
1.0
CC
20
0.8
10
0.6
0.4
0.2
0.0
-10
0
1
0
1
1
1
2
9 10 11 12
Diagrammes botes
5.5
5.4
Stabilit
2
cq
cq ,
cq ) = 1
Lq = Q(Eq , E
= q trPq P
Pq P
2
M,D
o Q mesure la distance entre deux sous-espaces par la distance usuelle entre
les matrices de projection qui leur sont associes. Cest aussi la somme des
carrs des coefficients de corrlation canonique entre les ensembles de composantes ou de variables principales qui engendrent respectivement Eq et son
cq .
estimation E
Un risque moyen quadratique est alors dfini en prenant lesprance de la
fonction perte :
cq ).
Rq = EQ(Eq , E
(4)
Sans hypothse sur la distribution de lerreur, seules des techniques de rchantillonnage (bootstrap, jackknife) permettent de fournir une estimation
de ce risque moyen quadratique. Leur emploi est justifi, car le risque est invariant par permutation des observations, mais coteux en temps de calcul.
06/14
10
1.5
2.0
2.5
3.0
On se pose donc la question de savoir pour quelles valeurs de q les reprsentations graphiques sont fiables, cest--dire stables pour des fluctuations de
lchantillon. Besse (1992)[1] propose dutiliser une approximation de lestimateur par jackknife ; elle fournit, directement partir des rsultats de lA.C.P.
(valeurs propres et composantes principales), une estimation satisfaisante du
risque :
2
d
\
R
).
JKq = RPq + O((n 1)
0.5
1.0
d
R
Pq est une approximation analytique de lestimateur jackknife qui a pour
expression :
Pn
q
p
j
1 X X n1 i=1 (cki )2 (ci )2
d
RPq =
(5)
n1
(j k )2
j=q+1
0.0
k=1
10
11
12
n>
kSk2
.
inf {(k k+1 ); k = 1, . . . , q}
Interprtation
Les macros SAS utilises, de mme que la plupart des logiciels, proposent,
ou autorisent, ldition des diffrents indicateurs (contributions, qualits, corrlations) et graphiques dfinis dans les paragraphes prcdents.
Les contributions permettent didentifier les individus trs influents pouvant dterminer eux seuls lorientation de certains axes ; ces points sont
vrifis, caractriss, puis ventuellement considrs comme supplmentaires dans une autre analyse.
Il faut choisir le nombre de composantes retenir, cest--dire la dimension des espaces de reprsentation.
Les axes factoriels sont interprts par rapport aux variables initiales bien
reprsentes.
Les graphiques des individus sont interprts, en tenant compte des qualits de reprsentation, en termes de regroupement ou dispersions par rapport aux axes factoriels et projections des variables initiales.
Les quelques graphiques prsents suffisent, dans la plupart des cas, linterprtation dune ACP classique et vitent la sortie volumineuse, lorsque n
est grand, des tableaux daide linterprtation (contributions, cosinus carrs). On chappe ainsi une critique frquente, et souvent justifie, des anglosaxons vis--vis de la pratique franaise de lanalyse des donnes qui, paradoxalement, cherche rsumer au mieux linformation mais produit plus de
chiffres en sortie quil ny en a en entre !
06/14
Variances
0.3
Remarque. LACP est une technique linaire optimisant un critre quadratique ; elle ne tient donc pas compte dventuelles liaisons non linaires et
prsente une forte sensibilit aux valeurs extrmes.
0.2
0.0
0.1
0.2
0.3
0.4
11
0.1
0.0
0.1
GSTpi2CYP2c29
CAR1
ACOTH
PMDCI
PECI
mHMGCoAS
GSTmu
G6Pase
SIAT4c
AOX
BIEN
SR.BI
ALDH3
VDR
Ntcp
HPNCL
THIOL
GSTa
ACBP
L.FABP
LPK
HMGCoAred
ACC2
GKcHMGCoAS
Lpin1
Lpin
0.2
CYP3A11
CYP4A10
S14
FAS
0.3
PC2
CYP4A14
0.3
0.2
0.1
0.0
0.1
0.2
0.3
PC1
06/14
12
sensiblement diffrents au regard des rgimes. Le phnomne le plus marquant est lopposition, chez ces souris WT, entre les rgimes dha (triangles
noirs), dont les coordonnes sont toutes positives, et efad (triangles rouges),
dont les coordonnes sont toutes ngatives. Les gnes les plus exprims dans
le premier cas (rgime dha chez les souris WT) sont CYP3A11, CYP4A10,
CYP4A14 ; dans le second cas (rgime efad chez les mmes souris), il sagit
des gnes FAS et S14. Parmi ces rgulations, on note une opposition entre les
CYP4A, connus pour tre impliqus dans le catabolisme des acides gras, et les
gnes FAS et S14 impliqus eux dans la synthse des lipides. Par ailleurs, la
rgulation de CYP3A11 par le DHA a dj t dcrite dans la littrature.
Rfrences
[1] P.C. Besse, PCA stability and choice of dimensionality, Statistics & Probability Letters 13 (1992), 405410.
[2] I. Jolliffe, Principal Component Analysis, 2nd edition d., Springer-Verlag,
2002.
06/14
En posant
w` =
wi ,
i`
il vient
Rsum
D = T0 DT = diag(w1 , . . . , wm ).
1
1.1
1.2
Objectifs
Introduction
Donnes
1.3
Notations
D = diag(wi ; i = 1, . . . , n).
g1 0
1 X
1
G = D T0 DX = ... o g` =
wi xi ,
La variable T engendre une partition {` ; ` = 1, . . . , m} de lensemble
w`
0
i
`
gm
des individus dont chaque lment est deffectif n` .
On note T (n m) la matrice des indicatrices des modalits de la variable
et Xe la matrice (n p) dont la ligne i est le barycentre g` de la classe `
T ; son terme gnral est
laquelle appartient lindividu i :
1 si T (i ) = T`
`
`
ti = t (i ) =
.
Xe = TG = PG ;
0 sinon
Page 43 sur 104
06/14
m X
X
wi (xi g` )(xi g` )0 ,
`=1 i`
2.2
Estimation
Se = G DG = X e DX e =
m
X
min
2
2.1
Dfinition
Eq ,z`
`=1
(m
XX
)
wi kxi
2
z` kM
; dim(Eq ) = q, z` z Eq
`=1 i`
Comme on a
m X
m
m X
X
X
X
2
2
2
wi kxi z` kM =
wi kxi g` kM +
w` kg` z` kM ,
`=1 i`
`=1 i`
`=1
Modle
`=1
La covariance 2 du modle (1) tant inconnue, il faut lestime. Ce moDans lespace des individus, le principe consiste projeter les individus
dans une direction permettant de mettre en vidence les groupes. cette fin, dle stipule que lensemble des observations dune mme classe l suit une loi
Il faut privilgier la variance interclasse au dtriment de la variance intraclasse (inconnue) de moyenne ze ll et de variance . Dans ce cas particulier, la matrice de covariances intraclasse ou matrice des covariances rsiduelles empiconsidre comme due au bruit.
riques Sr fournit donc une estimation optimale de la mtrique de rfrence :
En ACP, pour chaque effet zi estimer, on ne dispose que dune observation
b 1 = S1
xi ; dans le cas de lAFD on considre que les lments dune mme classe `
M=
r
Page 44 sur 104
06/14
Les individus initiaux sont projets comme des individus supplmentaires dans
le systme des axes discriminants. Comme en ACP, on peut calculer des cosiP ROPOSITION 2. Lestimation des paramtres Eq et z` du modle 1 est nus carrs pour prciser la qualit de reprsentation de chaque individu.
obtenue par lACP de (G, S1
r , D). Cest lAnalyse Factorielle Discriminante
Il est utile de diffrencier graphiquement la classe de chaque individu afin
(AFD) de (X|T, D) .
de pouvoir apprcier visuellement la qualit de la discrimination.
.
Ralisation de lAFD
3.3
Lespace des variables est (Rm , b. c., D). Chaque variable X j est reprsent
Les expressions matricielles dfinissant les reprsentations graphiques et les
par un vecteur dont les coordonnes dans le systme des axes factoriels est une
aides linterprtation dcoulent de celles de lACP.
ligne de la matrice V1/2 .
3.1
Matrice diagonaliser
3.4
Interprtations
LACP de (G, S1
r , D) conduit lanalyse spectrale de la matrice positive
Les interprtations usuelles : la norme est un cart-type, un cosinus dangle
1
Sr -symtrique :
est
un coefficient de corrlation, doivent tre faites en termes dcarts-types et
0
1
1
G D GSr = Se Sr .
de corrlations expliques par la partition.
Comme S1
r est rgulire, cette matrice est de mme rang que Se et donc de
La reprsentation des variables est utilise pour interprte les axes en foncmme rang que G qui est de dimension (m p). Les donnes tant centres
tion des variables initiales conjointement avec la matrice des corrlations exlors de lanalyse, le rang de la matrice diagonaliser est
1/2
pliques variablesfacteurs : 1
. La matrice 1
tant la matrice
e V
e
j
1
diagonale des carts-types expliqus e cest--dire des racines carres des
h = rang(Se Sr ) inf(m 1, p),
lments diagonaux de la matrice Se .
qui vaut en gnral m 1 cest--dire le nombre de classes moins un.
Le point pratique essentiel est de savoir si la reprsentation des individus1
h
On note 1 h > 0 les valeurs propres de Se S1
r et v , . . . , v les barycentres et des individus initiaux permet de faire une bonne discrimination
vecteurs propresS1
r -orthonorms associs. On pose
entre les classes dfinies par la variable T . Si ce nest pas le cas, lAFD ne
sert rien, les X j nexpliquent pas T . Dans le cas favorable, le graphique des
= diag(1 , . . . , h ) et V = [v1 , . . . , vh ].
individus permet dinterprter la discrimination en fonction des axes et, celui
Les vecteurs vk sont appels vecteurs discriminants et les sous-espaces vecto- des variables, les axes en fonction des variables initiales. La synthse des deux
riels de dimension 1 quils engendrent dans Rp les axes discriminants.
permet linterprtation de T selon les X j .
3.2
Variantes de lAFD
06/14
(within) et inter (between) qui sont considres dans le cas dindividus de Ainsi, les reprsentations graphiques sont identiques un facteur dchelle prs
tandis que les parts de variance explique et les corrlations variables-facteurs
mmes poids 1/n.
sont inchanges.
Dans ce cas particulier,
1
1
In et D = diag(n1 , . . . , nm ) o n` = card(` )
n
n
et les matrices de covariances empiriques ont alors pour termes gnraux :
D=
(S)kj
1X j
(x xj )(xki xk ),
n i=1 i
(Se )kj
1X
n` (g`j xj )(g`k xk ),
n
m
1XX j
(xi g`j )(xki g`k ).
n
`=1
(Sr )kj
`=1 i`
4.2
Mtrique de Mahalanobis
vecteurs propres :
V(I + )1/2 ,
S,
S par S =
n1
reprsentation des barycentres : C(I + )1/2 ,
n
Se par Se = B =
Se ,
reprsentation des variables :
V1/2 ,
m1
1/2
corrlations variables-facteurs : 1
.
n
e V
Sr .
Sr par Sr = W =
nm
Les reprsentations graphiques des individus (voir ci-dessus) ne diffrent
Les rsultats numriques de lAFD se trouvent alors modifis de la faon alors que dune homothtie et conduisent des interprtations identiques, les
suivante :
corrlations variables-facteurs ainsi que les reprsentations des variables sont
nm
1
inchanges.
matrice diagonaliser :
Se S1
=
S
S
,
r
m1 e r
valeurs propres :
= nm
,
m1
q
n
5 Exemples
vecteurs propres :
V
=
V,
q nm
nm
reprsentation des barycentres : C
=
C,
5.1 Les insectes de Lubitsch
q n
1/2
n
1/2
,
reprsentation des variables :
V
=
m1 V
Cette mthode est illustre par une comparaison des sorties graphiques is1 1/2
1
1/2
sues
dune ACP et dune AFD. Les donnes dcrivent trois classes dinsectes
corrlations variables-facteurs : e V
= e V .
Page 46 sur 104
06/14
A
x
e
2
-1
-2
-3
5
-4
-4
-3
-2
-1
Axe 1
3
2
A
x
e
0
-1
5.2
Donnes gnomiques
-2
-3
-4
-8
-7
-6
-5
-4
-3
-2
-1
Axe 1
Les donnes gnomiques pose videmment des problmes lanalyse discriminante ; le grand nombre de gnes/variables par rapport au nombre de souris/individus rend impossible linversion de la matrice des covariances intraclasses. Aussi, en saidant de la slection de variables suggre par lanalyse
en composantes principales, une analyse factorielle discriminante a t calcule sur les seules souris sauvages (WR) pour qui les rgimes apparaissaient dj
bien diffrencis sur lACP. Les variables ne sont pas reprsentes mais les
rapprochements dj voqus pour lACP sont confirms et prciss.
06/14
15
4
dha
esol
12
218
1
111013
ref8
lin 17
5
7
14 20
tournesol
19
efad
16
Dim 2 (15.55 %)
Dim 1 (44.91 %)
F IGURE 3 Souris : Les souris de gnotype WT dans le premier plan factoriel de lAFD calcule avec une slection de variables dexpression de gnes
conditionnellement au rgime.
06/14
x1
..
.
x`
..
.
xr
sommes
Rsum
Mthode factorielle de rduction de dimension pour lexploration
statistique dune table de contingence dfinie par deux variables
qualitatives. Dfinition partir de lanalyse en composantes principales des profils. Dfinition du modle statistique associ, estimation. Reprsentation graphique simultane des modalits des variables.
1
1.1
yh
n1h
..
.
n`h
..
.
nrh
n+h
yc
n1c
..
.
n`c
..
.
nrc
n+c
sommes
n1+
..
.
n`+
..
.
nr+
n
y1
n11
..
.
n`1
..
.
nr1
n+1
= [f1+ , . . . , fr+ ]0 ,
= [f+1 , . . . , f+c ]0 .
Introduction
= diag(f1+ , . . . , fr+ ),
= diag(f+1 , . . . , f+c ).
Donnes
06/14
1.3
1
TD1
c .
n
2 =
n`+ n+h 2
n
;
n`+ n+h
n
c
r X
X
n`h
D FINITION 1. On dit que deux variables X et Y sont non lies relative`=1 h=1
ment T si et seulement si :
elle suit asymptotiquement (pour les grandes valeurs de n), et si lhypothse
n`+ n+h
(`, h) {1, . . . , r} {1, . . . , c} : n`h =
.
H0 est vraie, une loi de 2 (r1)(c1) degrs de libert. On rejette donc H0
n
(et lon conclut au caractre significatif de la liaison) si 2 dpasse une valeur
Il est quivalent de dire que tous les profils-lignes sont gaux, ou encore que particulire (valeur ayant une probabilit faible et fixe a priori en gnral
0,05 tre dpasse par une loi de 2 (r 1)(c 1) degrs de libert).
tous les profils-colonnes sont gaux.
Cette notion est cohrente avec celle dindpendance en probabilits. En
effet, soit = {1, . . . , n} lensemble des individus observs et (, P(), P )
lespace probabilis associ o P est lquiprobabilit ; MX = {x1 , . . . , xr }
et MY = {y1 , . . . , yc } dsignent les ensembles de modalits, ou valeurs prises
e et Ye les variables alatoires associes aux
par les variables X et Y . On note X
2 variables statistiques X et Y :
1.4
Objectifs
Pour prciser la liaison existant entre les variables X et Y , on souhaite dfinir un modle statistique susceptible de fournir des paramtres dont la reprsentation graphique (de type biplot) illustrera les correspondances entre les
modalits de ces 2 variables. Cette approche sera dveloppe au paragraphe 3.
Double ACP
06/14
2.1
Mtriques du Chi2
Cr = A0 D1
c V.
06/14
montre quil suffit de raliser une seule analyse, car les rsultats de lautre sen 3.2 Le modle dassociation
dduisent simplement :
Il est encore appel RC-modle, ou modle de Goodman :
!
q
X
V = AU1/2 ,
p`h = .` .h .exp
k .`k .hk .
k=1
U = BV1/2 ;
Ce modle, muni des contraintes ncessaires, permet de structurer les interac est la matrice diagonale des valeurs propres (excepte 0 = 0) communes
tions et de faire des reprsentations graphiques des lignes et des colonnes de
aux deux ACP
T au moyen des paramtres k et hk . Ces paramtres peuvent tre estims
par maximum de vraisemblance ou par moindres carrs.
1/2
1/2
1/2
0 1
0 1
1
1
Cc = B Dr U = B Dr BV
= Dc ABV
= Dc V ,
Cr
3.3
1/2
1
= A0 D1
.
c V = Dr U
Le modle de corrlation
On crit ici :
1/2
= B Cr
,
1/2
0
= A Cc
.
k uk` vhk ,
(1)
k=1
La reprsentation simultane habituellement construite partir de ces matrices (option par dfaut de SAS) nest pas a priori justifie. On lui donnera un
sens dans les paragraphes suivants.
q
X
p
uk` =
`=1
0
c
X
vhk
0,
h=1
0
j
k
1 j
uk D1
r u = v Dc v
= kj .
On crit dabord que chaque frquence f`h de T correspond lobservation
dune probabilit thorique p`h ; on modlise donc la table de contingence par Remarque. :
cette distribution de probabilits. On prcise ensuite le modle en explicitant
1. Le modle (1) ci-dessus est quivalent au modle considr par Goodlcriture de p`h . Diffrents modles classiques peuvent tre considrs.
man :
!
3.1 Le modle loglinaire
q
X
p
k k
k ` h ,
(2)
p`h = p`+ p+h 1 +
Il consiste crire :
k=1
ln(p`h ) = + ` + h + `h
avec des contraintes le rendant identifiable. Ce modle, trs classique, est dvelopp par ailleurs.
06/14
3. Le modle suppose que cet cart se dcompose dans un sousespace de associs aux valeurs propres k .
dimension q < min(c 1, r 1).
De plus, le vecteur gr = u0 (resp. gc = v0 ) est vecteur propre D1
r norm (resp.
4. Les estimations des paramtres p`+ , p+h , k , uk , vk peuvent tre rali- D1
c norm) de la matrice BA (resp. AB) associ la valeur propre 0 = 1. Enfin,
2
ses par maximum de vraisemblance 1 ou par moindres carrs. Dans le les matrices AB et BA sont stochastiques et donc les valeurs propres vrifient :
contexte de la statistique descriptive, qui est celui de ce cours, il est natu1 = 0 1 q > 0.
rel de retenir cette dernire solution.
3.4
3.4.1
k=1
(3)
Reprsentations graphiques
4.1
Estimation
1 h
t` =
n
Biplot
min(r1,c1)
k=0
uk` vhk
.
f`+ f+h
min(r1,c1)
uk` 1/4
v k 1/4
k et h k ,
f`+
f+h
p
k uk` vhk ,
k=0
1
o les vecteurs u (resp. v ) sont vecteurs propres D1
r orthonorms (resp. Dc
orthonorms) de la matrice
1
1 0 1
1
1
TD1
T Dr = BA (resp. T0 D1
TD1
= AB),
c
r
c
n
n
n
n
k
et les proprits dorthonormalit des vecteurs propres assurent que les contraintes du
modle sont vrifies.
1. On suppose alors que les n p`h sont les paramtres de lois de Poisson indpendantes
conditionnellement leur somme qui est fixe et gale n.
2. Matrice relle, carre, termes positifs, dont la somme des termes de chaque ligne (ou
chaque colonne) vaut 1.
06/14
qui sont encore les estimations des vecteurs ` et h du modle 2. Leur reprsentation (par exemple avec q = 2) illustre alors la correspondance entre les
deux modalits x` et yh : lorsque deux modalits, loignes de lorigine, sont
voisines (resp. opposes), leur produit scalaire est de valeur absolue importante ; leur cellule conjointe contribue alors fortement et de manire positive
(resp. ngative) la dpendance entre les deux variables.
1
D1
r U et Dc V.
4.5
Aides linterprtation
4.3
Reprsentations barycentriques
1/2
D1
et D1
r U
c V,
4.5.1
et
1/2
D1
.
c V
06/14
Exemple
Lexemple des donnes bancaires ainsi que les donnes dexpression gnomique se prte mal lillustration dune analyse des correspondances, aucun
couple de variable qualitative ne conduit des reprsentations intressantes.
nk
.
2
4.5.3
6.1
Proprits
q
X
p
k uk` vhk .
k=1
Complments
Remarque
k = 2 .
k=1
En gnral, on ninterprte pas les axes dune AFC (en particulier parce
quil ny a pas de variable quantitative intervenant dans lanalyse). Linterprtation sappuie surtout sur la position relative des diffrentes modalits repres comme les plus importantes.
trAB =
d
X
k=0
k = 1 +
2
= 1 + 2 ;
n
do le rsultat.
06/14
6.2
Invariance
(vident).
Proprit dquivalence distributionnelle : si deux lignes de T, ` et i,
0.4
6.3
0.3
SINF1
h.g.
A
x
e
0.1
Le choix de la dimension pose les mmes problmes quen ACP De nombreuses techniques empiriques ont t proposes (essentiellement : part dinertie explique, boulis des valeurs propres). Il existe galement une approche
probabiliste qui peut donner des indications intressantes. Nous la dtaillons
cidessous.
S1_5
arie
0.2
Choix de la dimension
S_100
S50_99
Posons
gers
0.0
q
d
n
`h = nf`+ f+h + n
h.p.
q
X
p
k uk` vhk ,
k=1
S20_50
t.g.
S10_20
lot
tarn
-0.1
aver
S5_10
-0.2
-0.5
-0.3
-0.1
0.1
Axe
0.3
1
0.5
0.7
estimation dordre q de leffectif conjoint de la cellule (`, h). Alors, sous certaines conditions (chantillonnage, n grand, modle multinomial . . . ), on peut
montrer que
r X
c
d
q 2
d
X
X
(n`h n
`h )
'n
k
Kq =
q
d
n
`=1 h=1
`h
k=q+1
2
F IGURE 1 Rpartition des exploitations agricoles par taille et par dparte- suit approximativement une loi de (r q 1)(c q 1) degrs de libert.
On peut donc retenir pour valeur de q la plus petite dimension pour laquelle
ment. Premier plan de lAFC.
Kq est infrieure la valeur limite de cette loi. Le choix q = 0 correspond
la situation o les variables sont proche de lindpendance en probabilits ;
les frquences conjointes sont alors bien approches par les produits des frquences marginales.
06/14
1
p
Considrons maintenant p variables
Pp qualitatives X , . . . , X . On note cj le
j
nombre de modalits de X , c = j=1 cj et Xj la matrice des indicatrices de
Xj.
Rsum
Mthode factorielle de rduction de dimension pour lexploration
statistique de donnes qualitatives complexes. Cette mthode est une
gnralisation de lAnalyse Factorielle des Correspondances, permettant de dcrire les relations entre p (p > 2) variables qualitatives
simultanment observes sur n individus. Elle est aussi souvent utilise pour la construction de scores comme pralable une mthode
de classification (kmeans) ncessitant des donnes quantitatives.
Travaux pratiques de complexit croissante par ltudes de donnes
lmentaires, puis pidmiologiques avec interactions.
Retour au plan du cours.
1
1.1
X = [X1 | |Xp ].
X vrifie :
c
X
xki = p, i et
k=1
n X
c
X
xki = np.
i=1 k=1
Dautre part, la somme des lments dune colonne de X est gale leffectif
marginal de la modalit de la variable X j correspondant cette colonne.
1.2
Tableau de Burt
B = X0 X.
1.3
c
X
k=1
xki = 1, i et
n
X
i=1
xki = nk .
La gnralisation de lAFC plusieurs variables qualitatives repose sur certaines proprits observes dans le cas lmentaire o p = 2. On sintresse
Page 57 sur 104
06/14
tout dabord aux rsultats fournis par lAFC usuelle ralise sur le tableau dis- en AFC classique.
jonctif complet X = [X1 |X2 ] relatif 2 variables qualitatives X 1 et X 2 ; X
est alors considr comme une table de contingence (paragraphe 2). Ensuite, P ROPOSITION 1. LACP des profilslignes issue de lAFC ralise sur le
on suit la mme dmarche avec lAFC ralise sur le tableau de Burt B rela- tableau disjonctif complet associ 2 variables qualitatives conduit lanatif X 1 et X 2 (paragraphe 3). Enfin, en utilisant les proprits obtenues dans lyse spectrale de la matrice D1
c symtrique et positive :
les deux premiers cas, on gnralise cette double approche un nombre quel
1 Ir B
conque p de variables qualitatives ; on dfinit ainsi lAnalyse Factorielle des
AB =
.
2 A Ic
Correspondances Multiples (paragraphe 4).
2
2.1
1 k
k =
,
2
T = X = [X1 |X2 ] ;
1
In ;
Dr =
n
1 Dr 0
1
Dc =
= ;
0 Dc
2
2
1 0 1
1 0
A =
T Dr = X ;
2n
2
1
1
1
B =
T Dc = X1 .
2n
n
1
[X1 Cr + X2 Cc ] 1/2 ,
2
On considre ici lAFC comme une double ACP : celle des profilslignes
A, puis celle des profilscolonnes B.
06/14
Les autres valeurs propres non nulles sont dues lartifice de construction de 2 modalits quil a prsentes. Dans le cas o n est grand, le graphique des
individus a nanmoins peu dintrt ; seule sa forme gnrale peut en avoir un.
la matrice diagonaliser ; elles nont donc pas de signification statistique.
On notera que la matrice Cr , n d, fournit les coordonnes permettant la Remarque. Si, dans lAFC classique, on choisit dutiliser, pour la reprsentation simultane des modalits de X 1 et de X 2 , les lignes des matrices
reprsentation graphique des individus sur les axes factoriels.
2.3
1/2
1/2
Cr = D1
et Cc = D1
r U = Cr
c V = Cc
Les profilscolonnes sont associs aux r + c modalits des variables. Leur (voir chapitre prcdent, soussection 4.4), alors on obtient par AFC du tableau
ACP conduit donc une reprsentation graphique de ces modalits dont on disjonctif complet la matrice
verra quelle est trs voisine de celle fournie par une AFC classique.
Cr
1/2
Cc = Cc M
=
;
Cc
P ROPOSITION 2. LACP des profilscolonnes issue de lAFC ralise sur le
tableau disjonctif complet associ 2 variables conduit lanalyse spectrale il y a invariance de la reprsentation des modalits lorsque lon passe dune
1
de la matrice Dr symtrique et positive :
mthode lautre. Pour les individus, on obtient
BA =
1
0
1 0
X1 D1
r X1 + X2 D c X2 .
2n
Cr =
1
[X1 Cr + X2 Cc ] M1/2
2
1+ k
2k ,
Dans cette section, on sintresse aux rsultats fournis par lAFC ralise
sur le tableau de Burt B = X0 X, (r + c) (r + c), relatif aux 2 variables X 1
et X 2 ; B est encore considr comme une table de contingence. La matrice B
tant symtrique, les profilslignes et les profilscolonnes sont identiques ; il
suffit donc de considrer une seule ACP
De plus, cette approche permet aussi de raliser une reprsentation graphique des individus avec les coordonnes contenues dans les lignes de la matrice Cr . un facteur prs, chaque individu apparat comme le barycentre des
Page 59 sur 104
nDr
T
;
T0 nDc
1
fr = D
fc = 1 Dr 0
= = Dc ;
D
0 Dc
2
2
1
Ir B
e = B
e =
A
= A B.
2 A Ic
e = B=
T
06/14
e (ou des
On considre encore lAFC comme lACP des profilslignes A
e
profilscolonnes B).
Dans les deux cas dAFC considrs dans ce chapitre (sur tableau dis-
fc orthonorms
Elle admet pour matrice de vecteurs propres D
e =V
e =V= 1 U .
U
2 V
4.1
Dfinition
f (= C
f ) = C
fr M1 = C =
C
r
c
c
Cr
Cc
.
Ainsi, si lon utilise ce mode de reprsentation graphique, les trois ap- 4.2 AFC du tableau disjonctif complet
proches de lAFC que nous avons prsentes conduisent la mme reprsentation simultane des modalits des 2 variables : il y a donc invariance
Comme dans le cas p = 2, on reprend les notations de lAFC classique en
de cette reprsentation.
les surlignant. On obtient ainsi :
Page 60 sur 104
06/14
T = X;
1
Dr =
In ;
n
1
;
Dc =
p
1 0
A =
X ;
p
1
B =
X1 .
n
BA =
1
1 X
0
X1 X0 =
Xj D1
j Xj .
np
np j=1
1
1
B1 .
np
Cc = p1 VM1/2 ;
1
La matrice des vecteurs propres Dc orthonorms associs se dcompose elle se dcompose en blocs sous la forme :
Cc = ... .
V1
Cp
V = ... ;
Vp
chaque bloc Vj est de dimension cj m.
La matrice des composantes principales scrit :
Cr =
p
X
j=1
Xj D1
j Vj .
4.3
06/14
En utilisant encore le tilde dans ce cas, les matrices usuelles de lAFC deviennent :
e = B;
T
fc = 1 = Dc ;
= D
p
1
e = B
e =
A
B1 = A B.
np
fr
D
B0
D0
A0
[T01 | . . . |T0p ] ;
1
diag (n01 , . . . , n0c0 ) ;
n
1 1
D B0 .
np 0
C1
. 1/2
fr = C
fc = Cc M1/2 =
C
.. M .
Cp
fr fournit les coordonnes permettant la reprsentation simultaLa matrice C
ne des modalits de toutes les variables (on ne peut pas faire de reprsentation
des individus si lon fait lAFC du tableau de Burt).
4.4
Variables illustratives
dalits des diffrentes variables, comme en AFC, en privilgiant les modalits suffisamment loignes du centre du graphique (attention aux modalits faible effectif !) ;
les rapports de valeurs propres ne sont pas interprtables comme indicateurs de qualit globale ; on peut nanmoins regarder la dcroissance des
premires valeurs propres pour choisir la dimension ;
les coefficients de qualit de chaque modalit ne peuvent pas tre interprts ; seules les contributions des modalits linertie selon les axes sont
interprtes, selon le mme principe quen AFC
Soit X 0 une variable qualitative, c0 modalits, observe sur les mmes n 5 Exemple
individus que les X j et ntant pas intervenue dans lAFCM Soit T0j la table
de contingence c0 cj croisant les variables X 0 en lignes et X j en colonnes.
LAFCM ne donne pas de rsultats trs intressants sur les donnes banLobjectif est maintenant de reprsenter les modalits de cette variable sup- caires lexception du graphe prsent dans le chapitre dintroduction qui est
plmentaire X 0 dans le graphique de lAFCM ralise sur X 1 , . . . , X p . Pour relativement plus sophistiqu car il fait pralablement appel une classification. Il en est de mme pour les donnes dexpression qui sont quantitatives.
cela, on considre les matrices :
Page 62 sur 104
06/14
Centre
Tokyo
ge
< 50
50 69
> 70
Boston
< 50
50 69
> 70
Glamorgan
< 50
50 69
> 70
Survie
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
Histologie
Inflam. minime
Grande inflam.
Maligne Bnigne Maligne Bnigne
9
7
4
3
26
68
25
9
9
9
11
2
20
46
18
5
2
3
1
0
1
6
5
1
6
7
6
0
11
24
4
0
8
20
3
2
18
58
10
3
9
18
3
0
15
26
1
1
16
7
3
0
16
20
8
1
14
12
3
0
27
39
10
4
3
7
3
0
12
11
4
1
vie de ces patientes, trois ans aprs le diagnostic. En plus de cette information,
quatre autres variables sont connues pour chacune des patientes :
le centre de diagnostic,
la tranche dge,
le degr dinflammation chronique,
lapparence relative (bnigne ou maligne).
Lobjectif de cette tude est une analyse descriptive de cette table en cherchant mettre en vidence les facteurs de dcs.
5.2
Analyse brute
5.3
Pour essayer de mettre en vidence dventuelles interactions entre variables, les donnes sont reconsidres de la faon suivante :
les variables centre et ge sont croises, pour construire une variable
c_x_ge, 9 modalits ;
les variables inflam et appar sont galement croises pour dfinir la
En revanche, lAFCM est trs indique et trs utilise dans des enqutes de
nature pidmiologique.
5.1
Les donnes
La littrature anglo-amricaine prsente souvent des donnes relatives plusieurs variables qualitatives sous la forme dune table de contingence complte
(5). Cest le cas de lexemple cidessous qui dcrit les rsultats partiels dune
enqute ralise dans trois centres hospitaliers (Boston, Glamorgan, Tokyo)
sur des patientes atteintes dun cancer du sein. On se propose dtudier la surPage 63 sur 104
06/14
A
x
e
2
1.0
A>70
0.9
0.8
0.7
0.6
0.5
0.4
0.3
Cbos
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
-0.6
-0.7
-1
2
Snon
X TH>g7- m
Igra
Igra
Tmal
XT>-
Cgla
Hg-b
Tmal
XG<5
XG>7
C g l aH pS -n mo n
Ctok
A
x
e
XT<5
0
A<50
S o u iA > - <
A>-<
X GX>B-< 5
A>70
Ipet
Tben
Hp-b
Ipet
Cbos
-1
XB>-
Soui
XB>7
A<50
Tben
Ctok
-2
0
Axe 1
-2
-1
Axe 1
06/14
Introduction
Notons tout de suite quil nest pas trs courant de reprsenter les individus
donne galement lanalyse factorielle des correspondances lorsque chacun des
deux groupes est remplac par les indicatrices dune variable qualitative. Si- en A.C. Toutefois, compte tenu des particularits de lexemple considr ici
gnalons galement quil existe certaines gnralisations de lA.C. plus de (petit nombre dobservations et structuration de ces observations selon les facPage 65 sur 104
06/14
teurs gnotype et rgime), nous raliserons ces graphiques et nous verrons 2.3 Principe gnral de la mthode
quel est leur intrt.
Chaque variable de chacun des deux groupes (les 10 gnes et les 11 acides
gras) sont mesures sur les n individus (n = 40). On peut donc associer
2.2 Notations
chacune un ensemble de 40 valeurs, autrement dit un vecteur de R40 (espace
Dans toute la suite de ce chapitre, on notera n le nombre dindividus consi- vectoriel que lon a pralablement muni dune base adquate et dune mtrique
drs (autrement dit, la taille de lchantillon observ, ici 40), p le nombre de approprie). Cest dans cet espace (R40 ) que lon peut dfinir la mthode :
variables (quantitatives) du premier groupe (les gnes) et q le nombre de va- elle consiste rechercher le couple de vecteurs, lun li aux gnes, lautres
riables (galement quantitatives) du second groupe (les acides gras). On dsi- aux acides, les plus corrls possible. Ensuite, on recommence en cherchant
gnera par X la matrice, de dimension np, contenant les observations relatives un second couple de vecteurs non corrls aux vecteurs du premier et le plus
au premier groupe de variables et par Y la matrice, de dimension n q, conte- corrls entre eux, et ainsi de suite. La dmarche est donc similaire celle
nant celles relatives au second groupe. La j-ime colonne de X (j = 1, . . . , p) utilise en A.C.P. ou en analyse factorielle discriminante. La reprsentation
contient donc les observations xji de la j-ime variable du premier groupe (no- graphique des variables se fait soit par rapport aux vecteurs lis aux gnes,
te X j , il sagit de lexpression du j-ime gne retenu) sur les n individus soit par rapport ceux lis aux acides (en gnral, les deux sont quivalentes,
considrs (i = 1, . . . , n). De mme, la k-ime colonne de Y (k = 1, . . . , q) au moins pour ce qui est de leur interprtation). Ces vecteurs, obtenus dans
contient les observations yik de la k-ime variable du second groupe (note Y k , chaque espace associ chacun des deux groupes de variables, sont analogues
il sagit du pourcentage relatif au k-ime acide gras retenu).
aux facteurs de lA.C.P. et sont ici appels variables canoniques. Comme en
En A.C., il est ncessaire davoir p n, q n, X de rang p et Y de rang A.C.P., on peut tracer le cercle des corrlations sur le graphique des variables,
q. Par consquent, dans lexemple considr, il a t ncessaire de faire une ce qui en facilite linterprtation (dont le principe est le mme que pour le
slection des gnes et de ne retenir que les plus importants (ceux dont le rle graphique des variables en A.C.P.). Des considrations techniques permettent
prpondrant a pralablement t mis en vidence au moyen des techniques de faire galement un graphique pour les individus.
exploratoires). Bien que ce ne soit pas impos par la thorie, nous avons galeAppelons d le nombre de couples de variables canoniques jugs intressants,
ment fait, pour tre cohrents, une slection des acides gras. Finalement, nous autrement dit la dimension retenue pour les reprsentations graphiques. On a
avons slectionn 10 gnes et 11 acides gras hpatiques.
ncessairement 1 d p, et on choisit en gnral d entre 2 et 4. Nous noterons (V s , W s ) (s = 1, . . . , d) les couples de variables canoniques retenus ; on
Les gnes sont les suivants :
posera
s = Cor(V s , W s ) et on appellera corrlations canoniques les coeffiPMDCI THIOL CYP3A11 CYP4A10 CYP4A14 Lpin Lpin1 GSTmu GSTpi2
S14.
cients s qui sont, par construction, dcroissants.
Les acides gras sont les suivants :
C16_0 C18_0 C18_1n_7 C18_1n_9 C18_2n_6 C18_3n_3
Approche mathmatique
06/14
3.1
En fait, cest surtout lespace F que nous considrerons par la suite, la dfi- Remarque. Si ncessaire, on peut complter le systme des variables W s
nition de lA.C. y tant plus naturelle.
(s = 1, . . . , p) pour obtenir une base orthonorme de FY dans laquelle les
dernires
variables W s (s = p + 1, . . . , q) sont associes des coefficients de
3.2 Retour sur le principe de la mthode
corrlation canonique nuls (s = 0, pour s = p + 1, . . . , q).
Le principe gnral de lA.C. est dcrit ci-dessous, dans lespace des va3.3 Proprit
riables F .
Dans un premier temps, on cherche un couple de variables (V 1 , W 1 ), V 1
La proprit donne ici permet, dans la pratique, de dterminer les variables
tant une combinaison linaire des variables X j (donc un lment de FX ), canoniques V s et W s en utilisant un algorithme standard de recherche des
norme, et W 1 une combinaison linaire des variables Y k (donc un lment vecteurs propres dune matrice.
de FY ), norme, telles que V 1 et W 1 soient le plus corrles possible.
Page 67 sur 104
06/14
Dans la mesure o le graphique ainsi obtenu est bon (sur ce point, voir
plus loin), on peut lutiliser pour interprter les relations (proximits, oppositions, loignements) entre les deux ensembles de variables. Par construction,
ce graphique reprsente les corrlations entre les variables canoniques V s et
les variables initiales X j et Y k , corrlations la base de son interprtation. On
peut aussi conforter cette interprtation en utilisant les coefficients de corrlation linaire entre variables X j , entre variables Y k , et entre variables X j et
Y k . Tous ces coefficients sont en gnral fournis par les logiciels.
3.4
De faon symtrique, on restreint le systme (w1 , . . . , wp ) de FY aux preComme en A.C.P., les reprsentations graphiques des rsultats dune A.C. se
1
d
auxquelles on reprsente aussi bien
font en dimension rduite (souvent 2 ou 3). Nous noterons d cette dimension, mires variables (w , . . .j , w ), par rapport
k
les
variables
initiales
X
que
les
Y
,
selon
le mme principe que celui dcrit
avec : 1 d p. Plusieurs reprsentations sont envisageables, la fois pour
ci-dessus
(les
coordonnes
sont
les
corrlations).
les variables et pour les individus.
L encore, dans la mesure o ce graphique est bon, il permet dinterprter
Reprsentation des variables dans le sous-espace FX
les relations entre les deux ensembles de variables.
Dsignons par v s et ws les vecteurs de FX et FY respectivement associs
Les deux graphiques (dans FX et dans FY ) ayant la mme qualit et conduiaux variables canoniques V s et W s .
sant aux mmes interprtations, un seul suffit pour interprter les rsultats
Dans FX , on considre la base orthonorme (v 1 , . . . , v p ) que lon restreint dune analyse.
(v 1 , . . . , v d ) pour les reprsentations graphiques.
Reprsentation des individus
On peut tout dabord reprsenter chacune des variables initiales X j au
moyen de ses coordonnes sur les v s . Ces coordonnes sobtiennent en calculant les produits scalaires < xj , v s >, j = 1, . . . , p, s = 1, . . . , d. Les
variables X j tant centres et rduites, les vecteurs xj sont centrs et norms
(et il en va de mme pour les vecteurs v s ), de sorte que ces produits scalaires
sont gaux aux corrlations entre variables initiales X j et variables canonique
V s (au coefficient n prs, puisquon a considr la mtrique identit).
Dans chacun des espaces relatifs aux individus (EX et EY ), il est encore
possible de faire une reprsentation graphique de ces individus en dimension
d, ces deux reprsentations graphiques tant comparables (dautant plus comparables que les corrlations canoniques sont leves).
En fait, on peut vrifier que les coordonnes des individus sur les axes canoniques pour ces deux reprsentations sont respectivement donnes par les
06/14
gression multivarie
06/14
n
En interprtant ces pourcentages comme la part dinertie globale du nuage
(dans lcriture ci-dessus, P
X dsigne, dans R , le projecteur orthogonal sur
le sous-espace supplmentaire orthogonal FX dans Rn ; on sait que ce pro- des individus restitue par les diffrents axes canoniques (ce quelles sont, par
exemple, en analyse factorielle discriminante), ces quantits facilitent le choix
jecteur scrit : P
X = In PX ).
de la dimension d retenue pour les graphiques et les interprtations.
4.3
4.4
Tests
Il existe plusieurs tests de significativit du modle de rgression multivarie, en gnral quivalents (au moins au niveau des dcisions quils entranent). Ces tests sont les gnralisations classiques du test de Fisher au cas
multivari (on les retrouve, par exemple, en analyse de variance multivarie)
et sont des tests asymptotiques. Le logiciel SAS fournit les trois premiers cidessous, mais pas le quatrime. Il fournit galement le test de Roy, bas sur la
1
plus grande valeurs propre de la matrice HE1 , soit
, mais ce test est
1 1
dconseiller.
Le test de Wilks, adaptation du test du rapport des vraisemblances, est
soit encore du produit H(H + E) , les valeurs propres de ces deux matrices
se dduisant les unes des autres. Dveloppons le second produit matriciel :
p
Y
(1 s ) =
s=1
p
Y
(1 2s ).
s=1
H + E = Y0 PX Y + Y0 (In PX )Y = Y0 Y;
1
Z = trace H(H + E)
do :
1
H(H + E)
= Y PX Y(Y Y)
p
X
s .
s=1
T 2 = trace HE1 =
p
X
s=1
s
.
1 s
p
Y
1
K = [(n 1) (p + q + 1)] ln
(1 s ).
2
s=1
06/14
THIOL
CYP3A11
CYP4A10
CYP4A14
Lpin
Lpin1
GSTmu
GSTpi2
S14
40
40
40
40
40
40
40
40
40
-0.4110
-0.5083
-0.9798
-0.9930
-0.7533
-0.7648
-0.1190
0.2298
-0.8068
0.2125
0.2556
0.2237
0.2460
0.1735
0.1638
0.1504
0.1422
0.2008
-0.90
-1.02
-1.33
-1.29
-1.13
-1.10
-0.44
0
-1.05
-0.03
0.06
-0.48
-0.15
-0.48
-0.49
0.23
0.55
-0.25
s=1 s
s=k+1
Variable
N
Mean Std Dev Minimum Maximum
-----------------------------------------------------C16_0
40
23.03
3.57
14.65
29.72
C18_0
40
6.75
2.64
1.68
10.97
C18_1n_7
40
4.43
3.38
1.53
15.03
C18_1n_9
40
25.27
7.34
14.69
41.23
C18_2n_6
40
15.28
8.76
2.31
40.02
C18_3n_3
40
2.89
5.83
0
21.62
C20_4n_6
40
5.28
4.46
0.75
15.76
C20_5n_3
40
1.79
2.59
0
9.48
C22_5n_3
40
0.87
0.86
0
2.58
C22_5n_6
40
0.44
0.66
0
2.52
C22_6n_3
40
5.91
5.33
0.28
17.35
Remarque. Les valeurs ci-dessus sont relatives aux variables brutes (aux
donnes initiales). Comme indiqu dans la remarque 3, ces variables ont ensuite t centres et rduites avant la ralisation de lA.C.
5.2
Analyse canonique
06/14
nexe C.
Ensuite sont donnes les corrlations canoniques reproduites ci-dessous.
1
2
3
4
5
6
7
8
9
10
Canonical Correlation
1
0.96
2
0.93
3
0.91
4
0.86
5
0.79
6
0.72
7
0.61
8
0.41
9
0.25
10
0.04
Pr > F
<.0001
<.0001
<.0001
0.0001
0.0090
0.1087
0.4795
0.8636
0.9380
0.9750
Dans un premier temps, nous avons ralis le graphique des individus (les
40 souris) relativement aux deux premiers axes canoniques de lespace des
gnes EX (Fig. 1). En gnral, dans une A.C., ce graphique sert seulement
contrler lhomognit de lensemble des individus (absence dindividus
Remarque. Les valeurs propres de la matrice HE1 et les pourcentages atypiques par exemple). Ici, dans la mesure o les individus proviennent dun
plan dexpriences deux facteurs croiss (le gnotype et le rgime), il est
dinertie restitus par les diffrentes dimensions sont les suivants :
intressant de regarder si lon retrouve la structure de ce plan. On notera que
Eigenvalues of Inv(E)*H
cela est trs net en ce qui concerne le gnotype et encore assez net pour ce
= CanRsq/(1-CanRsq)
qui est du rgime (en fait, la slection des gnes a t ralise de telle sorte
Eigenvalue
Difference
Proportion
Cumulative
1
12.7583
6.1471
0.4167
0.4167
que ceux retenus soient le plus structurant possible pour ces deux facteurs ; le
2
6.6111
1.7001
0.2159
0.6326
rsultat, sil est rassurant, na donc rien dextraordinaire).
3
4.9111
2.1433
0.1604
0.7930
4
5
6
7
8
9
10
2.7678
1.6571
1.0679
0.5802
0.2010
0.0641
0.0018
1.1107
0.5892
0.4877
0.3792
0.1369
0.0623
0.0904
0.0541
0.0349
0.0189
0.0066
0.0021
0.0001
0.8833
0.9375
0.9723
0.9913
0.9978
0.9999
1.0000
Signalons pour terminer quon a galement ralis le graphique des individus relativement aux deux premiers axes de lautre espace (espace des acides
gras, EY ) et quil est trs semblable celui-ci.
Graphique des variables
06/14
0.8
5
5
5
0.7
0.6
0.5
3
3
5
2
0.4
Dimension 2
Certaines associations entre gnes et acides gras, en particulier celles correspondant des points loigns de lorigine, sont intressantes noter. Ainsi
peut-on observer que la sparation des gnotypes est principalement lie dune
part laccumulation prfrentielle de lacide gras C18_2n_6 chez les souris
PPAR, au dtriment de C16_0, de C18_0 et des acides gras longs polyinsaturs C20_5n_3 et C22_6n_3 (les omga 3), dautre part la plus forte expression des gnes THIOL, PMDCI, CYP3A11 et GSTpi2 chez les souris WT
par rapport aux souris PPAR. On peut galement noter les proximits entre le
C16_0 et le gne THIOL, ainsi que les proximits entre CYP3A11 et GSTpi2
et les acides gras C18_0 et C22_6n_3. Par ailleurs, lopposition entre le rgime 2-efad et les rgimes 1-dha et 3-lin est lie, sous rgime efad,
laccumulation dacides gras monoinsaturs (C18_1n_9 et C18_1n_7) chez
les souris des deux gnotypes (mais plus marque chez les souris PPAR), accompagne de la sur-expression du gne S14 presque exclusivement chez les
souris WT. Sous rgime riche en Omga 3 (1-dha et 3-lin), on observe une
accumulation prfrentielle des acides gras C20_5n_3 (surtout pour le rgime lin), C22_6n_3 (surtout pour le rgime dha) et C18_0 accompagne
de rgulations positives des gnes GSTpi2, CYP3A11 et des CYP4A qui, cependant, se rvlent moins marques, voire absentes, chez les souris PPAR.
Enfin, remarquons que la position particulire du rgime 5-tsol chez les
souris PPAR est lie laccumulation extrmement marque de C18_2n_6
dans le foie de ces souris sous le rgime tsol (sous ce rgime, la proportion
de C18_2n_6 est presque deux fois plus importante chez les souris PPAR que
chez les souris WT), soulignant ainsi le rle primordial de PPAR dans la prise
en charge de cet acide gras, que ce soit pour sa dgradation ou pour son utilisation pour la biosynthse des acides gras longs polyinsaturs de la famille
Omga 6.
13
0.3
1
4
3
3
4
0.2
4
4
0.1
0.0
0.1
0.2
0.3
0.4
0.5
Dimension 1
06/14
0.5
1.0
10
C18.2n.6
C22.5n.6
0.0
S14
GSTmu
C20.4n.6
Lpin
Lpin1
C18.3n.3
C22.5n.3
C20.5n.3
CYP4A14
C22.6n.3
CYP4A10
GSTpi2
C16.0
C18.0
THIOL
CYP3A11
PMDCI
1.0
0.5
Dimension 2
C18.1n.9
C18.1n.7
1.0
0.5
0.0
0.5
1.0
Dimension 1
06/14
Positionnement multidimensionnel
(MDS)
Rsum
Mthode factorielle de rduction de dimension pour lexploration
statistique dune matrice de distances ou dissemblances entre individus. ACP dun tableau de distances ou multidimensional scaling.
Travaux pratiques avec tude de donnes lmentaires.
Retour au plan du cours.
Introduction
Le principal intrt de cette technique est donc de pouvoir observer graphiquement le mme ensemble de donnes travers diffrentes "optiques" et
mme den comparer les reprsentations ; chaque optique est dfinie par la faon dont on mesure des distances ou dissimilarits entre les objets. Citons trois
exemples typiques dans le cas spcifique de gnes dcrits par leurs expressions
transcriptomiques et un exemple pluls qualitatif :
chaque gne est un vecteur dans un espace vectoriel muni de la distance
euclidienne classique (racine de la somme des carrs des carts). Le MDS
ou ACP du tableau des distances qui en dcoule est quivalent lACP
dans laquelle les gnes sont les individus (les lignes).
On mesure la dissimilarit entre deux gnes X j et X k par 1
cor(X j , X k ) faisant intervenir la corrlation linaire de Pearson ou celle
robuste sur les rangs de Spearman. Les gnes co-rguls (fortement positivement corrls) sont trs proches, les gnes associs dans un mcanisme
dinhibition (fortement ngativement corrls) p
seront aussi proches.
On mesure la distance entre deux gnes par
1 cor(X j , X k )2 . Elle
vrifie, dans ce cas, les proprits qui en font une distance euclidienne.
Co-rguls ou inhibs, les gnes corrls positivement ou ngativement
sont proches dans les reprsentations graphiques.
Considrons un tableau avec, en ligne, les individus dun groupe et en
colonne les pays de la C.E. La valeur 1 est mise dans une case lorsque
lindividu de la ligne a pass au moins une nuit dans le pays concern.
Il est alors facile de construire une matrice de similarit avec un indice
qui compte le nombre de 1 apparaissant dans les mmes colonnes de tous
les couples dindividus. Lobjectif est ensuite dobtenir une reprsentation
graphique rapprochant les individus ayant visit les mmes pays.
Les preuves et dveloppements thoriques sont omis dans cet expos succinct, ils sont chercher dans la bibliographie. Voir par exemple Mardia et col.
(1979)[1].
Le MDS tant encore une technique factorielle, comme en ACP il est nPage 75 sur 104
06/14
Distance, similarits
2.1
hend
Dfinitions
bres
400
lour
bord
ando
roya
stma
nant
toul
poit
200
D FINITION 1.
Une matrice (n n) D est appele matrice (dindices) de distance si elle
est symtrique et si :
laba
renn
ange
lema
limo
caen
tour
trique et si
(j, k), ckj cjj .
leha
clem
bour
orle
roue
pari
mont
boul
cala
lill
200
amie
dijo
gren
brux
besa
nanc
metz
luxe
mulh
bale
stra
600
400
reim
gene
cham
800
troy
lyon
mars
400
cp2
perp
nice
cher
200
cp1
200
400
D FINITION 2. Une matrice de distance est dite euclidienne sil existe une
configuration de vecteurs {x1 , . . . , xn } dans un espace vectoriel euclidien E
de sorte que
2
dkj = hxj xk , xj xk i .
2
06/14
2.2
P ROPOSITION 4. La distance entre variables quantitatives d2 (X, Y ) est encore le carr de la distance kPx Py kD entre les projecteurs D-orthogonaux
sur les directions engendres par les vecteurs x et y.
Des indices de dissimilarit peuvent galement tre dfinis pour un couple de
variables qualitatives ( partir de lindice de Tschuprow) ou pour une variable
quantitative et une variable qualitative ( parti du rapport de corrlation). Ils
ont moins dintrt pour des donnes dexpression et sont laisss de ct.
Lun des intrts pratiques du positionnement multidimensionnel est daider comprendre, visualiser, les structures de liaison dans un grand ensemble
de variables. On obtient ainsi des indications pour guider le choix dun sousensemble de variables, par exemple les plus lies une variable expliquer.
Cette approche ncessite la dfinition dindices de similarit entre variables.
Beaucoup sont proposs dans la littrature et concrtement utiliss pour les
donnes dexpression. Les gnes tant considrs comme des variables, on
sintresse alors diffrents critres bass sur la corrlation linaire usuelle de
Pearson ou robuste (non paramtrique de Spearman).
3.1
Proprits
06/14
b qui rend
Elle est donc positive et appele matrice des produits scalaires de la confi- q fixe, la configuration issue du MDS a une matrice de distance D
2
P
n
guration centre.
ck
k 2
j,k=1 ({dj } dj ) minimum et, cest quivalent, une matrice de produit
2
Rciproquement, si B est positive de rang p, une configuration de vecteurs
b qui minimise
b
B B
.
admettant B pour matrice des produits scalaires est obtenue en consid- scalaire B
rant sa dcomposition spectrale B = UU0 . Ce sont les lignes de la
matrice centre X = U1/2 qui fournissent les coordonnes des vec- 4 Donnes gnomiques
teurs de la reprsentation euclidienne.
Une analyse en composantes principales fournit un premier aperu de la re3.2 Explicitation du MDS
prsentation de gnes relativement aux chantillons biologiques par lintermdiaire dun biplot. Le but ici est de sintresser aux ventuelles co-rgulations
Pour rsum, dans le cas dune matrice D euclidienne suppose de rang q,
ou inhibitions entre gnes. Le cas chant, ceux-ci apparatront corrls pole MDS est obtenu en excutant les tapes suivantes :
sitivement ou ngativement. Le positionnement multidimensionnel permet de
2
1. construction de la matrice A de terme gnral 1/2dkj ,
considrer diffrentes faon de prendre p
enP
compte des distances inter-gnes :
n
2 , positive ou nulle ;
distance
euclidienne,
d
(X,
Y
)
=
1
2. calcul de la matrice des produits scalaires par double centrage B =
i=1 (Xi Yi ) p
0
distance associe la corrlation carre, d2 (X, Y ) = 1 cor(X, Y )2 ,
HAH ,
comprise entre 0 et 1 ;
3. diagonalisation de B = UU0 ;
distance associe la corrlation, d3 (X, Y ) = 1 cor(X, Y ), comprise
4. les coordonnes dune configuration, appeles coordonnes principales,
entre 0 et 2.
sont les lignes de la matrice X = U1/2 .
En cas de problme de robustesse (valeurs atypiques) encore prsent aprs
Dans le cas euclidien, ACP et MDS sont directement connects.
transformation en logarithme, remplacer la corrlation linaire de Pearson par
celle sur les rangs de Spearman peut savrer utile.
P ROPOSITION 6. Soit Y la matrice des donnes habituelles en ACP. LACP
Remarquons tout dabord que dans les trois cas, plus la valeur est petite,
de (Y, M, 1/nI) fournit les mmes reprsentations graphiques que le poplus les gnes dont on mesure lloignement sont proches. Ensuite, pour d2 et
sitionnement calcul partir de la matrice de distances de terme gnral
d3 , une valeur proche de 1 caractrise deux gnes non corrls, ce qui nest
kyi yj kM . Si C dsigne la
matrice des composantes principales, alors les
pas ncessairement le cas de la distance euclidienne. Enfin, il est important
coordonnes principales sont nC.
de noter quune corrlation forte et ngative entre deux gnes conduit deux
Lintrt du MDS apparat videmment lorsque les observations Y sont in- rsultats opposs selon d2 (valeur proche de 0) et d3 (valeur proche de 2).
La figure 2 illustre les trois possibilits avec le positionnement multidimensionnel des gnes. Lanalyse conjointe de ces trois graphiques conduit de
nombreuses interprtations sur le plan biologique. Sans rentrer dans les dtails, nous noterons que ces trois graphiques tendent sparer deux groupes
de gnes qui interviennent dans deux fonctions biologiques opposes : les
CYP4A, PMDCI, PECI, AOX, BIEN, THIOL, CPT2, mHMGCoAS, Tpalpha
et Tpbeta sont impliqus dans le catabolisme des lipides et la ctognse
P ROPOSITION 7. Si D est une matrice de distance, pas ncessairement eu- alors que les gnes FAS, S14, ACC2, cHMGCoAS, HMGCoAred et, plus inclidienne, B la matrice de produit scalaire associe, alors, pour une dimension directement, GK et LPK sont impliqus dans la synthse de lipides au niveau
06/14
dexpriences complmentaires.
GSTpi2
CYP4A14
THB
0.4
0.5
GK
HMGCoAred
ACC2
cHMGCoAS
Lpin1
Lpin
CAR1
0.0
0.2
MCADACOTH
PECI
THB
mHMGCoAS
GSTmu Tpalpha
M.CPT1
LCEPex11a
PON
apoB
RXRa
IL.2
apoE
RXRb2
Tpbeta
VLDLr
LXRb
FXR
CACP
G6Pase
ACAT1
PPARg
GS
LPL
SIAT4c
AM2R
PPARa
PXR
MTHFR
C16SR
AOX
PPARd
X36b4
SHP1
ADISP
OCTN2
MDR1
CIDEA
i.BABPi.BAT
BIEN SPI1.1
Lpin3
RARa
NURR1
TRa
Bcl.3
COX2
ap2
LXRa
hABC1
CBS cMOAT
CYP27b1
MS
UCP3
CYP26
TRb
RXRg1
CYP2b13
i.NOS
ADSS1
SR.BI
c.fos
CYP7a
ALDH3CPT2
COX1
BACT
VDR
CYP2b10
MDR2
PDK4
mABC1
ACC1
Waf1
MRP6
NGFiB
apoC3
UCP2
eif2g
CYP24
FAT Ntcp
RARb2
FDFT
ACAT2
CYP27a1
HPNCL
BSEP
i.FABP
GSTa
ACBP
G6PDH
PAL
apoA.I
Lpin2 PLTP
LDLr
CYP8b1
LPK
ACAT1PON
PPARd
G6Pase
apoB RXRb2
SPI1.1
C16SR
PECI
LXRb
Tpalpha
M.CPT1
GSTmu
mHMGCoAS
apoE
RXRa
CACP LCE i.BABP
PMDCI
X36b4
VLDLr
PPARg
Tpbeta
AM2R
FXR
MTHFR
LPL ADISP
PXR
AOX
OCTN2
CIDEA
i.BAT
MDR1
GS
CBS ACAT2
BACT
SHP1
LXRa Bcl.3
BIEN
SIAT4c
cMOAT
PPARa
NURR1
ap2
COX1 hABC1
TRa
Lpin3
CPT2
CYP26 CYP27b1
ALDH3
TRb
CYP2b10
CYP7a
THIOL HPNCL
MSSR.BI
UCP3
RXRg1
i.NOS
ACC1 RARa
CYP2b13
Waf1
c.fos
MDR2
ADSS1
VDR
mABC1
GSTa
COX2
L.FABP
NGFiBPDK4
apoC3 RARb2 Ntcp
ACBP
UCP2
BSEP
CYP27a1MRP6
PAL eif2g
FDFT
CYP24
Lpin2
i.FABP
FAT
G6PDH
Dimension 2
L.FABP
ACOTH
MCAD
IL.2
CYP4A10
0.0
0.0
PMDCI
THIOL
CAR1
0.2
CYP2c29
GSTpi2
Dimension 2
CYP2c29
Pex11a
CYP3A11
CYP4A10
Dimension 2
CYP3A11
0.2
0.5
CYP4A14
0.2
CYP4A14
Tpalpha
CYP4A10
MCAD
PECI
mHMGCoAS
Tpbeta
CYP3A11
RXRb2
THB
PMDCI
AOX
CACP
LXRb
C16SR
ACAT1
PPARg
ACOTH
Pex11a
PONM.CPT1
IL.2
FXR
PPARd
BIEN
apoB
RXRa
apoE
PXR VLDLr
AM2R
GSTmu
LCE
cMOAT
THIOL
i.BABP
ADISP
X36b4
OCTN2
CBS
CPT2 SPI1.1
CAR1 MTHFR
LPL
GS
MDR1
ALDH3
CIDEA
PPARa
G6Pase BACT
LXRa
i.BAT
SIAT4c
CYP2c29
Lpin3
NURR1
Bcl.3 SHP1
SR.BI CYP26
L.FABP
GSTpi2
hABC1
CYP27b1
TRa
Ntcp ap2 RARa
HPNCL
MS
UCP3
VDR
RXRg1
CYP2b10
GSTa
CYP7a
i.NOS
TRb
COX1
CYP2b13
ACAT2
COX2
MDR2
ACBP
ACC1
c.fos
ADSS1
Waf1 PDK4
UCP2
NGFiB
MRP6
mABC1
BSEP
eif2g
FAT RARb2
CYP27a1
apoC3
CYP24
PAL
FDFT
i.FABP
Lpin2
apoA.I
CYP8b1
G6PDH
GK
0.6
FAS
FAS
1.0
0.5
Dimension 1
0.0
0.5
GKFAS
LPK
LDLr
0.4
0.4
1.0
apoA.I
LPK
CYP8b1
S14
PLTPLpin1
Lpin
cHMGCoAS
HMGCoAred
ACC2
S14
0.5
0.0
Dimension 1
Lpin
Lpin1
LDLr
PLTP
cHMGCoAS
HMGCoAred
S14
0.5
0.6
0.4
0.2
ACC2
0.0
0.2
0.4
Dune manire gnrale, on peut retenir que lutilisation de la distance euclidienne tend rapprocher des gnes dont les expressions sont proches. En
revanche, les deux autres indicateurs considrent que deux gnes sont proches
si leur expression varie dans le mme sens selon les conditions exprimentales.
La corrlation (d3 ) distingue les gnes corrls ngativement, ce que ne permet pas la corrlation carre (d2 ) qui doit donc tre utilise en connaissance de
cause.
Dimension 1
Notons que la distance d1 est plus courante en statistique alors que d3 lest
davantage dans les tudes relatives aux biopuces. Autant que possible une comF IGURE 2 Souris : positionnement multidimensionnel des gnes sur les axes paraison des trois distances est recommande.
1 et 2 selon 3 distances diffrentes : distance euclidienne (d1 gauche), corrlation (d3 au centre), corrlation carre (d2 droite).
Rfrences
hpatique. On observera quaucun des trois graphiques de la figure 2, analys individuellement, ne conduit la totalit de cette interprtation mais que
cest bien lanalyse conjointe de ces reprsentations qui permet daffiner la
connaissance du biologiste sur ces donnes. Succintement, notons galement
que dautres gnes tendent participer ces groupes. Par exemple, le gne
Lpin1 est proche des gnes impliqus dans la lipognse. Bien que sa fonction soit actuellement inconnue, il a t observ que la ligne de souris dficiente pour Lpin1 prsente des altrations du mtabolisme des lipides.
[1] K.V. Mardia, J.T. Kent et J.M. Bibby, Multivariate Analysis, Academic
Press, 1979.
Les gnes dont la position sur le graphique sera le plus modifi en passant
de la distance d2 la distance d3 seront ceux prsentant des corrlations ngatives et importantes avec de nombreux autres gnes. Un cas typique dans
notre exemple est celui de CAR1 dont lACP (ainsi, que la matrice des corrlations) a montr quil tait ngativement corrls avec des gnes tels que
GSTpi2, CYP3A11, FAS... La position relative des couples de gnes ainsi
obtenus change de faon importante entre les deux graphiques. On observera
en particulier le couple CAR1-GSTpi2 totalement oppos sur laxe 1 selon
d3 et relativement proche selon d2 (tandis quil prsente une opposition moins
marque selon d1 ). La surexpression du gne CAR1 et la sous-expression du
gne GSTpi2 chez les souris dficientes en rcepteur PPAR na pas t dcrite et constitue lun des rsultats originaux de ce travail. Ltude dun lien potentiel entre ces deux modifications dexpression ncessitera la mise en uvre
Page 79 sur 104
06/14
1.2
Les objectifs
Lobjectif dune mthode de classification dborde le cadre strictement exploratoire. Cest la recherche dune typologie, ou segmentation, cest--dire
dune partition, ou rpartition des individus en classes, ou catgories. Ceci est
fait en optimisant un critre visant regrouper les individus dans des classes,
chacune le plus homogne possible et, entre elles, les plus distinctes possible.
Cet objectif est distinguer des procdures de discrimination, ou encore de
classement (en anglais classification) pour lesquelles une typologie est a priori
connue, au moins pour un chantillon dapprentissage. Nous sommes dans une
situation dapprentissage non-supervis, ou en anglais de clustering 1 .
1.3
Les mthodes
Pour n = 20, il est de lordre de 1013 . Il nest donc pas question de chercher optimiser le critre sur toutes les partitions possibles. Les mthodes se
limitent lexcution dun algorithme itratif convergeant vers une bonne
1 Introduction
partition qui correspond en gnral un optimum local. Mme si le besoin
de classer des objets est trs ancien, seule la gnralisation des outils infor1.1 Les donnes
matiques en a permis lautomatisation dans les annes 1970. Celeux et col.
Comme dans le cas du thme prcdent (MDS), les donnes peuvent se pr- (1989)[1] dcrivent en dtail ces algorithmes.
senter sous diffrentes formes ; elles concernent n individus supposs affects,
Diffrents choix sont laisss linitiative de lutilisateur :
pour simplifier, du mme poids :
une mesure dloignement (dissemblance, dissimilarit ou distance) entre
un tableau de distances (ou dissimilarits, ou mesures de dissemblance),
individus ;
n n, entre les individus pris deux deux ;
le critre dhomognit des classes optimiser : il est, dans le cas de va les observations de p variables quantitatives sur ces n individus ;
riables quantitatives, gnralement dfini partir de la trace dune matrice
les observations, toujours sur ces n individus, de variables qualitatives ou
de variances-covariances ; soit les variances et covariances interclasses (la
dun mlange de variables quantitatives et qualitatives.
trace correspond alors linertie de la partition), soit les variances et coDune faon ou dune autre, il sagit, dans chaque cas, de se ramener au tavariances intraclasse ;
bleau des distances deux deux entre les individus (cest--dire au premier
la mthode : la classification ascendante hirarchique et celle par rcas). Le choix dune matrice de produit scalaire permet de prendre en compte
allocation dynamique sont les plus utilises, seules ou combines ;
simplement un ensemble de variables quantitatives tandis que le troisime cas
1. Faire attention aux faux amis franais / anglais : discrimination / classification (supervise)
ncessite plus de dveloppements.
Retour au plan du cours.
06/14
On notera que les principes algorithmiques de ces mthodes sont relativement lmentaires.
Classification ascendante hirarchique, ou CAH
Mesures dloignement
Les notions de similarit et dissimilarit se correspondent de faon lmentaire. Si s est un indice de ressemblance, alors
d(i, j) = S s(i, j), (i, j)
est un indice de dissemblance. De faon rciproque, si d est un indice de dissemblance avec D = sup(i,j) d(i, j), alors s(i, j) = D d(i, j) est
un indice de ressemblance. Comme s , un indice de dissemblance norm est
dfini par :
1
d (i, j) = d(i, j), (i, j)
D
Notons = {i = 1, . . . , n} lensemble des individus. Cette section se avec d = 1 s et s = 1 d . Du fait de cette correspondance immdiate,
propose de dfinir sur diffrentes mesures dloignement entre deux seule la notion de dissemblance, ou dissimilarit, norme est considre par la
individus. Les hypothses et proprits tant de plus en plus fortes.
suite.
Page 81 sur 104
06/14
2.3
Distance
Une distance sur est, par dfinition, une dissimilarit vrifiant en plus la
proprit dingalit triangulaire. Autrement dit, une distance d est une application de dans R+ vrifiant :
Donnes qualitatives
Distance euclidienne
Dans le cas o est un espace vectoriel muni dun produit scalaire, donc
dune norme, la distance dfinie partir de cette norme est appele distance
euclidienne :
d(i, j) = < i j, i j >1/2 = ki jk.
La condition pour quune matrice donne de distances entre lments dun
espace vectoriel soit issue dune distance euclidienne est explicite dans le
chapitre prcdent. Toute distance nest pas ncessairement euclidienne ; voir,
par exemple, celle construite sur la valeur absolue.
2.5
1
1
).
1
p
La mtrique dite de Mahalanobis (inverse de la matrice des variancescovariances) peut aussi tre utilise pour attnuer la structure de corrlation.
2.4
M = 1 = diag (
Utilisation pratique
Dans le cas trs particulier o toutes les variables sont binaires (prsence,
absence de caractristiques), de nombreux indices de ressemblances ont t
proposs dans la littrature. Ils sont bass sur les quantits suivantes dfinis
pour deux individus i et j distincts :
aij = nombre de caractres communs i et j sur les p considrs,
bij = nombre de caractres possds par i mais pas par j,
cij = nombre de caractres possds par j mais pas par i,
cij = nombre de caractres que ne possdent ni i ni j.
bien sr, aij + bij + bij + dij = p.
Les indices de ressemblance les plus courants sont :
a +d
Concordance : ij p ij ,
aij
Jaccard : aij +bij +bij ,
Dice :
2aij
2aij +bij +bij .
Dans le cas plus gnral de p variables qualitatives, la distance la plus utiliConcrtement, il peut arriver que les donnes traiter soient directement
se
est celle, euclidienne, dite du 2 entre profils-lignes du tableau disjonctif
sous la forme dune matrice dun indice de ressemblance ou de dissemblance.
Il est alors facile de la transformer en une matrice de dissemblances normes complet (cf. chapitre 6 AFCM). La distance entre deux individus i et k est
alors dfinie par :
avant daborder une classification.
mj
n X X j` 1
2
Nous prcisons ci-dessous les autres cas.
p
ik j .
d2 =
p j=1
n`
`=1
Donnes quantitatives
Lorsque les p variables sont toutes quantitatives, il est ncessaire de dfinir
une matrice M de produit scalaire sur lespace RP . Le choix M = Ip , matrice
identit, est un choix lmentaire et courant ; mais il est vivement conseill de
rduire les variables de variances htrognes, comme en ACP, ce qui revient
considrer, comme matrice de produit scalaire, la matrice diagonale compose
06/14
paires dindividus, selon quils appartiennent la mme classe dans les deux
partitions, quils sont dans la mme classe pour lune mais pas pour lautre, et
Diffrentes stratgies sont envisageables dpendant de limportance relative enfin quils sont spars dans les deux partitions.
des nombres de variables qualitatives et quantitatives.
En notant nkl le terme gnral de la table de contingence croisant les deux
Rendre tout qualitatif . Les variables quantitatives sont rendues qualitatives
partitions, lindice dit de Rand scrit :
par dcoupage en classes. Les classes dune mme variable sont gnP P
P
P
ralement recherches deffectifs sensiblement gaux : bornes des classes
nkl k n2k+ l n2+l 2 2
gales des quantiles. La mtrique utiliser est alors celle du 2 dcrite
R= k l
n n .
+
ci-dessus.
Rendre tout quantitatif laide dune AFCM. Une AFCM est calcule sur Cet indice prend ses valeurs entre 0 et 1, il est gal 1 lorsque les deux partiles seules variables qualitatives ou sur lensemble des variables aprs tions sont identiques. Dautres variantes ont t proposes.
dcoupage en classes des variables quantitatives. LAFCM calcule par
AFC du tableau disjonctif complet produit des scores (cf. chapitre 6) 3 Classification ascendante hirarchique
qui sont les composantes principales de lACP des profils-lignes. Dans le
cas dune AFCM partielle des seules variables qualitatives, les variables 3.1 Principe
quantitatives restantes doivent tre ncessairement rduites. Ces scores
Linitialisation de cet algorithme consiste, sil nest dj donn, calculer
sont ensuite utiliss comme coordonnes quantitatives des individus en
un tableau de distances (ou de dissemblances) entre les individus classer.
vue dune classification.
Mtrique de Gower permet de mixer les types de variables mais celle-ci reste Lalgorithme dmarre alors de la partition triviale des n singletons (chaque individu constitue une classe) et cherche, chaque tape, constituer des classes
trs peu utilise.
par agrgation des deux lments les plus proches de la partition de ltape
2.6 Bilan
prcdente. Lalgorithme sarrte avec lobtention dune seule classe. Les regroupements successifs sont reprsents sous la forme dun arbre binaire ou
Une fois ces prliminaires accomplis, nous nous retrouvons donc avec
dendrogramme.
soit un tableau de mesures quantitatives n p, associ une matrice de
produit scalaire pp (en gnral Ip ) dfinissant une mtrique euclidienne, 3.2 Distance, ou dissemblance, entre deux classes
soit directement un tableau n n de dissemblances ou de distances entre
chaque tape de lalgorithme, il est ncessaire de mettre jour le tableau
individus.
des
distances (ou des dissemblances). Aprs chaque regroupement, de deux
Attention, si n est grand, la deuxime solution peut se heurter rapidement des
individus,
de deux classes ou dun individu une classe, les distances entre ce
problmes de stockage en mmoire pour lexcution des algorithmes.
nouvel objet et les autres sont calcules et viennent remplacer, dans la matrice,
2.7 Accord entre partitions
les distances des objets qui viennent dtre agrgs. Diffrentes approches sont
possibles ce niveau, donnant lieu diffrentes CAH.
Une partition de n individus dfinit une variable qualitative dont les catNotons A et B deux classes, ou lments, dune partition donne, wA et wB
gories sont les classes de la partition. Une comparaison de deux partitions est
leurs
pondrations, et di,j la distance entre deux individus quelconques i et j.
obtenue an construisant la table de contingence croisant ces deux variables. Cependant, les numros des classes tant arbitraires, lapprciation de cet accord
Le problme est de dfinir d(A, B), distance entre deux lments dune parest difficile aussi un indice quantitatif a t propos en considrant toutes les tition de .
Page 83 sur 104
06/14
Les stratgies ci-dessous saccommodent dun simple indice de dissemblance dfini entre les individus. Elles sappliquent galement des indices
plus structurs (distance) mais nen utilisent pas toutes les proprits.
d(A, B)
d(A, B)
classe :
1. regrouper les deux classes les plus proches au sens de la distance
entre classes choisie,
iA,jB
d(A, B)
1
card(A)card(B)
dij
iA,jB
3.4
Rsultats
Graphes
Les graphes obtenus lissue dune CAH sont prsents et illustrs dans la
section suivante. Il sagit du graphique daide au choix du nombre de classes
et du dendrogramme, regroupant hirarchiquement les observations et groupes
par des branches dont la longueur est la distance entre les objets regroups.
Attention, la reprsentation du dendrogramme nest pas unique, celui-ci est
invariant par rotation dune branche. Lordre des observations sur laxe horizontal est donc artificiel, il peut amener rapprocher des observations qui sont
de fait trs loignes lune de lautre car regroupes par de longues branches.
d(A, B)
06/14
obtenue par simulation (Monte Carlo) selon une loi uniforme et de rechercher
le plus grand cart ou gap. La fonction clusGap qui implmente ce critre
dans la librairie cluster propose 5 mthodes ou critres ! pour rechercher
La silhouette (Rousseeuw, 1987)[8] dune classification est un graphe monle plus grand gap. Attention, cette fonction naccepte que des donnes sous
trant comment chaque observation appartient plus ou moins sa classe. Supla forme dune matrice de variables quantitatives, pas celle dune matrice de
posons que n observations aient t rparties en k classes par un quelconque
distances ou dissimilarits.
algorithme. Soit a(i) la moyenne des dissimilarits (ou distances) de lobserEnfin , dans le contexte de mlanges supposs gaussiens, cest--dire si lhyvation i avec toutes les autres observations au sein dune mme classe. Plus
pothse
dune situation gaussienne multidimensionnelle, le choix du nombre
a(i) est petit meilleur est lassignation de i sa classe ; a(i) est la dissimilarit
de
classes
sapparente une slection de modle par des critres AIC, BIC,
moyenne de i cette classe.
spcifiques. Il nest pas abord dans ce cours aperu des mthodes de classifiSoit b(i) la plus faible moyenne des dissimilarits (ou distances) de lobsercation non-supervise.
vation i chaque autre classe dont i ne fait pas partie. La classe avec cette plus
faible dissimilarit moyenne est appel classe voisine de i car cest la meilleure 3.5 Illustration
classe suivante pour lobservation i.
Les donnes sont celles dj reprsentes laide du MDS : un tableau
La silhouette de la ime observations est alors donne par
contenant les distances kilomtriques par route (Source : IGN) entre 47 grandes
villes en France et dans les pays limitrophes. Toutes ces valeurs sont ranges
b(i) a(i)
s(i) =
.
dans le triangle infrieur dune matrice carre avec des 0 sur la diagonale. Il
max a(i), b(i)
sagit donc de regrouper au mieux ces villes, en tenant compte de leurs proxiPlus ces valeurs sont proches de 1 et meilleure est la classification. La moyenne mits relatives au sens de cette distance routire qui nest pas euclidienne
cause du relief.
de toutes ces valeurs est un autre indicateur global de qualit.
lissue de lexcution, la classification ascendante hirarchique fournit les
deux
graphiques prciss ci-dessous.
Le choix du nombre de classes k est, comme le choix de la dimension en
Un graphique daide au choix du nombre de classes (cf. figure 3.5). Il
ACP, dlicat oprer. Plusieurs heuristiques on t proposes selon les critres
reprsente rebours, en fonction du nombre de classes, la dcroissance
prcdents ou encore suivant le graphe de dcroissance de la distance interde la distance interclasses. La prsence dune rupture importante dans
classes qui est aussi la dcroissance de la variance inter-classe dans le cas du
cette dcroissance aide au choix du nombre de classes comme dans le cas
saut de Ward. La recherche dun coude dans ce graphe est une indication
du choix de dimension en ACP, avec lboulis des valeurs propres. Dans
heuristique du choix de k ; voir lapplication dans la section suivante.
ce cas, il faut lire le graphe de droite gauche et sarrter avant le premier
saut jug significatif. Avec lindice de Ward, cela revient couper larbre
La statistique du gap est une proposition de (Tibshirani et al.)[9] pour
avant une perte, juge trop importante, de la variance interclasses. Dans
tenter de rationaliser cette dmarche. Soit Dr la somme de toutes les distances
le cas des villes repres par leurs distances kilomtriques, le choix de 5
prises entre les observations deux deux au sein dune mme classe r = 1, k ;
classes semble raisonnable.
Wk est la moyenne pondre (par al taille de la classe) de ces sommes de disLa fonction clusGap ne permet pas de calculer la statistique de gap sur
tances. Si la distance initiale est euclidienne, W est ( un facteur 2 prs) la
une matrice de distances. La corrlation cophntique de larbre est de
norme carre de la matrice de variance intra-classe. Lide est alors de com0, 64 mais cela est gure utile dans labsolu tandis que les silhouhettes
pare le graphe de log(Wk ) par rapport celui dune distribution de rfrence
Page 85 sur 104
06/14
4000
5000
Height
2000
3000
F IGURE 1 Villes : Dcroissance de la variance interclasses chaque regroupement dans le cas du saut de Ward ( gauche) et droite silhouettes des
observations dans leur classe respective.
luxe
metz
nanc
reim
troy
besa
dijo
stra
bale
mulh
mars
nice
cham
gene
gren
lyon
hend
bord
roya
mont
perp
ando
lour
toul
boul
cala
brux
lill
caen
cher
leha
roue
amie
pari
bres
renn
stma
laba
nant
clem
limo
poit
ange
lema
tour
bour
orle
1000
Une fois un nombre de classes slectionn par lun ou lautre des critres
proposs, une coupure de larbre fournit, dans chaque sous-arbre, la rpartition
des individus en classes. Ces classes peuvent ensuite tre reprsentes dans les
axes dune analyse factorielle :
une ACP si la classification a t opre sur des variables quantitatives
F IGURE 2 Villes : Exemple dun dendrogramme issu de la classification des
assorties dune mtrique euclidienne,
une AFCM si la classification a t opre sur les composantes dune donnes par CAH et saut de Ward.
AFCM de variables qualitatives,
un MDS dans le cas de lexemple (figure 3.5) car la classification est
directement calcule sur un tableau de distance.
Signalons quil est courant, dans la pratique, de mettre en uvre, lissue
dune CAH, une mthode de r-allocation dynamique avec pour nombre de
Page 86 sur 104
06/14
classes celui choisi par CAH et pour centres initiaux les barycentres des classes
obtenues : on stabilise ainsi les classes.
hend
bres
400
lour
laba
nant rennstma
bord roya
toul
200
ando
limo
cher
poit ange
lema caen
tour
clem
cp2
perp
bour
pari
troy
lyon
dijo
gren
nice
gene
cham
400
200
mont
mars
600
400
besa
200
cp1
boul
amie
cala
lill
reim
brux
mulh
bale
800
leha
roue
orle
nanc
metz
luxe
stra
200
400
Notons galement que lexemple prsent ici est relativement simple et bien
structur. Modifier le critre de saut ne change pas grand chose dans ce cas.
Mais, attention, il est facile de vrifier exprimentalement quune classification
ascendante est un objet trs sensible. En effet, il suffit de modifier une distance
dans le tableau, par exemple de rduire sensiblement la distance de Grenoble
Brest, pour que la classification (nombre de classes, organisation) devienne
trs sensible au choix du critre de saut. En revanche, la structure des donnes
fait que la reprsentation factorielle de lACP du tableau de distance (MDS)
est trs robuste ce type derreur de mesure ; il est recommand de systmatiquement complter une classification par une reprsentation factorielle.
4.1
Principes
06/14
4.3
Proprits
Nues dynamiques
La variante propose par Diday (1973)[2] et paralllement par Hartigan et
Wong (1979)[4] consiste remplacer chaque centre de classe par un noyau
constitu dlments reprsentatifs de cette classe. Cela permet de corriger
linfluence dventuelles valeurs extrmes sur le calcul du barycentre. Diday
(1973) a galement propos la recherche de formes fortes communes plusieurs partitions issues dinitialisations diffrentes.
Partitionning Around Medods
Cet algorithme (PAM), propos par Kaufman & Rousseeuw (1990)[6], permet de classifier des donnes de faon plus robuste, cest--dire moins sensible
des valeurs atypiques. Le noyau dune classe est alors un mdod cest--dire
lobservations dune classe qui minimise la moyenne des distances ou dissimilarits aux autres observations de la classes. Une diffrence majeur avec
lalgorithme kmeans est quun mdod fait partie des donnes et permet donc
de partitionner des matrices de dissimilarits. En contre-partie, il est limit par
le nombre dobservations (matrice de dissimilarits stocker) et en temps de
calcul (algorithme en O(n2 )). Il fonctionne de manire analogue celui de
Mac Queen. chaque itration, un mdod est mis en concurrence avec un
autre individu alatoire. Si lchange amliore le critre, cet individu devient
le nouveau mdod.
4.4
Variantes
4.5
kmeans
Toujours sous la mme appellation (une option de la commande kmeans
de R) Mac Queen (1967)[7] a propos une modification de lalgorithme prcdent. Les noyaux des classes, ici les barycentres des classes concernes, sont
recalculs chaque allocation dun individu une classe. Lalgorithme est ainsi
plus efficace, mais la solution dpend de lordre des individus dans le fichier.
Combinaison
06/14
10
hend
bres
400
lour
laba
nant rennstma
bord roya
toul
200
ando
limo
cher
poit ange
lema caen
tour
clem
cp2
perp
bour
pari
200
mont
nice
troy
lyon
mars
gren
leha
roue
orle
dijo
boul
amie
cala
lill
reim
brux
Donnes gnomiques
400
besa
nanc
metz
luxe
06/14
8
6
0
Valeurs propres
10
12
14
11
10
Dimension
SR.BI
Ntcp
CAR1
PAL
c.fos
TRb
VLDLr
RARa
SIAT4c
i.NOS
CYP2b13
eif2g
ADSS1
FAT
UCP2
CYP2b10
NGFiB
CYP26
RARb2
CYP27b1
CYP24
UCP3
RXRg1
Lpin3
i.BAT
GS
PON
COX2
NURR1
M.CPT1
PXR
MS
VDR
PDK4
ACOTH
RXRa
MCAD
CIDEA
OCTN2
ACC1
PPARg
FXR
MDR1
Waf1
apoC3
SHP1
TRa
i.BABP
C16SR
X36b4
COX1
Bcl.3
LXRa
LXRb
LPL
hABC1
ADISP
RXRb2
MTHFR
ap2
CYP7a
mABC1
IL.2
Pex11a
ACAT1
THB
PPARd
CYP4A10
CYP4A14
CYP3A11
L.FABP
THIOL
PMDCI
GSTmu
GSTpi2
CYP2c29
G6Pase
S14
Lpin1
Lpin
FAS
HMGCoAred
PLTP
LDLr
FDFT
G6PDH
ACC2
PPARa
i.FABP
LPK
cHMGCoAS
CYP8b1
CPT2
CACP
PECI
ALDH3
mHMGCoAS
BIEN
GK
GSTa
HPNCL
Lpin2
AOX
ACBP
CBS
SPI1.1
apoA.I
MDR2
CYP27a1
BSEP
BACT
Tpbeta
Tpalpha
MRP6
cMOAT
LCE
apoB
AM2R
apoE
PPAR efad
PPAR efad
PPAR ref
WT efad
WT efad
WT efad
WT dha
WT dha
WT dha
WT dha
WT tsol
WT tsol
WT lin
WT lin
WT lin
WT lin
WT ref
WT ref
WT tsol
WT efad
WT tsol
WT ref
WT ref
PPAR tsol
PPAR tsol
PPAR lin
PPAR lin
PPAR ref
PPAR lin
PPAR dha
PPAR lin
PPAR ref
PPAR tsol
PPAR tsol
PPAR efad
PPAR efad
PPAR dha
PPAR dha
PPAR dha
PPAR ref
06/14
12
1.0
des gnes, selon leur appartenance une classe issue de la classification hirarchique. Pour cela, nous avons coup larbre afin den extraire 5 classes.
0.5
CYP4A14
CYP3A11
CYP4A10
GSTpi2
CYP2c29
MCAD
ACOTH
PECI
THB
Pex11a
mHMGCoAS
GSTmu
Tpalpha
M.CPT1
LCE
PON
apoB
RXRa
IL.2
apoE
RXRb2
Tpbeta
VLDLr
LXRb
FXR
CACP
G6Pase
ACAT1
PPARg
GS
LPL
SIAT4c
PPARa
PXR
C16SR
MTHFR
AOX
SPI1.1AM2R
PPARd
X36b4
ADISP
SHP1
OCTN2
MDR1
CIDEA
i.BABP
BIEN
Lpin3
i.BAT
RARa
NURR1
TRa
Bcl.3
ap2
COX2
LXRa
cMOAT
hABC1
CPT2
CBS
CYP27b1
MS
UCP3
CYP26
RXRg1
TRb
CYP2b13
ADSS1
i.NOS
SR.BI
c.fos
CYP7a
ALDH3
COX1
BACT
VDR
CYP2b10
MDR2
PDK4
mABC1
ACC1
Waf1
MRP6
NGFiB
apoC3
UCP2
eif2g
CYP24
FATNtcp
RARb2
FDFT
ACAT2
CYP27a1
HPNCL
BSEP
THIOL
i.FABP
GSTa
ACBP
G6PDH
L.FABP
apoA.I
PAL
Lpin2 PLTP
LDLr
CYP8b1
LPK
GK
0.0
0.5
Dimension 2
PMDCI
HMGCoAred
ACC2
cHMGCoAS
Lpin1
Lpin
CAR1
Brivement, on peut noter que laxe 1 met en vidence lopposition prcdemment voque entre CAR1 (sur-exprim chez les souris PPAR) et
un groupe de gnes (CYP3A10, CYP4A10, CYP4A14, PMDCI, THIOL et
L-FABP) qui est sur-exprim chez les souris WT. De manire similaire, laxe 2
oppose les gnes induits par le rgime dha (valeurs positives, gnes impliqus
dans le catabolisme des lipides et dans le mtabolisme des xnobiotiques) aux
gnes induits par le rgime efad (valeurs ngatives, gnes principalement impliqus dans la synthse de lipides). En remontant vers les feuilles de larbre de
classification, on notera que le groupe des gnes reprsents en vert est spar
en deux sous-groupes qui conservent une cohrence vis--vis des fonctions
biologiques de catabolisme et de synthse des lipides respectivement. Une observation des donnes individuelles rvle que ces rgulations opres par les
rgimes semblent plus marques chez les souris WT.
Nous laissons au lecteur lapprciation sur le nombre de combinaisons doptions possibles qui sont offertes par lensemble de ces outils : centrage, rduction, distance, critre de saut, projection, classification !
1.0
En guise de conclusion
S14
Attention, la pertinence des rsultats et la fiabilit des interprtations reposent sur une juste connaissance des mthodes, des options, des hypothses
sous-jacentes ces mthodes : comment interprter une proximit, au sens de
Page 91 sur 104
06/14
13
quelle distance avec quelle confiance ? sinon, lorientation du travail pour poser de nouvelles hypothses risque de se fourvoyer ou au mieux adopter une
marche alatoire (cf. devise Schadok) :
...en essayant continuellement on finit par russir donc, plus a rate,
plus on a de chance que a marche...
Rfrences
[1] G. Celeux, E. Diday, G. Govaert, Y. Lechevallier et H. Ralambondrainy, Classification automatique des donnes, Dunod,
1989.
[2] E. Diday, The dynamic clusters method in nonhierarchical
clustering, International Journal of Computer & Information
Sciences 2 (1973), no 1, 6188.
[3] R. Forgy, Cluster Analysis of Multivariate Data : Efficiency versus Interpretability of Classification, Biometrics (1965), no 21,
768769.
[4] J. A. Hartigan et M. A. Wong, Algorithm AS 136 : a k-means
clustering algorithm, Applied Statistics 28 (1979), 100108.
[5] Zhexue Huang, Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values, Data Min. Knowl.
Discov. 2 (1998), no 3, 283304.
[6] Leonard Kaufman et Peter J. Rousseeuw, Finding Groups in
Data An Introduction to Cluster Analysis, John Wiley & Sons,
1990.
[7] J. Macqueen, Some methods for classification and analysis of
multivariate observations, In 5-th Berkeley Symposium on Mathematical Statistics and Probability, 1967, p. 281297.
[8] Peter J. Rousseeuw, Silhouettes : A graphical aid to the interpretation and validation of cluster analysis, Journal of Computational and Applied Mathematics 20 (1987), no 0, 53 65.
[9] Robert Tibshirani, Guenther Walther et Trevor Hastie, Estimating the number of clusters in a data set via the gap statistic,
Journal of the Royal Statistical Society : Series B (Statistical
Methodology) 63 (2001), no 2, 411423.
Page 92 sur 104
06/14
Introduction
2.1
Principes
06/14
La factorisation non-ngative de la matrice X est la recherche de deux maUne fois la factorisation construite il est ensuite facile dutiliser ces matrices Wnr et Hrp ne contenant que des valeurs positives ou nulles et dont trices W et H pour construire des classifications (CAH, k-means), reprsenle produit approche X.
tations (ACP, MDS), et prvisions laide dune des nombreuses mthodes
dapprentissage.
X WH.
Le choix du rang de factorisation r << min(n, p) assure une rduction dras- 2.2 Algorithmes
tique de dimension et donc des reprsentations parcimonieuses. videmment,
De nombreuses variantes algorithmiques ou sur la forme des pnalisala qualit dapproximation dpend de la parcimonie de la matrice initiale.
tions ont t publies et implmentes gnralement en Matlab, parfois en C,
La factorisation est rsolue par la recherche dun optimum local du problme quelques unes spcifiques en R ; Berry et al. (2007)[1] proposent un tour dhodoptimisation :
rizon de certaines tandis que Gaujoux et Seoighe (2010) en ont implmentes
min [L(X, WH) + P (W, H)] .
dans R pour rendre facilement possible la comparaison des rsultats. Trois faW,H0
milles dalgorithmes sont gnralement cites :
L est une fonction perte mesurant la qualit dapproximation et P une fonction
Standard NMF algorithm with multiplicative update,
de pnalisation optionnelle ; L est gnralement soit un critre de moindres
Alternate Least Square (ALS) algorithm,
carrs (LS ou norme de Frobenius des matrices ou norme trace), soit la di Descente du gradient.
vergence de Kullback-Leibler (KL) ; P est une pnalisation optionnelle de r- Chacun de ces algorithmes peut par ailleurs tre initialis de diffrentes fagularisation utilise pour forcer les proprits recherches des matrices W et ons :
H, par exemple, la parcimonie des matrices ou la rgularit des solutions dans
plusieurs initialisations alatoires de W et H, le meilleur ajustement est
le cas de donnes spectrales.
conserv,
X
06/14
local, voire un point de la frontire mme pas point stationnaire. Ces cas sont
heureusement rares en pratique mais la convergence est considre comme
lente, demandant plus ditrations que ses concurrents alors que chaque itration ncessite de nombreux calculs (O(n3 )). Les algorithmes de descente du
gradient posent des questions dlicates concernant le choix des deux pas de
descente. La dernire famille dalgorithme : moindres carrs alterns (ALS),
exploite le fait que si le problme nest pas convexe en la fois W et H, il
lest soit en W soit en H. Il suit le principe ci-dessous et possde de bonnes
proprits (convergence, complexit).
A LGORITHME 1 : ALS
W =random(n, r)
for i = 1 Maxiter do
Rsoudre en H : W0 WH = W0 X
Mettre 0 les termes ngatifs de H
Rsoudre en W : HH0 W0 = HX0
Mettre 0 les termes ngatifs de W
end for
intervenir au cours dune tude. Ceux-ci sont illustrs dans la section suivante
sur un jeu de donnes publiques. Un premier tableau (1) fournit des :
rsidus, part de variance explique, indice de parcimonie (sparseness),
pour valuer la qualit de lajustement,
coefficient de corrlation cophntique, puret, entropie ou silhouette
pour valuer la stabilit sur plusieurs excutions.
Lvaluation de la stabilit de plusieurs excutions de NMF repose sur
des critres (silhouette, consensus, corrlation cophntique) issues des mthodes de classification non supervise. Pour adapter ces critres la NMF, la
notion de classe dune observation (resp. dune variable) est remplace par la
recherche du facteur, ou lment de la base (colonne de W resp. de H), pour
laquelle lobservation (resp. la variable) a obtenu la plus forte contribution.
Comme pour le choix dune dimension, dun nombre de classes, seules des
heuristiques sont proposes dans la littrature pour le difficile choix de r pour
lequel il ny a pas de critre nettement tranch. Cest finalement linterprtation, biologique ou autre, qui oriente le choix en sous main, ou encore cidessous la relative stabilit dune classification non-supervise.
2.4
Graphiques
06/14
Les mmes indicateurs, que ceux prsents dans un tableau (1) pour le choix
de la mthode, sont dclins dans des graphiques (figure 2) avec le rang r des
matrices en abscisse.
Enfin, un dernier graphique (figure 4) trace une heatmap reprsentant les
valeurs de la matrice initiale X dans laquelle les lignes et colonnes sont rorganises par double classification ascendante hirarchique. Ces classifications
sont construites sur les matrices en utilisant par dfaut la distance euclidienne
et le critre de saut moyen.
3
3.1
Exemple
Les donnes
Lillustration de la factorisation non ngative dune matrice utilise les donnes dcrites dans le scnario explorant les spcificits dun corpus de pourriels. Elles se prsentent sous une forme classique en fouille de texte dun tableau avec en lignes des messages et en colonnes des nombres ou taux doccurrences de mots ou caractres spcifiques. La nature des donnes : matrice trs
creuse pouvant prsenter des valeurs trs disparates rend les techniques factorielles habituelles (ACP, AFCM) peu adaptes. Le principal objectif sur ces
donnes est de prvoir le statut spam ou non spam dun message en fonction
de son contenu et cest lobjet dun autre scnario. Il sagit, dans un premier
temps de les dcrire, par exemple, en reprsentant et classifiant les principaux
mots clefs.
Rfrences
3.2
06/14
F IGURE 1 Spam : Matrice de confusion pour chaque mthode de la factorisation par NMF.
[3] Renaud Gaujoux et Cathal Seoighe, A flexible R package for nonnegative
matrix factorization, BMC Bioinformatics 11 (2010), no 1, 367, http:
//www.biomedcentral.com/1471-2105/11/367.
[4] D. Lee et S. Seung, Learning the parts of objects by non-negative matrix
factorization, Nature (1999).
[5] Pentti Paatero et Unto Tapper, Positive matrix factorization : A nonnegative factor model with optimal utilization of error estimates of data
values, Environmetrics 5 (1994), no 2, 111126.
F IGURE 2 Spam : volution des diffrents critres en fonction du rang des
matrices de la factorisation par NMF.
06/14
06/14
=
=
aj
Rsum
2.1.1
Types de matrices
carre si n = p.
Retour au plan du cours.
Une matrice carre est dite :
0 si i 6= j
j
j
identit (Ip ) si ai = i =
,
1 Notations
1 si i = j
j
diagonale si ai = 0 lorsque i 6= j,
Dans tout ce qui suit, E et F sont deux espaces vectoriels rels munis resj
symtrique si ai = aij , (i, j),
pectivement des bases canoniques E = {ej ; j = 1, . . . , p} et F = {fi ; i =
j
triangulaire suprieure (infrieure) si ai = 0 lorsque i > j (i < j).
1, . . . , n}. On note indiffremment soit un vecteur de E ou de F , un endomorphisme de E, ou une application linaire de E dans F , soit leurs reprsenta2.1.2 Matrice partitionne en blocs
tions matricielles dans les bases dfinies ci-dessus.
Matrices dont les lments sont eux-mmes des matrices. Exemple :
2 Matrices
A21 (r (p s))
A11 (r s)
.
A(n p) =
A12 ((n r) s) A22 ((n r) (p s))
2.1
Notations
2.2
a11
..
.
1
A=
ai
.
..
a1n
...
aj1
..
.
...
...
aji
...
...
..
.
ajn
...
ap1
..
.
api
.
..
.
apn
06/14
Pn
i=1
Produit : [AB]ji = a0i bj avec A(np) , B(pq) et AB(nq) , et pour des matrices par blocs :
A11
A12
A21
A22
B11
B12
B21
B22
=
Trace
p
X
ajj ,
j=1
tr
trA
tr(A + B)
trAB
trCC0
=
=
=
=
,
trA,
trA + trB,
trBA,
reste vrai si A est (n p) et si B est (p n)
p
n X
X
= trC0 C =
(cji )2
i=1 j=1
= |A|,
= |A||B|,
= |A||C|,
= |A11 ||A22 A12 (A11 )1 A21 |
(1)
(2)
p
Y
j=1
p
2.3
Dterminant
Inverse
(AB)1 = B1 A1 ,
|A1 | =
1
.
|A|
Dfinitions
06/14
singulire si |A| = 0,
rgulire si |A| 6= 0,
rang(A)
=
dim(Im(A)),
0 rang(A) min(n, p),
rang(A)
=
rang(A0 ),
rang(A + B)
rang(A) + rang(B),
rang(AB)
min(rang(A), rang(B)),
rang(BAC)
=
rang(A), si B et C sont rgulires,
rang(A)
=
rang(AA0 ) = rang(A0 A).
idempotente si AA = A,
dfinie-positive si, x Rp , x0 Ax 0, et si x0 Ax = 0 x = 0,
positive, ou semi-dfinie-positive, si, x Rp , x0 Ax 0,
orthogonale si AA0 = A0 A = I (A0 = A1 ).
Espaces euclidiens
E est un espace vectoriel rel de dimension p isomorphe Rp .
3.1
Sous-espaces
3.3
Mtrique euclidienne
3.2
y E, Py W et hPy, y PyiM = 0.
Ker(A) = {x E ; Ax = 0} est le s.e.v. de E noyau de A ;
E = Im(A) Ker(A) si A est carre associe un endomorphisme deToute
E matrice idempotente (P2 = P) et M-symtrique (P0 M = MP) est
une matrice de projection M-orthogonale et rciproquement.
et p = dim(Im(A)) + dim(Ker(A)).
Page 101 sur 104
06/14
3.4.1
Proprits
P = BB0 M =
q
X
bj bj M.
i=1
1
bb0
M=
bb0 M.
P= 0
b Mb
kbkM
A = VV =
p
X
k v k v k
k=1
o V est une matrice orthogonale [v , . . . , vp ] des vecteurs propres orthonorsomme P1 + + Pq est une matrice de projection M-orthogonale si et ms associs aux valeurs propres k , ranges par ordre dcroissant dans la
seulement si : Pk Pj = kj Pj .
matrice diagonale .
La matrice I P est la matrice de projection M-orthogonale sur W .
T HORME 3. Une matrice A relle M-symtrique admet p valeurs
propres
relles. Ses vecteurs propres peuvent tre choisis pour constituer une
4 Elments propres
base M-orthonorme de E ; A se dcompose en :
Soit A une matrice carre (p p).
p
X
0
A = VV 0 M =
k vk vk M
4.1
Dfinitions
k=1
06/14
p
X
k vk vk M = V1/2 V0 M.
k=1
4.2
Proprits
h
Si k 6=Pj ,
p
trA = k=1 k ;
si A est rgulire,
si A est positive,
si A est dfinie-positive,
4.3
vk MQ
vj ;
p
|A| = k=1 k ;
k, k 6= 0 ;
p 0 ;
p > 0 ;
(4)
p
n X
X
i=1 j=1
= trXMX0 D,
= trXX0 = SSQ(X) =
kXkM,D
kXkIp ,In
p
n X
X
(xji )2
i=1 j=1
r p
X
k uk vk ;
k=1
La distance associe cette norme devient, dans le cas o D est une matrice
diagonale (D = diag(w1 , . . . , wn )), le critre usuel des moindres carrs :
Yk
M,D
nulles k ranges par ordre dcroissant dans la matrice diagonale (r r) ;
i=1
V (p r) contient les vecteurs propres M-orthonorms (V0 MV = Ir ) de la
0
matrice M-symtrique positive X DXM associs aux mmes valeurs propres.
5.2 Approximation dune matrice
De plus,
1/2
1/2
0
U = XMV
et V = X DU
.
Les matrices X, M et D sont dfinies comme ci-dessus ; X est suppose
de rang r. On cherche la matrice Zq , de rang q infrieur r, qui soit la plus
5 Optimisation
proche possible de X.
5.1
06/14
(5)
q
X
p
0
0
k uk vk = Uq 1/2
q Vq .
k=1
kX Zq kM,D =
r
X
k .
k=q+1
q
X
k=1
q
X
vk vk M = Vq Vq0 M
0
uk uk D = Uq U0q D,
k=1
Zq
cq X = XP
cq .
= Q
cq
Q
06/14