Vous êtes sur la page 1sur 104

Exploration Statistique

Exploration Statistique
Multidimensionnelle
P HILIPPE B ESSE

4me anne GMM - MMS

quipe de Statistique et Probabilits


Institut de Mathmatiques de Toulouse UMR CNRS C5219
Dpartement Gnie Mathmatique et Modlisation
Institut National des Sciences Appliques de Toulouse 31077 Toulouse cedex 4.

Exploration Statistique

Exploration Statistique

Table des matires

Introduction la Statistique
Description unidimensionnelle
Description bidimensionnelle
Introduction exploration multidimensionnelle
Analyse en Composantes Principales
Analyse Factorielle Discriminante
Analyse Factorielle des Correspondances
Analyse Factorielle des Correspondances Multiple
Analyse Canonique des Corrlations
Positionnement Multidimensionnel
Classification non supervise
Factorisation par matrices non ngatives (NMF)
Annexe
Complments dalgbre linaire

page 5
page 12
page 23
page 29
page 31
page 43
page 49
page 57
page 65
page 75
page 80
page 93
page 99

Attention ce cours est dense, la lecture de ce document ne suffira pas la bonne comprhension des outils qui y sont dcrits de
faon synthtique. La prsence aux cours et la participation active aux TDs sont indispensables lacquisition des comptences
incontournables pour une utilisation raisonnable et raisonne des techniques dapprentissage statistique.

Exploration Statistique

Statistique : Introduction

pour lemploi et les dbouchs des tudiants, la gestion des ressources humaines et les investissements conomiques des entreprises ou encore les stratgies scientifiques des laboratoires de recherche.

Statistique : Introduction
Rsum
Introduction la Statistique et ses mthodes. Contexte et objectifs
(descriptif, explicatif, prdictif) dune analyse statistique ; les comptences ncessaires.
Ce cours est structur en deux niveaux principaux et quelques
grands thmes :
L : Description et infrences statistiques lmentaires
M1 : Exploration multivarie
M1 : Infrence statistique
M1 : Modle linaire et linaire gnral
M2 : Modle linaire, modle mixte
M2 : Apprentissage et modlisation
Rflexions autour de : Statistique et Dontologie scientifique

Le mtier de statisticien

Le dveloppement continu des moyens informatiques de saisie, de stockage


(bases de donnes) et de calcul permet la production, la gestion, le traitement
et lanalyse densembles de donnes de plus en plus volumineux. Par exemple,
les 600 Mb de donnes produites en une dizaine dheures par lun des squenceurs actuels reprsentent lquivalent de la production mondiale dpose dans
GenBank entre 1982 et 1996. Les squenceurs arrivant sur le march en 2010
produisent en 5 jours 200Gb par traitement. Le perfectionnement des interfaces graphiques offre aux utilisateurs, statisticiens ou non, des possibilits de
mise en uvre trs simples avec des outils logiciels de plus en plus "conviviaux". Cette volution, ainsi que la popularisation de nouvelles mthodes
algorithmiques (rseaux de neurones, support vector machine, agrgation de
modles...) et outils graphiques, conduisent au dveloppement et la commercialisation de logiciels gnraux, ou spcifiques des mtiers, qui intgrent
un sous-ensemble de mthodes statistiques et algorithmiques plus ou moins
exhaustif.

Quelles sont les comptences ncessaires la mise en uvre de tels


logiciels pour analyser, modliser, interprter des corpus de donnes
de plus en plus complexes et volumineux produits par une entreprise
ou un laboratoire ?
Les enjeux sont en effet majeurs ; les rsultats influent directement sur les
prises de dcision du management ou la validation de rsultats scientifiques et
leur valorisation par des publications.

Terminologie

Le travail du statisticien est dabord un travail de communication avec des


reprsentants dautres disciplines ou dautres mtiers. Ceci ncessite beaucoup
de rigueur et donc de prcision dans lemploi des mots et concepts lorsquil
sagit de traduire en phrases intelligibles des rsultats numriques ou graphiques. En effet, de ces interprtations dcouleront des prises de dcision.

2.1

Statistique, statistiques, statistique

Le mot statistiques avec un "s" est apparu au XVIIIme sicle pour dsigner des quantits numriques : des tables ou tats, issus de techniques de
dnombrement et dcrivant les ressources conomiques (impts...), la situation dmographique (conscription...), dun pays. La Statistique est une sousdiscipline des Mathmatiques qui sest dveloppe depuis la fin du XIXme
sicle notamment la suite des travaux de lcole anglaise (K. Pearson, W.
Gosset (Student), R. Fisher, J. Neyman...). Une statistique est une quantit dfinie par rapport un modle (i.e. une statistique de test) permettant dinfrer
sur son comportement dans une situation exprimentale donne.

2.2

Statistique descriptive, infrentielle et apprentissage

De manire approximative, il est possible de classer les mthodes statisUne question merge alors de faon trs prsente ; elle est fondamentale tiques en trois groupes : celui des mthodes descriptives, celui des mthodes
Page 5 sur 104

06/14

Statistique : Introduction

Individu (ou unit statistique) : tout lment de la population.

infrentielles et celui rcent de lapprentissage.


La Statistique descriptive regroupe les mthodes dont lobjectif princi-

pal est la description des donnes tudies ; cette description des donnes
se fait travers leur prsentation (la plus synthtique possible), leur reprsentation graphique, et le calcul de rsums numriques. Dans cette
optique, il nest pas fait appel des modles probabilistes. On notera que
les termes de statistique descriptive, statistique exploratoire et analyse des
donnes sont quasiment synonymes.
La statistique infrentielle. Ce terme regroupe les mthodes dont lobjectif principal est de prciser un phnomne sur une population globale,
partir de son observation sur une partie restreinte de cette population,
lchantillon. Il sagit donc dinduire (ou encore dinfrer) du particulier au gnral avec un objectif principalement explicatif. Ce passage ne
peut se faire quaux moyens de modles et dhypothses probabilistes.
Les termes de statistique infrentielle, statistique mathmatique, et statistique inductive sont eux aussi quasiment synonymes.
Lapprentissage statistique est issu de linterface entre deux disciplines :
Statistique et Machine Learning (apprentissage machine). Lobjectif est
principalement la construction dun modle statistique traditionnel ou
algorithmique sans ncessairement dhypothse probabiliste, en privilgiant la prvision dune variables qualitative (discrimination ou classification supervise) ou quantitative (rgression). Le contexte est souvent
celui de donnes de grandes dimensions avec comme dfi majeur le cas o
le nombre de variables explicatives p est considrablement plus important
que le nombre n dobservations ou taille de lchantillon dit dapprentissage.

chantillon : sousensemble de la population sur lequel sont effectivement


ralises les observations.
Taille de lchantillon n : cardinal du sous-ensemble correspondant.
Enqute (statistique) : opration consistant observer (ou mesurer, ou questionner. . . ) lensemble des individus dun chantillon.
Recensement : enqute dans laquelle lchantillon observ est la population
tout entire (enqute exhaustive).
Sondage : enqute dans laquelle lchantillon observ est un sousensemble
strict de la population (enqute non exhaustive).

E si qualitative
X
Variable (statistique) : 7
R si quantitative
caractristique (ge, salaire, sexe, glycmie. . . ), dfinie sur la population
et observe sur lchantillon ; mathmatiquement, il sagit dune application dfinie sur lchantillon. Si la variable est valeurs dans R (ou une
partie de R, ou un ensemble de parties de R), elle est dite quantitative
(ge, salaire, taille. . . ) ; sinon elle est dite qualitative (sexe, catgorie socioprofessionnelle. . . ). Si les modalits dune variables qualitatives sont
ordonnes (i.e. tranches dge), elle est dite qualitative ordinale et sinon
qualitative nominale.

Donnes (statistiques) : ensemble des individus observs (chantillon), des


variables considres, et des observations de ces variables sur ces individus. Elles sont en gnral prsentes sous forme de tableaux (individus en
lignes et variables en colonnes) et stockes dans un fichier informatique.
Lorsquun tableau ne comporte que des nombres (valeurs des variables
Dun point de vue mthodologique, la statistique descriptive prcde la staquantitatives ou codes associs aux variables qualitatives), il correspond
tistique infrentielle ou lapprentissage statistique dans une dmarche de trai la notion mathmatique de matrice.
tement de donnes : ces diffrents aspects de la statistique se compltent bien
plus quils ne sopposent une fois que le ou les objectifs : descriptif, explicatif,
3 Dmarche du statisticien
prdictif sont explicits.
Le crdo de lenseignant de statistique consiste rpter inlassablement : un
Le vocabulaire de la Statistique :
statisticien (ou les comptences quil reprsente) doit tre associ pralablePopulation (ou population statistique) : ensemble (au sens mathmatique ment une tude, des exprimentations, une enqute... De la qualit du recueil
du terme) concern par une tude statistique. On parle parfois de champ et de lorganisation des donnes dpendra bien videmment la pertinence des
de ltude.
rsultats de lanalyse. Plusieurs questions sont pralables :
Page 6 sur 104

06/14

3.1

Statistique : Introduction

Exprimentation

trop complexe, pas assez parcimonieux. Une quantit impressionnante de


Quelle est la question biologique, sociologique, pidmiologique la- mthodes ont t dveloppes ces dernires annes sans quil soit possible de
quelle je veux apporter une rponse ? En particulier, quel est lobjectif dterminer, a priori, celle qui conduira aux meilleures prvisions sur le problme et les donnes tudies.
(descriptif, explicatif, prdictif ou une combinaison) ?
Quelle est la population tudie ?
Comment planifier des expriences ou des recueils dinformations dans

des bases pr-existantes ?


Quels sont les chantillons ?
Prcision des conditions exprimentales
Observations et mesures

3.2

Quel logiciel ?

Deux logiciels sont privilgis : lun commercial SAS car le plus rpandu
et le plus demand dans les offres demplois ; lautre, R, en distribution libre
(licence GNU) comme outil de dveloppement des dernires avances mthodologiques du monde universitaire.

Exploration pour un objectif descriptif

4.1

Cette tape est de toute faon un pralable tout autre objectif. Les donnes
recueillies sont elles de qualit suffisante ? Sont-elles bien exemptes de biais
ou artefacts exprimentaux ? Leurs grandes structures (groupes, corrlations...)
sont-elles en accord avec les connaissances acquises sur le sujet ?
Valeurs manquantes, errones ou atypiques,
Modalits trop rares,
Distributions anormales,
Incohrences, liaisons non linaires,
Transformations, imputation, codage...

3.3

Dcision pour un objectif explicatif

SAS

Mis part le module SAS/IML de langage matriciel trs peu utilis, SAS
est un logiciel de type "bote noire" superposant des couches basses, pour lesquelles lutilisateur crit des lignes de code dans une syntaxe complexe, et des
interfaces graphiques conviviales (SAS/INSIGHT, SAS User Guide, Sas Enterprise Miner...). Sa diffusion est telle quil apparat en situation de quasi monopole dans certaines branches dactivit comme lindustrie pharmaceutique.
Paradoxalement, sa complexit et son cot sont des atouts pour lemploi de
statisticiens indispensables sa bonne utilisation et donc sa rentabilisation.
Son apprentissage est incontournable.

4.2

Telle variable ou tel facteur a-t-il une influence sur la variable dintrt ? Le
modle thorique est-il en accord avec les rsultats exprimentaux ?
Explicitation de lhypothse statistique rpondant la question biologique,
Dtermination du modle statistique correspondant,
Estimation des paramtres du modle et calcul de la statistique de test,
Prise de dcision : rejet ou acceptation de lhypothse.

A loppos et lexception des traitements les plus rudimentaires pilots


par menu, R est avant tout un langage de programmation pour la manipulation des objets du statisticien : vecteurs, matrices, bases de donnes, liste de
rsultats, graphiques. Dun point de vue pdagogique, sa mise en uvre oblige
lindispensable comprhension des mthodes et de leurs limites. Il force
admettre quil ne suffit pas dobtenir des rsultats, il faut leur donner du sens.
Rien ne nous semble en effet plus dangereux que des rsultats ou des gra3.4 Apprentissage pour un objectif prdictif
phiques obtenus laide de quelques clics de mulot dont ni les techniques, ni
les options, ni leurs limites ne sont clairement explicites ou contrles par
Un modle explicatif construit dans ltape prcdente peut tre un bon canlutilisateur. Il est par ailleurs risqu de se laisser enfermer par les seules mdidat comme modle prdictif mais pas ncessairement. Paradoxalement, un
thodes et options offertes par un logiciel. En pratique, le r-agencement ou
modle vrai nest pas ncessairement un meilleur modle prdictif sil est
la rorganisation de quelques commandes R offrent une combinatoire trs ouPage 7 sur 104

06/14

verte de possibilits contrairement un systme clos de menus prdfinis. Il


offre par ailleurs, grce de nombreuses librairies facilement accessibles et
continuellement mises jour, un ensemble exhaustif des techniques et de leurs
options ainsi que des interfaces des gestionnaires de bases de donnes ou des
outils spcifiques certaines disciplines (Biologie). Les limitations de R sont
dune part celles dun langage interprt : lenteur pour lexcution de boucles
( viter) et dautre part la taille des donnes car elles sont toutes charges en
mmoire.

Statistique : Introduction

que faire lorsque les transcriptions (quantits dARN messagers) de milliers de


gnes (les variables statistiques) sont simultanment observes pour seulement
quelques dizaines dchantillons biologiques ?
La figure : 1 est un exemple original demploi de lanalyse canonique (objectif descriptif). Cette mthode permet de mettre en relation deux paquets de
variables (gnes et concentrations dacides gras) observes sur les mmes individus (souris).

Le jeu de donnes utilis provient de lUnit de Pharmacologie-Toxicologie


de lINRA de Toulouse. Il concerne 40 souris rparties en 2 gnotypes (sauvages et gntiquement modifies : PPAR dficientes) et 5 rgimes alimenEn rsum, il est bien et utile de savoir utiliser ces deux types de logiciels et taires (dha, efad, lin, ref, tsol). Le plan est quilibr complet : quatre souris par
il est important de comprendre que lapprentissage syntaxique dun logiciel est combinaison des deux facteurs.
indispensable mais secondaire. Une fois les mthodes comprises et apprhendha rgime enrichi en acides gras de la famille Omga 3 et particulirement
des, il est techniquement facile de passer dun logiciel lautre, leurs foncen acide docosahexanoque (DHA), base dhuile de poisson ;
tionnalits tant structurellement les mmes. La difficult principale ne rside
efad (Essential Fatty Acid Deficient) : rgime constitu uniquement dacides
pas dans lobtention de sorties ou rsultats mais dans leur comprhension.
gras saturs, base dhuile de coco hydrogne ;

4.3

Quel choix ?

Domaines dapplication

lin rgime riche en Omga 3, base dhuile de lin ;

Toutes les mthodes et techniques utilises ncessitent dtre illustres sur


des exemples simples ou "acadmiques", pour ne pas dire simplistes, afin den
comprendre les fondements. Nanmoins, leur apprentissage effectif requiert
leur utilisation effective sur des jeux de donnes en vraie grandeur, issus de
diffrents domaines dapplications. Ce nest qu cette condition que peuvent
tre apprhendes les difficults de mise en uvre, les limites, les stratgies
dinterprtation mais aussi la grande efficacit de ces outils.
Ils sont tirs des principaux domaines dapplication de la Statistique.

5.1

ref rgime dont lapport en Omga 6 et en Omga 3 est adapt des Apports
Nutritionnels Conseills pour la population franaise, soit sept fois plus
dOmga 6 que dOmga 3 ;
tsol riche en Omga 6, base dhuile de tournesol.
Les expressions des gnes ainsi que des concentrations de 21 acides gras sont
mesures au niveau du foie aprs euthanasie. Ce jeu de donnes aux problmatiques statistiques trs riches est trs souvent repris tout au long des prsentations des diffrentes mthodes.

5.2

Sciences de la Vie

Depuis les travaux pionniers de Sir Ronald Fisher, les disciplines des
Sciences de la Vie ont toujours motiv les dveloppements de la Statistique :
modles de dure de vie, modles pidmiologiques, dynamique de population... Les techniques de squenage et les technologies dinstrumentation
haut dbit (transcriptomique, protomique, mtabolomique...) viennent renforcer lourdement cette tendance en posant des dfis redoutables au statisticien :

Marketing

La prospection ou fouille de donnes (data mining) est une appellation issue


des services marketing spcialiss dans la gestion de la relation client (GRC)
(client relation management ou CRM). Elle dsigne un ensemble de techniques
statistiques souvent regroupes dans un logiciel spcialement conu cet effet
et vendu avec un slogan racoleur (SAS Enterprise Miner) :
Comment trouver un diamant dans un tas de charbon sans se salir
les mains.

Page 8 sur 104

06/14

1.0

C22.6n.3

0.0
1.0

0.5

Dimension 2

0.5

C20.5n.3
GSTpi2 CYP3A11
C22.5n.3
CYP2c29
C18.0
G6Pase
CYP4A14
SPI1.1
CYP4A10
GSTmu
C20.3n.3
C18.2n.6
Tpalpha
PMDCI
mHMGCoAS
CBS
AOX C16.0
C18.3n.3
C16SR
PECI THIOL
IL.2 PPARd
THB
MCAD
Tpbeta
C20.3n.6GSTa
Pex11a LCE BACT
apoE
HPNCL
ACOTH
BIEN
CACP
ACAT1
CAR1
ALDH3
M.CPT1
PXR
i.BABP
PPARg
L.FABP
apoB
X36b4
OCTN2
CPT2
Waf1
ACBP
ACAT2
CIDEA
CYP26
RXRb2
i.BAT
SHP1
MDR1
LXRb
TRa
C20.2n.6PON
cMOAT BSEP
PAL CYP8b1
LPL
mABC1
CYP27b1
VLDLr
CYP2b10
FXR
MTHFR
NURR1
ADISP
MRP6 Lpin2 FAS
ACC1
SIAT4cRXRa
GS
AM2R
Lpin
ap2COX1
C20.4n.6
Lpin3
CYP27a1
apoC3
Lpin1
LXRa
C20.1n.9
Bcl.3
hABC1
LPK
PDK4
TRb
NGFiB
C22.4n.6
CYP7a
MS
MDR2
RXRg1
GK
PPARa
CYP2b13
RARa
ADSS1
UCP3
RARb2
C22.5n.6
COX2
CYP24
VDR
c.fos
eif2g
i.NOS
apoA.I
UCP2
C18.3n.6
FDFT
SR.BIFAT G6PDH
Ntcp
i.FABP cHMGCoAS
LDLr
S14
C14.0
C20.3n.9
C16.1n.9 C16.1n.7
ACC2HMGCoAred
PLTP
C18.1n.9
C18.1n.7

1.0

0.5

0.0

0.5

1.0

Dimension 1

dha

0.2

WT
PPAR

dha
dha
dha

lin

0.0

lin

tsol

lin
lin tsol
tsol

0.2

0.1

Dimension 2

0.1

dha

dha
dha
dha lin
lin lin

refref
ref
ref

lin
tsol ref
ref
efad
refref
efad

tsol
tsol
tsol
tsol

efad

efad
efad
efad
efad

efad

0.4

0.3

0.2

0.1

0.0

Dimension 1

0.1

0.2

Statistique : Introduction

Les entreprises commerciales du tertiaire (banques, assurances, tlphonie,


marketing directe, publipostage, ventes par correspondance...) sont en effet trs
motives pour tirer parti et amortir, par une aide la dcision quantifie, les
cots de stockage des traoctets que leur service informatique semploie administrer.
Le contexte informationnel de la fouille de donnes est celui des data warehouses. Un entrept de donnes, dont la mise en place est assure par un gestionnaire de donnes (data manager), est un ensemble de bases relationnelles
extraites des donnes brutes de lentreprise et relatives une problmatique.
Chaque banque, assurance... dispose dun fichier client qui, pour des raisons
comptables, enregistre tous leurs mouvements et comportements. Les donnes
anonymes en provenance dune banque dcrivent tous les soldes et produits financiers (emprunt, contrats dassurance vie...) dtenus par les clients ainsi que
lhistorique mensuel des mouvements, nombre doprations, de jours dcouvert... La base initiale tudie comprend 1425 clients dcrits par 32 variables
explicites dans une vignette dcrivant les donnes.
Le graphique reprsent est un grand classique du marketing bancaire.
Lobjectif (descriptif) de statistique multidimensionnelle est de construire des
classes ou segments de clients homognes quant leur comportement bancaire.
Une fois les classes construites et lensemble des clients affects, lagent commercial sait quel langage adopter, quels produits proposer au client quil a en
face de lui. Aprs une analyse factorielle des correspondances multiples, les
clients caractriss par leur nouvelles coordonnes sont regroups en classes
dont lexplicitation est facilite par la reprsentation des modalits de ces
classes dans le plan factoriel de lanalyse des correspondances multiples (figure 2). Un autre objectif (apprentissage) est abord sur ces mmes donnes
pour la recherche de scores dapptences ou dattrition. Les applications marketing sont trs nombreuses (intrts de certains clients pour des produits financiers, risque pour dautres clients de changer de fournisseur en tlphonie).
Elles le sont galement dans les applications financires : risque de dfaut de
paiement dun client, de ruine dune entreprise.

F IGURE 1 Souris : premier plan des facteurs canoniques : reprsentation 5.3 Industrie
conjointe des relations gnes et acides gras puis des souris selon le gnotype
Pour des raisons culturelles et historiques trop longues dvelopper (culture
et le rgime suivi.
dterministe des coles dingnieurs...), la Statistique a une place trs miPage 9 sur 104

06/14

Statistique : Introduction

neures dans lindustrie franaise sauf en cas dobligation lgale : essais cliniques pour lautorisation de mise sur le march des mdicaments, contrle
de qualit et fiabilit des matriaux pour la conformit aux normes ISO... La
Statistique est ainsi plus vcue comme une contrainte, un contrle, que comme
une aide la dcision. Dautre part, les exemples dvelopps dans le cadre
de thses sont, outre les questions de confidentialit, souvent trop complexes
expliciter pour sadapter la simple illustration de ce cours. Nanmoins, il
faut tre conscient que chacune des techniques abordes, en particulier celles
de biostatistique, se transposent directement : dure de vie et fiabilit des matriaux, fouille de donnes et traabilit pour la dtection de dfaillances... Le
contexte est souvent techniquement trs complexe en terme de modlisation
physique mais plus favorable sur le plan statistique, du fait notamment dun
plus grand nombre dobservations que dans le domaine de la sant.

5.4

Big Data

Les entreprises industrielles sont actuellement confrontes la mme situation que celles du tertiaire il y a vingt ans : afflux automatique et stockage
massif de donnes. La situation et donc les mtiers de la Statistique voluent
considrablement dans ce domaine. Aprs une priode o la question principale est : comment organiser et structurer les matriels et bases de donnes, la
question suivante est : que faire, quelles analyses dveloppes pour les valoriser et aider la dcision ? Prospection numrique dans lindustrie ptrolire,
web mining des sites marchands en pleine explosion, utilisation massive des
reprages GPS de flottes de vhicules, btiments intelligents bards de capteurs, imagerie 3D... Les applications et problmes ncessitent en plus, par
F IGURE 2 Banque : reprsentation des classes de clients, w1 w5, dans le rapport au data mining maintenant classique, une rflexion approfondie sur les
structures de donnes : fonctions, surfaces, graphes...
premier plan factoriel de lanalyse des correspondances multiples

Quelles comptences ?

Les comptences acquises doivent permettre de rpondre avec assurance aux


questions suivantes ou alors conduire une proposition de redfinition de la
problmatique envisage si celle-ci est trop mal engage.
Quelle est prcisment la question pose ?
Quelle mthode utiliser avec quelles limites ?
Comment la mettre en uvre ?
Page 10 sur 104

06/14

Statistique : Introduction

Comprendre les sorties du logiciel utilis.


Quelle dcision ?

Un argument tendancieux, pour ne pas dire fallacieux, est souvent avanc :


il nest pas besoin dtre mcanicien pour conduire une voiture. Cest vrai,
il nest pas ncessaire dtre informaticien pour utiliser un ordinateur. En revanche, toute tude statistique ncessite des choix fondamentaux : transformation des donnes, slection de variables, choix de mthodes, valeurs des options et paramtres de ces mthodes... quil nest pas prudent de laisser faire,
par dfaut, au logiciel utilis. Ces choix ne sont pas anodins et autrement plus
difficiles dterminer que le choix du carburant dans une voiture. Ils doivent
tre conduits en connaissance de cause par opposition une stratgie de Shadok (cf. figure 3) qui est un mode dapprentissage de type "jeux vidos" :
exclusivement par essais erreurs. Elles est utile, mais pas en toute circonstance, car il ne suffit pas dobtenir un rsultat pour quil soit pertinent ou mme
simplement juste.

F IGURE 3 Shadok : devise numro 1

Page 11 sur 104

06/14

Statistique descriptive unidimensionnelle

Rsum
Les objectifs et la dmarche dun premire exploration dun jeu
de donnes, les outils de la description statistique dune variable
quantitative (indicateur de tendance centrale, de dispersion, histogramme, diagramme-bote), puis dune variable qualitative (frquences).
Retour au plan.

Introduction

lobjectif des outils de Statistique descriptive lmentaire est de fournir des


rsums synthtique de sries de valeurs, adapts leur type (qualitatives ou
quantitatives), et observes sur une population ou un chantillon.

Statistique descriptive unidimensionnelle

1.1

Dmarche

Toute tude sophistique dun corpus de donnes doit tre prcde dune
tude exploratoire laide doutils, certes rudimentaires mais robustes, en privilgiant les reprsentations graphiques. Cest la seule faon de se familiariser
avec des donnes et de dpister les sources de problmes :
valeurs manquantes, errones ou atypiques, biais exprimentaux,
modalits trop rares,
distributions anormales (dissymtrie, multimodalit, paisseur des
queues),
incohrences, liaisons non linaires.
...
Cest ensuite la recherche de prtraitements des donnes afin de corriger les
sources de problmes et les rendre exploitables par des techniques plus sophistiques :
transformation : logarithme, puissance, rduction, rangs. . . des variables,
codage en classe ou recodage de classes,
imputations ou non des donnes manquantes,
lissage, dcompositions (ondelettes, Fourier) de courbes,
Ensuite, les techniques exploratoires multidimensionnelles permettent des
reprsentations graphiques synthtiques,
rductions de dimension pour la compression ou le rsum des donnes,
recherches et reprsentations de typologies des observations.

Dans le cas dune seule variable, Les notions les plus classiques sont celles
de mdiane, quantile, moyenne, frquence, variance, cart-type dfinies paralllement des reprsentations graphiques : diagramme en bton, histogramme,
diagramme-bote, graphiques cumulatifs, diagrammes en colonnes, en barre ou 1.2 Avertissement
en secteurs.
Attention le ct rudimentaire voire trivial des outils de statistique descripDans le cas de deux variables, on sintresse la corrlation, au rapport tive uni et bidimensionnelle ne doit pas conduire les ngliger au profit dune
de corrlation ou encore la statistique dun test du 2 associ une table mise en uvre immdiate de mthodes beaucoup plus sophistiques, donc
de contingence. Ces notions sont associes diffrents graphiques comme le beaucoup plus sensibles aux problmes cits ci-dessus. Sils ne sont pas pris
nuage de points (scatterplot), les diagrammes-botes parallles, les diagrammes en compte, ils rapparatront alors comme autant dartefacts susceptibles de
dnaturer voire de fausser toute tentative de modlisation.
de profils ou encore en mosaque.
Les dfinitions de ces diffrentes notions se trouvent dans nimporte quel ouvrage lmentaire de Statistique, nous nous proposons simplement de rappeler
dans ce chapitre certains outils moins classiques mais efficaces et prsents dans
la plupart des logiciels statistiques. Cela nous permettra galement dillustrer
les premires tapes descriptives raliser sur un jeu de donnes.

Plus prcisment, les mthodes descriptives ne supposent, a priori, aucun


modle sous-jacent, de type probabiliste. Ainsi, lorsque lon considre un ensemble de variables quantitatives sur lesquelles on souhaite raliser une Analyse en Composantes Principales, il nest pas ncessaire de supposer que ces
variables sont distribues selon des lois normales. Nanmoins, labsence de

Page 12 sur 104

06/14

Statistique descriptive unidimensionnelle

xl
24
26
29
31
33
37
38
41
43
45
46
49
50
52
57
59
60
62

donnes atypiques, la symtrie des distributions sont des proprits importantes des sries observes pour sassurer de la qualit et de la validit des
rsultats.
Le droulement pdagogique linaire ne doit pas faire perdre de vue que
la ralit dune analyse est plus complexe et ncessite diffrentes tapes en
boucle afin, par exemple, de contrler linfluence possible des choix parfois
trs subjectifs oprs dans les tapes de normalisation ou transformation des
donnes pour ventuellement les remettre en cause.

2
2.1

Variable quantitative
Variable quantitative discrte

nl
1
2
3
2
4
2
4
3
3
1
6
3
1
3
5
2
2
1

Nl
1
3
6
8
12
14
18
21
24
25
31
34
35
38
43
45
47
48

fl (%)
2,08
4,17
6,25
4,17
8,33
4,17
8,33
6,25
6,25
2,08
12,50
6,25
2,08
6,25
10,42
4,17
4,17
2,08

Fl (%)
2,08
6,25
12,50
16,67
25,00
29,17
37,50
43,75
50,00
52,08
64,58
70,83
72,91
79,16
89,58
93,75
97,92
100,00

Introduction
TABLE 1 Effectifs, effectifs cumuls, frquences et frquences cumules.
En gnral, on appelle variable quantitative discrte une variable quantitative ne prenant que des valeurs entires (plus rarement dcimales). Le nombre
de valeurs distinctes dune telle variable est habituellement assez faible (sauf appeles effectifs et notes n . Les effectifs n sont souvent remplacs par les
l
l
exception, moins dune vingtaine). Citons, par exemple, le nombre denfants quantits f = nl , appeles frquences (rappelons que n dsigne le nombre
l
n
Pr
dans une population de familles, le nombre dannes dtudes aprs le bac dans total dobservations,
cestdire le cardinal de : n =
l=1 nl ).
une population dtudiants. . .
On a not lge (arrondi lanne prs) des 48 salaris dune entreprise ; la srie statistique brute est donne ci-dessous (il sagit de
donnes fictives).
43 29 57 45 50 29 37 59 46 31 46 24 33 38 49 31
62 60 52 38 38 26 41 52 60 49 52 41 38 26 37 59

Les effectifs cumuls et les frquences cumules Il peut tre utile de complter le tableau statistique en y rajoutant soit les effectifs cumuls, soit les
frquences cumules. Ces quantits sont respectivement dfinies de la faon
suivante :
l
l
X
X
Nl =
nj et Fl =
fj .
j=1

57 41 29 33 33 43 46 57 46 33 46 49 57 57 46 43

j=1

On notera que Nr = n et Fr = 1.

Prsentation des donnes


Le tableau statistique Cest un tableau dont la premire colonne comporte lensemble des r observations distinctes de la variable X ; ces observations sont ranges par ordre croissant et non rptes ; nous les noterons
{xl ; l = 1, . . . , r}. Dans une seconde colonne, on dispose, en face de chaque
valeur xl , le nombre de rplications qui lui sont associes ; ces rplications sont

Illustration Dans le tableau statistique (1), on a calcul, sur les donnes prsentes dans lexemple 2.1, les effectifs, effectifs cumuls, frquences et frquences cumules.
Remarque.

Page 13 sur 104

06/14

Statistique descriptive unidimensionnelle

Comme cest le cas ci-dessus, les frquences sont souvent exprimes en

pourcentages.
Le choix entre effectifs (resp. effectifs cumuls) et frquences (resp. fr-

quences cumules) est trs empirique ; il semble naturel de choisir les


effectifs lorsque leffectif total n est faible et les frquences lorsquil est
plus important ; la limite approximative de 100 parat, dans ces conditions,
assez raisonnable.
La prsentation tigeetfeuille (ou stemandleaf) Cette faon particulire de prsenter les donnes est assez commode, dans la mesure o elle
prfigure dj un graphique. Elle est illustre cidessous sur le mme exemple
que prcdemment.
2
3
4
5
6

F IGURE 1 Diagramme en btons

466999
113333778888
1113335666666999
02227777799
002

Elle consiste donc, dans la prsentation des donnes, sparer la partie des
dizaines de celle des units. En face de la partie des dizaines, chaque unit
est rpte autant de fois quil y a dobservations de la valeur correspondante.
Bien entendu, cette prsentation doit tre adapte de faon approprie lorsque
les donnes sont dun autre ordre de grandeur.

F IGURE 2 Diagramme cumulatif

Reprsentations graphiques
Pour une variable discrte, on rencontre essentiellement deux sortes de re- dobservations infrieures ou gales une valeur donne de la srie. Lorsquil
prsentations graphiques, qui sont en fait complmentaires : le diagramme en est relatif aux frquences, cest en fait le graphe de la fonction de rpartition
btons et le diagramme cumulatif (en escaliers).
empirique FX dfinie de la faon suivante :
Le diagramme en btons Il permet de donner une vision densemble des
observations ralises. La figure 1 donne le diagramme en btons des donnes
de lexemple 2.1.

0
Fl
FX (x) =

si x < x1 ,
si xl x < xl+1 ,
si x xr .

l = 1, . . . , r 1,

Le diagramme cumulatif Il figure les effectifs cumuls (resp. les frquences


Le diagramme cumulatif relatif lexemple 2.1 est donn par la figure 2.
cumules) et permet de dterminer simplement le nombre (resp. la proportion)
Page 14 sur 104

06/14

Statistique descriptive unidimensionnelle

Notion de quantile
Dfinition La frquence cumule Fl (0 Fl 1) donne la proportion dobservations infrieures ou gales xl . Une approche complmentaire consiste
se donner a priori une valeur , comprise entre 0 et 1, et rechercher x
vrifiant FX (x ) ' . La valeur x (qui nest pas ncessairement unique)
est appele quantile (ou fractile) dordre de la srie. Les quantiles les plus
utiliss sont associs certaines valeurs particulires de .
La mdiane et les quartiles La mdiane est le quantile dordre 12 ; elle partage donc la srie des observations en deux ensembles deffectifs gaux. Le
premier quartile est le quantile dordre 14 , le troisime quartile celui dordre 43
(le second quartile est donc confondu avec la mdiane).
F IGURE 3 Diagramme-bote et moyenne en rouge
Les autres quantiles Les quintiles, dciles et centiles sont galement
dusage assez courant.
la mdiane,
la moyenne (ou moyenne arithmtique).

Le diagramme-bote (ou boxandwhisker plot) Il sagit dun graphique trs simple qui rsume la srie partir de ses valeurs extrmes, de ses Formule de la moyenne pour une variable quantitative discrte :
quartiles et de sa mdiane. La figure 3 donne le diagrammebote de lexemple
2.1. Dans cet exemple, on a obtenu x 14 = 35, x 12 = 44 et x 34 = 52 ; on nor
r
X
1X
tera que lobtention, dune part de x 14 et x 12 , dautre part de x 43 , ne sest pas
x =
n l xl =
fl xl .
n
faite de la mme faon (en fait, avec une variable discrte, la dtermination
l=1
l=1
des quantiles est souvent approximative comme on peut le constater avec cet
exemple).
Caractristiques numriques

Dispersion Elles servent prciser la variabilit de la srie, cestdire


Les caractristiques (ou rsums) numriques introduites ici servent syn- rsumer lloignement de lensemble des observations par rapport leur tenthtiser la srie tudie au moyen dun petit nombre de valeurs numriques. On dance centrale.
distingue essentiellement les caractristiques de tendance centrale (ou encore
Ltendue (xr x1 ),
de position ou de localisation) et les caractristiques de dispersion.
lintervalle inter-quartiles (x 3 x 1 ),
4
4


Pr


1
lcart-moyen la mdiane ( n1
n

x
x
),
l
l=1 l
2
Tendance centrale Leur objectif est de fournir un ordre de grandeur de la
P
r
1
lcart-moyen la moyenne ( n l=1 nl |xl x|),
srie tudie, cestdire den situer le centre, le milieu. Les deux caractristiques les plus usuelles sont :
sont des caractristiques de dispersion que lon rencontre parfois.
Page 15 sur 104

06/14

Statistique descriptive unidimensionnelle

Mais, la caractristique de loin la plus utilise est lcarttype, racine carre


En gnral, les deux raisons principales qui peuvent amener considrer
positive de la variance. Formules de la variance :
comme continue une variable quantitative sont le grand nombre dobservations distinctes (un traitement en discret serait dans ce cas peu commode) et
r
X
le caractre sensible dune variable (il est moins gnant de demander des
1
2
var(X) = X
=
nl (xl x)2
individus leur classe de salaire que leur salaire prcis). Deux exemples de van
l=1
riables quantitatives frquemment considres comme continues sont lge et
r
1X
le revenu (pour un groupe dindividus).
2
2
=
nl (xl ) (x) .
n
Nous noterons (b0 ; b1 ),. . . ,(br1 ; br ) les classes considres. Les nombres
l=1

bl1 et bl sont appels les bornes de la li`eme classe ; bl12+ bl est le centre de
cette classe et (bl bl1 ) en est lamplitude (en gnral note al ).

Lcarttype de X sera donc not X .

Prsentation des donnes


Illustration En utilisant toujours lexemple 2.1, on a calcul :

2094
1X
n l xl =
= 43, 625 ' 43, 6 ans ;
n
48
l=1

2
X

r
1X
96620
=
nl (xl )2 (x)2 =
(43, 625)2 ' 109, 7760 ;
n
48
l=1
q
2 ' 10, 5 ans.
=
X

Remarque. Toutes les caractristiques numriques introduites ici (mdiane,


moyenne, variance, carttype...) sont dites empiriques, cestdire calcules
sur un chantillon ; par opposition, on parle, par exemple, de moyenne thorique (ou esprance mathmatique) pour dsigner le concept de moyenne relatif une variable alatoire relle.

2.2

On utilise encore un tableau statistique analogue celui vu au paragraphe


prcdent, en disposant dans la premire colonne les classes ranges par ordre
croissant. Les notions deffectifs, de frquences, deffectifs cumuls et de frquences cumules sont dfinies de la mme faon que dans le cas discret. On
notera que lon nutilise pas dans ce cas la prsentation tigeetfeuille car les
valeurs exactes de la srie sont inconnues.
Le tableau ci-dessous donne, pour lanne 1987, la rpartition des
exploitations agricoles franaises selon la SAU (surface agricole
utilise) exprime en hectares (Tableaux conomiques de Midi
Pyrnes, INSEE, 1989, p. 77) ; la SAU est ici une variable quantitative continue comportant 6 classes.

Variable quantitative continue

SAU (en ha)


moins de 5
de 5 10
de 10 20
de 20 35
de 35 50
plus de 50

frquences (%)
24,0
10,9
17,8
20,3
10,2
16,8

Gnralits
Reprsentations graphiques
Une variable quantitative est dite continue lorsque les observations qui lui
Les deux graphiques usuels remplaant respectivement dans ce cas le diasont associes ne sont pas des valeurs prcises mais des intervalles rels. Cela
signifie que, dans ce cas, le sousensemble de R des valeurs possibles de la gramme en btons et le diagramme cumulatif sont lhistogramme et la courbe
cumulative.
variable tudie a t divis en r intervalles contigus appels classes.
Page 16 sur 104

06/14

Statistique descriptive unidimensionnelle

F IGURE 5 Histogramme (classes deffectifs gaux) des rpartitions des SAU

F IGURE 4 Courbe cumulative


Courbe cumulative Cest encore une fois le graphe de la fonction de rpartition empirique, cette dernire devant maintenant tre prcise au moyen
dinterpolations linaires.
On appelle fonction de rpartition empirique de la variable continue X la
fonction FX dfinie par :

0
Fl1 +
FX (x) =

fl
bl bl1 (x

si x < b0 ,
bl1 ) si bl1 x < bl ,
si x br

l = 1, . . . , r,

fX (x) =

fl
bl bl1

si x < b0 ,
si bl1 < x < bl ,
si x br .

l = 1, . . . , r,

Le graphe de fX est alors appel histogramme de la variable X. Un histogramme est donc la juxtaposition de rectangles dont les bases sont les amplitudes des classes considres (al = bl bl1 ) et dont les hauteurs sont
fl
les quantits bl b
, appeles densits de frquence. Laire du li`eme rectangle
l1
vaut donc fl , frquence de la classe correspondante.
Lhistogramme correspondant aux donnes de lexemple 2.2 est prsent
dans la figure 5.

(on a suppos F0 = 0).


La courbe cumulative relative lexemple 2.2 est donne par la figure 4. On
notera que dans cet exemple, comme cest souvent le cas avec une variable
quantitative continue, il a fallu fixer arbitrairement la borne infrieure de la
premire classe (il tait naturel ici de prendre b0 = 0) ainsi que la borne suprieure de la dernire classe (on a choisi b6 = 200, mais dautres choix taient
possibles).

Estimation fonctionnelle La qualit de lestimation dune distribution par


un histogramme dpend beaucoup du dcoupage en classe. Malheureusement,
plutt que de fournir des classes deffectifs gaux et donc de mieux rpartir
limprcision, les logiciels utilisent des classes damplitudes gales et tracent
donc des histogrammes parfois peu reprsentatifs. Ces 20 dernires annes,
la suite du dveloppement des moyens de calcul, sont apparues des mthodes
destimation dites fonctionnelles ou non-paramtriques qui proposent destiHistogramme La fonction de rpartition empirique est, dans le cas continu, mer la distribution dune variable ou la relation entre deux variables par une
une fonction drivable sauf, ventuellement, aux points dabscisses b0 , b1 , . . . , fonction construite point par point (noyaux) ou dans une base de fonctions
br . Sa fonction drive, ventuellement non dfinie en ces points, est appele splines. Ces estimations sont simples calculer (pour lordinateur) mais ndensit empirique de X et note fX . On obtient :
cessitent le choix dun paramtre dit de lissage. Les dmonstrations du caPage 17 sur 104

06/14

Statistique descriptive unidimensionnelle

ractre optimal de ces estimations fonctionnelles, lie loptimalit du choix


de la valeur du paramtre de lissage, font appel des outils thoriques plus
sophistiques sortant du cadre de ce cours (Eubank, 1988, Silverman, 1986).
Lestimation de la densit par la mthode du noyau se met sous la forme
gnrale :


n
x xi
1 X
K
gb (x) =
n i=1

o est le paramtre de lissage optimise par une procdure automatique qui


minimise une approximation de lerreur quadratique moyenne intgre (norme
de lespace L2 ) ; K est une fonction symtrique, positive, concave, appele
noyau dont la forme prcise importe peu. Cest souvent la fonction densit de
la loi gaussienne :
F IGURE 6 Histogramme (classes amplitudes gales) des rpartitions des
1
K(t) = exp(t2 /2)
ges
et estimation non paramtrique de la densit par la mthode du noyau
2
(en rouge).
qui possde de bonnes proprits de rgularit. Le principe consiste simplement associer chaque observation un lment de densit de la forme
du noyau K et sommer tous ces lments. Un histogramme est une version Illustration
particulire destimation dans laquelle llment de densit est un petit recLa mdiane de la variable prsente dans lexemple 2.2 se situe dans la
tangle dans la classe de lobservation.
classe (10 ; 20), puisque la frquence cumule de cette classe (52,7) est la premire dpasser 50. On dtermine la mdiane en faisant linterpolation linaire
Quantiles
suivante (lindice l cidessous dsigne en fait la troisime classe) :
Les quantiles x dune variable continue peuvent tre dtermins de faon
directe partir de la courbe cumulative. Cela signifie que, par le calcul, on
50 Fl1
doit commencer par dterminer la classe dans laquelle se trouve le quantile
x 21 = bl1 + al
cherch, puis le dterminer dans cette classe par interpolation linaire (voir
Fl Fl1
lillustration plus loin).
15, 1
= 10 + 10
17, 8
Moyenne et cart-type
' 18, 5 ha.
La moyenne, la variance et lcarttype dune variable continue se dterminent de la mme manire que dans le cas discret ; dans les formules, on
La moyenne vaut :
doit prendre pour xl les centres de classes au lieu des observations (qui ne
r
X
3080, 5
sont pas connues). Les valeurs obtenues pour ces caractristiques sont donc
' 30, 8 ha.
x=
fl xl =
100
assez approximatives ; cela nest pas gnant dans la mesure o le choix de trail=1
ter une variable quantitative comme continue correspond lacceptation dune
certaine imprcision dans le traitement statistique.
Remarque.
Page 18 sur 104

06/14

Statistique descriptive unidimensionnelle

Dans cet exemple, il convient de noter trois choses :

3.2

tout dabord, pour le calcul de la moyenne, nous avons choisi x6 = 100,

Il est clair quon ne peut pas envisager de calculer des caractristiques numriques avec une variable qualitative (quelle soit nominale ou ordinale). Dans
ltude statistique dune telle variable, on se contentera donc de faire des tableaux statistiques et des reprsentations graphiques. Encore fautil noter que
les notions deffectifs cumuls et de frquences cumules nont de sens que
pour des variables ordinales (elles ne sont pas dfinies pour les variables nominales).

plutt que 125, car cette valeur nous a sembl plus proche de la ralit ;
ensuite, il se trouve que, dans ce cas, on peut calculer la vraie valeur de
la moyenne, connaissant la SAU totale en France (31 285 400 ha) et le
nombre total dexploitations agricoles (981 720) ; on obtient 31,9 ha, ce
qui signifie que lapproximation obtenue ici est trs correcte ;
enfin, le fait que la mdiane soit sensiblement plus faible que la moyenne
caractrise les sries fortement concentres sur les petites valeurs.

2.3

3.3

Variables quantitatives et logiciels

Traitements statistiques

Reprsentations graphiques

Les reprsentations graphiques que lon rencontre avec les variables qualiLe volume des donnes et la pratique gnralise des logiciels statistiques tatives sont assez nombreuses. Les trois plus courantes, qui sont aussi les plus
induit une prise en compte particulire des notions prcdentes. Par principe, appropries, sont :
le codage des valeurs, mmes relles, est toujours discret, et la prcision fonc le diagramme en colonnes,
tion du nombre de chiffres significatifs pris en compte En consquences, tous
le diagramme en barre,
les calculs des indicateurs (moyenne, variance, quantile...) sont traits avec
le diagramme en secteurs.
les formules considrant les valeurs comme connues et discrtes, sans pour
Les figures 8, 7 et 9 prsentent chacun de ces trois graphiques sur les donautant sintresser aux frquences des valeurs car ces dernires sont gnralement distinctes les unes des autres. En revanche, les graphiques produits (his- nes de lexemple 3.3.
togramme, courbe cumulative mais pas lestimation fonctionnelle) sont issus
Le tableau cidessous donne la rpartition de la population active
de dcoupages automatiques en classes damplitudes gales, pas toujours trs
occupe (ayant effectivement un emploi) selon la CSP (catgorie sojudicieux, selon les principes des variables continues.
cioprofessionnelle), en France, en mars 1988 (Tableaux de lconomie Franaise, INSEE, 1989, p. 59).

3.1

Variable qualitative

Variables nominales et ordinales

Par dfinition, les observations dune variable qualitative ne sont pas des valeurs numriques, mais des caractristiques, appeles modalits. Lorsque ces
modalits sont naturellement ordonnes (par exemple, la mention au bac dans
une population dtudiants), la variable est dite ordinale. Dans le cas contraire
(par exemple, la profession dans une population de personnes actives) la variable est dite nominale.

CSP
1. agriculteurs exploitants
2. artisans, commerants, chefs dentreprises
3. cadres, professions intellectuelles suprieures
4. professions intermdiaires
5. employs
6. ouvriers

Page 19 sur 104

effectifs en milliers
1312
1739

frquences (%)
6,1
8,1

2267

10,6

4327
5815
6049

20,1
27,0
28,1

06/14

Statistique descriptive unidimensionnelle

Dtection de problmes

Les quelques outils de ce chapitre permettent dj de se faire une premire


ide dun jeu de donnes mais surtout, en pralable toute analyse, ils permettent de sassurer de la fiabilit des donnes, de reprer des valeurs extrmes
atypiques, ventuellement des erreurs de mesures ou de saisie, des incohrences de codage ou dunit.

F IGURE 7 Diagramme en colonnes

F IGURE 8 Diagramme en barre

Les erreurs, lorsquelle sont dceles, conduisent naturellement et ncessairement leur correction ou llimination des donnes douteuses mais dautres
problmes pouvant apparatre nont pas toujours de solutions videntes.
Le mitage de lensemble des donnes ou absence de certaines valeurs en
fait partie. Faut-il supprimer les individus incrimins ou les variables ?
Faut-il complter, par une modlisation et prvision partielles, les valeurs
manquantes ? Les solutions dpendent du taux de valeurs manquantes,
de leur rpartition (sont-elles alatoires) et du niveau de tolrance des
mthodes qui vont tre utilises.
La prsence de valeurs atypiques peut influencer svrement des estimations de mthodes peu robustes car bases sur le carr dune distance. Ces
valeurs sont-elles des erreurs ? Sinon faut-il les conserver en transformant
les variables ou en adoptant des mthodes robustes bases sur des carts
absolus ?
Mme sans hypothse explicite de normalit des distributions, il est prfrable davoir faire des distributions relativement symtriques. Une
transformation des variables par une fonction monotone (log, puissance)
est hautement recommande afin damliorer la symtrie de leur distribution ou encore pour linariser (nuage de points) la nature dune liaison.

4.1

Marketing bancaire

Les donnes de patrimoine, de revenu, comme galement celles de concentration prsente des distributions trs disymtriques (figure 10 accompagnes
de nombres importants de valeurs atypiques. Le diagramme bote est un outil
efficace pour identifier ce problme avant dy remdier par une transformation
approprie, ici le logarithme.

F IGURE 9 Diagramme en secteurs


Page 20 sur 104

06/14

10

Statistique descriptive unidimensionnelle

F IGURE 10 Banque : La simple transformation (log(50 + x)), de la variable cumulants les avoirs, rsout bien les problmes poss par lallure lognormale de sa distribution avec son cortge de valeurs atypiques.

PPAR

WT

4.2

Donnes gnomiques
1

Le diagramme bote parallle est galement trs efficace pour visualiser simultanment les distributions dun grand nombre de variables, par exemple
de centaines voire de milliers de gnes, dont lexpression a t observe dans
diffrentes conditions exprimentales. Dans cet exemple, la reprsentation des
dha
tsol
dha
tsol
efad
ref
efad
ref
lin
lin
diagrammes en botes pour les souris, ordonnes selon le gnotype et le rgime suivi (Fig. 11) ne donne a priori aucune tendance spcifique sur le com1
3
5
7
9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
portement de lensemble des gnes. Cette reprsentation atteste de la qualit
40 souris
de la production et de prtraitement des donnes. En effet, celles-ci ont t recueillies en utilisant une membrane par souris ; ainsi, une quelconque anomalie
sur un support, affectant lensemble des mesures relatives une souris parti- F IGURE 11 Souris : diagrammes en botes pour les 40 souris. La ligne verculire, apparatrait ncessairement sur cette reprsentation. Notons seulement ticale et paisse spare les souris selon leur gnotype. Les lignes verticales et
que quelques gnes atypiques, facilement reprables sur la figure 12 comme les fines sparent les souris selon le rgime quelles ont suivi. La ligne horizontale
plus sur-exprims, se retrouvent dans les valeurs extrmes pour chaque souris reprsente la mdiane de lensemble des valeurs.
sur la figure 11.

Les diagrammes en botes pour chaque gne (Fig. 12) rvlent des gnes
dont lexpression est, sur lensemble des souris, nettement diffrentes des
autres (par exemple, 16SR, apoA.I, apoE). Les gnes des ARN ribosomiques comme le 16SR (ARN 16s ribosomique mitochondrial), prsentent,
Page 21 sur 104

06/14

11

Statistique descriptive unidimensionnelle

lexpression est systmatiquement suprieure celle des autres, quelles que


soient les conditions exprimentales. De plus, la variabilit de ces expressions
est, le plus souvent, trs faible. Ce constat nous conduit effectuer un centrage
des gnes (en colonnes), afin dviter un effet taille lors de la mise en uvre
de techniques factorielles.

16SR

SPI1.1

apoE

apoA.I

FAS

THIOL

S14

i.BAT

ACAT1 AM2R Bcl.3 CBS CYP26 CYP8b1 GK

i.BABP Lpin LXRb

MS PAL PPARd S14

Tpbeta

F IGURE 12 Souris : Diagrammes-botes parallles reprsentant simultanment les distributions des logarithmes des expressions des gnes.

dans toutes les cellules de lorganisme, des niveaux dexpression plus levs
que tous les gnes codant des ARN messagers. Ces ARN servent en effet
la traduction des ARN messagers en protines. Par ailleurs, on peut constater
que les expressions de certains gnes varient beaucoup plus que dautres sur
lensemble des souris (par exemple, FAS, S14 et THIOL). Pour ces derniers
gnes, on peut supposer quune part de cette variabilit est due aux facteurs
considrs, ce que nous essaierons de confirmer par la suite au moyen de techniques de modlisation.
Lintrt de ces reprsentations rside davantage dans la vision synthtique
quelles offrent que dans linformation biologique que lon peut en extraire.
Elles nous orientent galement dans les premiers choix mthodologiques tablir avant de poursuivre lanalyse. En effet, les botes relatives la distribution
des gnes mettent clairement en vidence un certain nombre de gnes dont
Page 22 sur 104

06/14

Statistique descriptive bidimensionnelle

0.55

Statistique descriptive bidimensionnelle

0.70

ACAT1

Liaisons entre variables quantitatives (corrlation et nuages de


points), qualitatives (contingence, mosaque) et de types diffrents
(rapport de corrlation). Introduction au cas multidimensionnel.

0.75

Retour au plan.

0.65

0.60

Rsum

Introduction

0.55

Dans cette section, on sintresse ltude simultane de deux variables X


et Y , tudies sur le mme chantillon, toujours not . Lobjectif essentiel
des mthodes prsentes est de mettre en vidence une ventuelle variation simultane des deux variables, que nous appellerons alors liaison. Dans certains
cas, cette liaison peut tre considre a priori comme causale, une variable X
expliquant lautre Y ; dans dautres, ce nest pas le cas, et les deux variables
jouent des rles symtriques. Dans la pratique, il conviendra de bien diffrencier les deux situations et une liaison nentrane pas ncessairement une
causalit. Sont ainsi introduites les notions de covariance, coefficient de corrlation linaire, rgression linaire, rapport de corrlation, indice de concentration, khi-deux et autres indicateurs qui lui sont lis. De mme, nous prsentons
les graphiques illustrant les liaisons entre variables : nuage de points (scatterplot), diagrammes-botes parallles, diagramme de profils, tableau de nuages
(scatter-plot matrix).

0.50

0.45

0.40

0.35

0.30

X36b4

F IGURE 1 Souris : Nuage de points illustrant la faible liaison linaire entre


les expressions de deux gnes (corrlation de 0,33).

sez bonne de la variation conjointe des deux variables et est appel nuage. On
notera quon rencontre parfois la terminologie de diagramme de dispersion,
traduction plus fidle de langlais scatter-plot.

Le choix des chelles retenir pour raliser un nuage de points peut savrer dlicat. Dune faon gnrale, on distinguera le cas de variables homognes
(reprsentant la mme grandeur et exprimes dans la mme unit) de celui des
variables htrognes. Dans le premier cas, on choisira la mme chelle sur
les deux axes (qui seront donc orthonorms) ; dans le second cas, il est re2 Deux variables quantitatives
command soit de reprsenter les variables centres et rduites sur des axes
orthonorms, soit de choisir des chelles telles que ce soit sensiblement ces
2.1 Nuage de points
variables l que lon reprsente (cest en gnral cette seconde solution quutiIl sagit dun graphique trs commode pour reprsenter les observations si- lisent, de faon automatique, les logiciels statistiques).
multanes de deux variables quantitatives. Il consiste considrer deux axes 2.2 Rappel : variables centres et rduites
perpendiculaires, laxe horizontal reprsentant la variable X et laxe vertical
la variable Y , puis reprsenter chaque individu observ par les coordonnes
Si X est une variable quantitative de moyenne x et dcarttype X , on
des valeurs observes. Lensemble de ces points donne en gnral une ide as- appelle variable centre associe X la variable X x (elle est de moyenne
Page 23 sur 104

06/14

Statistique descriptive bidimensionnelle

nulle et dcarttype X ), et variable centre et rduite (ou tout simplement Par consquent, corr(X, Y ) est indpendant des units de mesure de X et de
x
variable rduite) associe X la variable X
(elle est de moyenne nulle et Y . Le coefficient de corrlation est symtrique et prend ses valeurs entre -1 et
X
+1. Les valeurs 1 et +1 correspondent une liaison linaire parfaite entre X
dcarttype gal un). Une variable centre et rduite sexprime sans unit.
et Y (existence de rels a, b et c tels que : aX + bY + c = 0).

2.3

Indice de liaison

Notons pour mmoire la possibilit dutiliser dautres indicateurs de liaison


Le coefficient de corrlation linaire est un indice rendant compte numri- entre variables quantitatives. Construits sur les rangs (corrlation de Spearman)
quement de la manire dont les deux variables considres varient simultan- ils sont plus robustes faces des situations de non linarit ou des valeurs
ment. Il est dfini partir de la covariance qui gnralise deux variables la atypiques mais restent trs rducteurs.
notion de variance :
cov(X, Y )

n
X

3
wi [xi x][yi y]

i=1

n
X

wi xi yi x y.

Une variable quantitative et une qualitative

3.1

Notations

Soit X la variable qualitative considre, suppose m modalits notes

i=1

x1 , . . . , x ` , . . . , x m

La covariance est une forme bilinaire symtrique qui peut prendre toute vaet soit Y la variable quantitative de moyenne y et de variance Y2 . Dsignant
leur relle et dont la variance est la forme quadratique associe. En particulier,
par lchantillon considr, chaque modalit x` de X dfinit une souson en dduit les deux formules suivantes :
population (un sous-ensemble) ` de : cest lensemble des individus, supposs pour simplifier de poids wi = 1/n et sur lesquels on a observ x` ; on
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ),
obtient ainsi une partition deP en m classes dont nous noterons n1 , . . . , nm
m
2
les cardinaux (avec toujours `=1 n` = n, o n = card()).
[cov(X, Y )] var(X)var(Y ) ;
Considrant alors la restriction de Y ` (l = 1, . . . , m), on peut dfinir
(cette dernire proprit est lingalit de Cauchy-Schwarz).
la moyenne et la variance partielles de Y sur cette sous-population ; nous les
la covariance dpend des units de mesure dans lesquelles sont exprimes noterons respectivement y` et 2 :
`
les variables considres ; en ce sens, ce nest pas un indice de liaison intrin1 X
sque.
Y (i ) ;
y` =
n`
Cest la raison pour laquelle on dfinit le coefficient de corrlation linaire
i `
(appel coefficient de Pearson ou de Bravais-Pearson), rapport entre la cova1 X
riance et le produit des carts-types :
`2 =
[Y (i ) y` ]2 .
n`
i `
cov(X, Y )
corr(X, Y ) =
.
X Y
3.2 Botes parallles
Le coefficient de corrlation est gal la covariance des variables centres et
Une faon commode de reprsenter les donnes dans le cas de ltude simulY y
rduites respectivement associes X et Y : corr(X, Y ) = cov( Xx
,
).
tane
dune variable quantitative et dune variable qualitative consiste raliser
X
Y
Page 24 sur 104

06/14

Statistique descriptive bidimensionnelle

2
, est appel variance
Le premier terme de la dcomposition de Y2 , not E
explique (par la partition, cest--dire par X) ou variance inter (between) ;
2
le second terme, not R
, est appel variance rsiduelle ou variance intra
(within).

3.4

Rapport de corrlation

Il sagit dun indice de liaison entre les deux variables X et Y qui est dfini
par :

s
sY /X =

2
E
;
2
Y

F IGURE 2 Banque : Diagrammes-boites illustrant les diffrences de distribution des ges en fonction de la possession dune carte Visa Premier.
X et Y ntant pas de mme nature, sY /X nest pas symtrique et vrifie
0 sY /X 1. Cet encadrement dcoule directement de la formule de ddes diagrammes-botes parallles ; il sagit, sur un mme graphique dot dune composition de la variance. Les valeurs 0 et 1 ont une signification particulire
chelle unique, de reprsenter pour Y un diagramme-bote pour chacune des intressante.
sous-populations dfinies par X. La comparaison de ces botes donne une ide
assez claire de linfluence de X sur les valeurs de Y , cest--dire de la liaison 4 Deux variables qualitatives
entre les deux variables.

3.3

Formules de dcomposition

4.1

Notations

On considre dans ce paragraphe deux variables qualitatives observes siCes formules indiquent comment se dcomposent la moyenne et la variance
multanment
sur n individus. On suppose que la premire, note X, possde
de Y sur la partition dfinie par X (cest--dire comment scrivent ces caracr
modalits
notes
x1 , . . . , x` , . . . , xr , et que la seconde, note Y , possde c
tristiques en fonction de leurs valeurs partielles) ; elles sont ncessaires pour
modalits
notes
y
1 , . . . , yh , . . . , yc .
dfinir un indice de liaison entre les deux variables.
Ces donnes sont prsentes dans un tableau double entre, appel table
m
de
contingence, dans lequel on dispose les modalits de X en lignes et celles
X
1
y =
n` y` ;
de
Y en colonnes. Ce tableau est donc de dimension r c et a pour lment
n
`=1
gnrique le nombre n`h dobservations conjointes des modalits x` de X et
m
m
yh de Y ; les quantits n`h sont appeles les effectifs conjoints.
1X
1X
2
2
Y2 =
n` (y` y)2 +
n` `2 = E
+ R
.
n
n
Une table de contingence se prsente donc sous la forme suivante :
`=1

`=1

Page 25 sur 104

06/14

x1
..
.
x`
..
.
xr
sommes

y1
n11
..
.
n`1
..
.
nr1
n+1

yh
n1h
..
.
n`h
..
.
nrh
n+h

yc
n1c
..
.
n`c
..
.
nrc
n+c

Statistique descriptive bidimensionnelle

sommes
n1+
..
.
n`+
..
.
nr+
n

Les quantits n`+ (` = 1, . . . , r) et n+h (hP= 1, . . . , c) sont appeles


les
Pr
c
effectifs marginaux
;
ils
sont
dfinis
par
n
=
n
et
n
=
n
`+
`h
+h
h=1
`=1 `h ,
Pr
Pc
et ils vrifient `=1 n`+ =
n
=
n.
De
faon
analogue,
on peut
+h
h=1
dfinir les notions de frquences conjointes et de frquences marginales.

4.2

Reprsentations graphiques des profils

On peut envisager, dans le cas de ltude simultane de deux variables qualitatives, dadapter les graphiques prsents dans le cas unidimensionnel : on
dcoupe chaque partie (colonne, partie de barre ou secteur) reprsentant une
modalit de lune des variables selon les effectifs des modalits de lautre.
Mais, de faon gnrale, il est plus appropri de raliser des graphiques reprsentant des quantits trs utiles dans ce cas et que lon appelle les profils.
On appelle `-me profil-ligne lensemble des frquences de la variable Y
conditionnelles la modalit x` de X (cest--dire dfinies au sein de la souspopulation ` de associe cette modalit). Il sagit donc des quantits :
n`h
n`c
n`1
,...,
,...,
}.
{
n`+
n`+
n`+

F IGURE 3 Banque : Diagrammes en barres des profils lignes et colonnes


(mosaque plot) de la table de contingence croisant le sexe et la possession de
la carte Visa Premier. La superficie de chaque case est en plus proportionnelle
leffectif de la cellule associe.

On dfinit de faon analogue le h-me profil-colonne :


{

n1h
n`h
nrh
,...,
,...,
}.
n+h
n+h
n+h

La reprsentation graphique des profils-lignes ou des profils-colonnes, au


moyen, par exemple, de diagrammes en barre parallles (mosac plot), donne
alors une ide assez prcise de la variation conjointe des deux variables.
Page 26 sur 104

06/14

4.3

Statistique descriptive bidimensionnelle

Indices de liaison

Le coefficient T de Tschuprow :

Lorsque tous les profils-lignes sont gaux, ce qui est quivalent ce que tous
les profils-colonnes soient gaux et que
(`, h) {1, . . . , r} {1, . . . , c} : n`h =

n`+ n+h
,
n

(r 1)(c 1)

On peut vrifier : 0 T 1 .

Khi-deux

Il est courant en statistique de comparer une table de contingence observe,


deffectif conjoint gnrique n`h , une table de contingence donne a priori
(et appele standard), deffectif conjoint gnrique s`h , en calculant la quantit

2
,
d1
avec : d = inf(r, c). On vrifie maintenant : 0 T C 1 .
Enfin, la p-valeur dun test dindpendance (test du 2 ) est aussi utilise
pour comparer des liaisons entre variables.
C=

Vers le cas multidimensionnel

Lobjectif des prochains chapitres de ce cours est dexposer les techniques


de la statistique descriptive multidimensionnelle. Or, sans connatre ces techniques, il se trouve quil est possible de dbuter une exploration de donnes
multidimensionnelles en adaptant simplement les mthodes dj tudies.

r X
c
X
(n`h s`h )2
.
s`h
`=1 h=1

De faon naturelle, pour mesurer la liaison sur une table de contingence, on


utilise donc lindice appel khi-deux (chi-square) et dfini comme suit :
5.1
n`+ n+h 2
" r c
#
r X
c (n`h
)
X X n2
X
2
`h
n
=n
1 .
=
n`+ n+h
n`+ n+h
`=1 h=1
`=1 h=1
n
Le coefficient 2 est toujours positif ou nul et il est dautant plus grand que
la liaison entre les deux variables considres est forte. Malheureusement, il
dpend aussi des dimensions r et c de la table tudie, ainsi que de la taille
n de lchantillon observ ; en particulier, il nest pas major. Cest la raison
pour laquelle on a dfini dautres indices, lis au khi-deux, et dont lobjectif
est de palier ces dfauts.
4.3.2

2
p

Le coefficient C de Cramer :

on dit quil nexiste aucune forme de liaison entre les deux variables considres X et Y . Par suite, la mesure de la liaison va se faire en valuant lcart
entre la situation observe et ltat de non liaison dfini ci-dessus.
4.3.1

T =

Autres indicateurs

Nous en citerons trois. 2


Le phi-deux : 2 = n . Il ne dpend plus de n, mais dpend encore de r
et de c.

Matrices des covariances et des corrlations

Lorsquon a observ simultanment plusieurs variables quantitatives (p variables, p 3) sur le mme chantillon, il est possible de calculer dune part
les variances de toutes ces variables, dautre part les p(p1)
covariances des va2
riables prises deux deux. Lensemble de ces quantits peut alors tre dispos
dans une matrice carre (p p) et symtrique, comportant les variances sur la
diagonale et les covariances lextrieur de la diagonale ; cette matrice, appele matrice des variances-covariances (ou encore matrice des covariances) sera
note S. Elle sera utilise par la suite, mais na pas dinterprtation concrte.
Notons quil est possible de vrifier que S est semi dfinie positive.
De la mme manire, on peut construire la matrice symtrique pp, comportant des 1 sur toute la diagonale et, en dehors de la diagonale, les coefficients de
corrlation linaire entre les variables prises deux deux. Cette matrice est appele matrice des corrlations, elle est galement semi dfinie positive, et nous
la noterons R. Elle est de lecture commode et indique quelle est la structure de
corrlation des variables tudies.

Page 27 sur 104

06/14

Statistique descriptive bidimensionnelle

C14.0
C16.0
C18.0

C22.6n.3

C22.5n.3

C20.5n.3

C20.3n.3

C18.3n.3

C22.5n.6

C22.4n.6

C20.4n.6

C20.3n.6

C20.2n.6

C18.3n.6

C18.2n.6

C20.3n.9

C20.1n.9

C18.1n.7

C18.1n.9

C16.1n.7

C16.1n.9

C18.0

C16.0

C14.0

5.2

Tableaux de nuages

Notons X 1 , . . . , X p les p variables quantitatives considres ; on appelle tableau de nuages le graphique obtenu en juxtaposant, dans une sorte de matrice
carre p p, p2 sous-graphiques ; chacun des sous-graphiques diagonaux est
relatif lune des p variables, et il peut sagir, par exemple, dun histogramme ;
le sous-graphique figurant dans le bloc dindice (j, j 0 ), j 6= j 0 , est le nuage de
0
points ralis avec la variable X j en abscisses et la variable X j en ordonnes. Dans certains logiciels anglo-saxons, ces graphiques sont appels splom
(Scatter PLOt Matrix). Le tableau de nuages, avec la matrice des corrlations,
fournit ainsi une vision globale des liaisons entre les variables tudies.

C16.1n.9
C16.1n.7
C18.1n.9

5.3

C18.1n.7

La matrice des coefficients de Tschuprow (ou de


Cramer)

C20.1n.9
C20.3n.9
C18.2n.6
C18.3n.6
C20.2n.6
C20.3n.6
C20.4n.6
C22.4n.6
C22.5n.6
C18.3n.3
C20.3n.3
C20.5n.3

Considrons maintenant le cas o lon tudie simultanment plusieurs variables qualitatives (p variables, p 3). La matrice des coefficients de Tschuprow est la matrice carre dordre p, symtrique, comportant des 1 sur la diagonale et, en dehors de la diagonale, les coefficients de Tschuprow entre les
variables prises deux deux. Il sagit donc dune matrice du mme type que la
matrice des corrlations (elle est dailleurs, elle aussi, semi dfinie positive), et
son utilisation pratique est analogue. Notons que lon peut, de la mme faon,
utiliser les coefficients de Cramer au lieu des coefficients de Tschuprow.

C22.5n.3
C22.6n.3

5.4

Le tableau de Burt

Le tableau de Burt est une gnralisation particulire de la table de contingence dans le cas o lon tudie simultanment p variables qualitatives. Notons
j
X 1 , . . . , X p ces variables,
Ppappelons cj le nombre de modalits de X , j =
1, . . . , p et posons c =
j=1 cj . Le tableau de Burt est en fait une matrice
2
F IGURE 4 Souris : reprsentation graphique des corrlations entre les va- carre c c, constitue de p sousmatrices. Chacune des p sousmatrices
diagonales est relative lune des p variables ; la j i`eme dentre elles est carriables de concentration de lipides par des intensits de couleur.
re dordre cj , diagonale, et comporte sur la diagonale les effectifs marginaux
de X j . La sousmatrice figurant dans le bloc dindice (j, j 0 ), j 6= j 0 , est la
0
table de contingence construite en mettant X j en lignes et X j en colonnes ;
le tableau de Burt est donc symtrique. Il apparat en fait comme lanalogue
qualitatif du tableau des nuages.

Page 28 sur 104

06/14

Introduction la Statistique exploratoire


multidimensionnelle
Rsum
Cette vignette fait suite celles, plus lmentaires, de Statistique
descriptive unidimensionnelle, bidimensionnelle et multidimensionnelle pour aborder les principales mthodes factorielles de rduction de dimension et de reprsentation optimale ainsi que celles de
classification non supervise.
Plan du cours :
Introduction
Analyse en Composantes Principales
Analyse Canonique des Corrlations
Analyse Factorielle Discriminante
Analyse Factorielle des Correspondances
Analyse Factorielle des Correspondances Multiple
Positionnement Multidimensionnel
Classification non supervise
Factorisation par matrices non ngatives (NMF)
Complments dalgbre linaire

Introduction la Statistique exploratoire multidimensionnelle

sein dun chantillon statistique dont la distribution est le plus souvent soumise
des hypothses de normalit.
En France, lexpression Analyse des Donnes recouvre les techniques
ayant pour objectif la description statistique des grands tableaux (n lignes,
o n varie de quelques dizaines quelques milliers, p colonnes, o p varie de
quelques units quelques dizaines). Ces mthodes se caractrisent par une
utilisation intensive de lordinateur, leur objectif exploratoire et une absence
quasi systmatique dhypothses de nature probabiliste au profit des proprits et rsultats de gomtrie euclidienne. Elles insistent sur les reprsentations
graphiques en particulier de celles des individus qui sont considrs au mme
titre que les variables.
Depuis la fin des annes 1970, de nombreux travaux ont permis de rapprocher ou concilier les deux points de vue en introduisant, dans des espaces
multidimensionnels appropris, les outils probabilistes et la notion de modle,
usuelle en statistique infrentielle. Les techniques se sont ainsi enrichies de notions telles que lestimation, la convergence, la stabilit des rsultats, le choix
de critres. . .
Lobjectif essentiel de ces mthodes est laide la comprhension de volumes de donnes souvent considrables. Rduction de dimension, reprsentation graphique optimale, recherche de facteurs ou variables latentes... sont des
formulations quivalentes.

Mthodes

Historique

Les mthodes de Statistique exploratoire multidimensionnelle se classifient


selon leur objectif (rduction de dimension ou classification) et le type des
Les bases thoriques de ces mthodes sont anciennes et sont principa- donnes analyser (quantitatives et/ou qualitatives) :
lement issues de psychomtres amricains : Spearman (1904) et Thurs Description et rduction de dimension (mthodes factorielles) :
tone (1931, 1947) pour lAnalyse en Facteurs, Hotteling (1935) pour lAna1. Analyse en Composantes Principales (p variables quantitatives),
lyse en Composantes Principales et lAnalyse Canonique, Hirschfeld (1935)
et Guttman (1941, 1959) pour lAnalyse des Correspondances. Pratiquement,
2. Analyse Factorielle Discriminante (p variables quantitatives, 1 valeur emploi ne sest gnralis quavec la diffusion des moyens de calcul dans
riable qualitative),
le courant des annes 60. Sous lappellation Multivariate Analysis elles
3. Analyse Factorielle des Correspondances simple (2 variables qualipoursuivent des objectifs sensiblement diffrents ceux qui apparatront en
tatives) et Multiple (p variables qualitatives),
France. Un individu ou unit statistique ny est souvent considr que pour
4. Analyse Canonique (p et q variables quantitatives),
linformation quil apporte sur la connaissance des liaisons entre variables au
Page 29 sur 104

06/14

Introduction la Statistique exploratoire multidimensionnelle

5. Multidimensional Scaling (M.D.S.) ou positionnement multidimensionnel ou analyse factorielle dun tableau de distances.
Toutes les prcdentes mthodes sont bases sur des outils classiques de gomtrie euclidienne qui sont dvelopps dans les rappels et complments dalgbre linaire.
6. Non negative Matrix Factorisation ou NMF.
Mthodes de classification :

1. Classification ascendante hirarchique,


2. Algorithmes de rallocation dynamique,
3. Cartes de Kohonen (rseaus de neurones).
Les rfrences introductives les plus utiles pour ce cours sont : Bouroche
& Saporta (1980)[2], Jobson (1992)[3], Droesbeke, Fichet & Tassi (1992)[1],
Mardia, Kent & Bibby (1979)[5], Saporta (2006)[6], Lebart, Morineau & Piron
(1995)[4].

Rfrences
[1] P.C. Besse et A. Pousse, Extension des analyses factorielles, Modles pour
lAnalyse des Donnes Multidimensionnelles (J.J. Droesbeke et al., rds.),
Economica, 1992, p. 129158.
[2] J.M. Bouroche et G. Saporta, LAnalyse des Donnes, Que Sais-je, PUF,
1980.
[3] J.D. Jobson, Applied Multivariate Data Analysis, t. II : Categorical and
multivariate methods, Springer-Verlag, 1992.
[4] L. Lebart, A. Morineau et M. Piron, Statistique exploratoire multidimensionnelle, Dunod, 1995.
[5] K.V. Mardia, J.T. Kent et J.M. Bibby, Multivariate Analysis, Academic
Press, 1979.
[6] G. Saporta, Probabilits, Analyse des Donnes et Statistique,
deuxime d., Technip, 2006.

Page 30 sur 104

06/14

Analyse en Composantes Principales


(ACP)
Rsum
Mthode factorielle de rduction de dimension pour lexploration
statistique de donnes quantitatives complexes. Construction du modle statistique associ, estimation. Reprsentations graphiques des
individus, des variables et simultane ; qualit de reprsentation.
Travaux pratiques de complexit croissante par ltudes de donnes
de tempratures puis de donnes socio-conomiques cubiques.
Retour au plan du cours.

Analyse en Composantes Principales (ACP)

tion, qui sont l pour aider lutilisateur faire linterprtation la plus juste et la
plus objective possible.
Lanalyse en Composantes Principales (ACP) est un grand classique de
lanalyse des donnes en France pour ltude exploratoire ou la compression dun grand tableau n p de donnes quantitatives. Le livre de Jolliffe
(2002)[2] en dtaille tous les aspects et utilisations de faon exhaustive. Elle
est introduite ici comme lestimation des paramtres dun modle, afin de prciser la signification statistique des rsultats obtenus. LACP est illustre dans
ce chapitre travers ltude de donnes lmentaires. Elles sont constitues
des moyennes sur dix ans des tempratures moyennes mensuelles de 32 villes
franaises. La matrice initiale X est donc (32 12). Les colonnes sont lobservation diffrents instants dune mme variable ; elles sont homognes et il
est inutile de les rduire.

LACP joue dans ce cours un rle central ; cette mthode sert de fondement
thorique aux autres mthodes de statistique multidimensionnelle dites facto1 introduction
rielles qui en apparaissent comme des cas particuliers. Cette mthode est donc
tudie en dtail et aborde avec diffrents niveaux de lecture. La premire
Lorsquon tudie simultanment un nombre important de variables quantita- section prsente les grands principes de faon trs lmentaire, voire intuitive,
tives (ne serait-ce que 4 !), comment en faire un graphique global ? La difficult tandis que les suivantes explicitent les expressions matricielles des rsultats.
vient de ce que les individus tudis ne sont plus reprsents dans un plan, esDun point de vue plus mathmatique, lACP correspond lapproximapace de dimension 2, mais dans un espace de dimension plus importante (par
tion
dune matrice (n, p) par une matrice de mme dimensions mais de rang
exemple 4). Lobjectif de lAnalyse en Composantes Principales (ACP) est
q
<
p
(cf. rappels dalgbre linaire) ; q tant souvent de petite valeur 2, 3 pour
de revenir un espace de dimension rduite (par exemple 2) en dformant le
la
construction
de graphiques facilement comprhensibles.
moins possible la ralit (cf. lintroduction lmentaire lACP). Il sagit donc
dobtenir le rsum le plus pertinent possible des donnes initiales.
Cest la matrice des variances-covariances (ou celle des corrlations) qui va 2 Espaces vectoriels
permettre de raliser ce rsum pertinent, parce quon analyse essentiellement
la dispersion des donnes considres. De cette matrice, on va extraire, par 2.1 Notations
un procd mathmatique adquat, les facteurs que lon recherche, en petit
Soit p variables statistiques relles X j (j = 1, . . . , p) observes sur n indinombre. Ils vont permettre de raliser les graphiques dsirs dans cet espace vidus i (i = 1, . . . , n) affects des poids wi :
de petite dimension (le nombre de facteurs retenus), en dformant le moins
n
X
possible la configuration globale des individus selon lensemble des variables
i = 1, . . . , n : wi > 0 et
wi = 1 ;
initiales (ainsi remplaces par les facteurs).
i=1

Cest linterprtation de ces graphiques qui permettra de comprendre la


i = 1, . . . , n : xji = X j (i), mesure de X j sur le ie`me individu.
structure des donnes analyses. Cette interprtation sera guide par un certain
nombre dindicateurs numriques et graphiques, appels aides linterprta- Ces mesures sont regroupes dans une matrice X dordre (n p).
Page 31 sur 104

06/14

1
..
.
i
..
.
n

X1

Xj

Xp

x11
..
.
x1i
..
.
x1n

xj1
..
.
xji
..
.
xjn

xp1
..
.
xpi
..
.
xpn

Analyse en Composantes Principales (ACP)

Attention : Par souci de simplicit des notations, on dsigne toujours par xj


les colonnes de la matrice centre X. On considre donc que des vecteurs
variables sont toujours centrs.
Ainsi, lorsque les variables sont centres et reprsentes par des vecteurs de
F:
la longueur dun vecteur reprsente un cart-type,
le cosinus dun angle entre deux vecteurs reprsente une corrlation.

2.3

Objectifs

chaque individu i est associ le vecteur xi contenant la i-me ligne de

Les objectifs poursuivis par une ACP sont :


X mise en colonne. Cest un lment dun espace vectoriel not E de
p
la reprsentation graphique optimale des individus (lignes), minimisant
dimension p ; nous choisissons R muni de la base canonique E et dune
les dformations du nuage des points, dans un sous-espace Eq de dimenmtrique de matrice M lui confrant une structure despace euclidien :
p
sion q (q < p),
E est isomorphe (R , E, M); E est alors appel espace des individus.
j
j

la reprsentation graphique des variables dans un sous-espace Fq en ex chaque variable X est associ le vecteur x contenant la j-me coplicitant au mieux les liaisons initiales entre ces variables,
lonne centre (la moyenne de la colonne est retranche toute la colonne)

la rduction de la dimension (compression), ou approximation de X par


de X. Cest un lment dun espace vectoriel not F de dimension n ;
n
un tableau de rang q (q < p).
nous choisissons R muni de la base canonique F et dune mtrique de
Les
derniers
objectifs permettent dutiliser lACP comme pralable une
matrice D diagonale des poids lui confrant une structure despace euclin
autre
technique
prfrant des variables orthogonales (rgression linaire) ou
dien : F est isomorphe (R , F, D) avec D = diag(w1 , . . . , wn ); F est
un
nombre
rduit
dentres (rseaux neuronaux).
alors appel espace des variables.
Des arguments de type gomtrique dans la littrature francophone, ou bien
2.2 Mtrique des poids
de type statistique avec hypothses de normalit dans la littrature angloLutilisation de la mtrique des poids dans lespace des variables F donne saxonne, justifient la dfinition de lACP. Nous adoptons ici une optique inun sens trs particulier aux notions usuelles dfinies sur les espaces euclidiens. termdiaire en se rfrant un modle allg car ne ncessitant pas dhypoCe paragraphe est la cl permettant de fournir les interprtations en termes thse forte sur la distribution des observations (normalit). Plus prcisment,
lACP admet des dfinitions quivalentes selon que lon sattache la reprstatistiques des proprits et rsultats mathmatiques.
sentation des individus, celle des variables ou encore leur reprsentation


0
xj
= Xej , 1n D = ej X0 D1n .simultane.
Moyenne empirique de X j :
x
= X0 D1n .
Barycentre des individus :
Matrice des donnes centres : X
= X 1n x0 .
3 Modle

0
j
cart-type de X :
j
= (xj Dxj )1/2 = xj D .

j k
0
Les notations sont celles du paragraphe prcdent :
Covariance de X j et X k :
xj Dxk
= P
x ,x D .
n
0 X dsigne le tableau des donnes issues de lobservation de p variables
w
(x

Matrice des covariances :


S
=
x)(x

x)
i
i=1 i i
0
quantitatives X j sur n individus i de poids wi ,
= X DX.
E est lespace des individus muni de la base canonique et de la mtrique
hxj ,xk iD
Corrlation de X j et X k :
= cos D (xj , xk ).
kxj k kxk k
D

Page 32 sur 104

06/14

de matrice M,

Analyse en Composantes Principales (ACP)

(X, M, D) :

F est lespace des variables muni de la base canonique et de la mtrique

des poids D = diag(w1 , . . . , wn ).


De faon gnrale, un modle scrit :

cq =
Z

q
X

1/2

k uk vk = Uq 1/2 Vq0 .

k=1

Observation = Modle + Bruit

assorti de diffrents types dhypothses et de contraintes sur le modle et sur


le bruit.
Preuve
En ACP, la matrice des donnes est suppose tre issue de lobservation de
Sans hypothse sur la distribution de lerreur, une estimation par les moindres carrs
n vecteurs alatoires indpendants {x1 , . . . , xn }, de mme matrice de cova- conduit rsoudre le problme :
riance 2 , mais desprances diffrentes zi , toutes contenues dans un sousespace affine de dimension q (q < p) de E. Dans ce modle, E(xi ) = zi
)
( n
X
est un paramtre spcifique attach chaque individu i et appel effet fixe, le
2
(2)
min
wi kxi zi kM ; dim(Eq ) = q, zi z Eq .
modle tant dit fonctionnel. Ceci scrit en rsum :
Eq ,zi
i=1
{xi ; i = 1, . . . , n}, n vecteurs alatoires
indpendants de E,

E(i ) = 0, var(i ) = 2 ,
Soit X = X 1n x0 la matrice centre et Z la matrice (n p) dont les lignes sont
xi = zi + i , i = 1, . . . , n avec
(1)
> 0 inc. rg. et connue,
les vecteurs (zi z)0 .
Aq , sous-espace affine de dim. q de E tel que i, zi Aq (q < p).
Pn
Soit z = i=1 wi zi . Les hypothses du modle entranent que z appartient
n
n
X
X
Aq . Soit donc Eq le sous-espace vectoriel de E de dimension q tel que :
wi kxi zi k2 =
wi kxi x + z zi k2 + kx zk2 ;
M

i=1

Aq = z + Eq .

i=1

Les paramtres estimer sont alors Eq et zi , i = 1, . . . , n, ventuellement


; zi est la part systmatique, ou effet, suppose de rang q ; liminer le bruit le problme (2) conduit alors prendre bz = x et devient quivalent rsoudre :
revient donc rduire la dimension.
n
o
Si les zi sont considrs comme alatoires, le modle est alors dit struc
min X Z M,D ; Z Mn,p , rang(Z) = q .
(3)
turel ; on suppose que {x1 , . . . , xn } est un chantillon statistique i.i.d. Les
Z
units statistiques jouent des rles symtriques, elles ne nous intressent que
pour ltude des relations entre les variables. On retrouve alors le principe de La fin de la preuve est une consquence immdiate du thorme dapproximation malanalyse en facteurs (ou en facteurs communs et spcifiques, ou factor analy- tricielles (cf. rappels dalgbre linaire).
2
0
sis).
Les uk sont les vecteurs propres D-orthonorms de la matrice XMX D
associs aux valeurs propres k ranges par ordre dcroissant.
3.1 Estimation
Les vk , appels vecteurs principaux, sont les vecteurs propres M0
orthonorms de la matrice X DXM = SM associs aux mmes valeurs
P ROPOSITION 1. Lestimation des paramtres de (1) est fournie par lACP
propres ; ils engendrent des s.e.v. de dimension 1 appels axes principaux.
de (X, M, D) cest--dire par la dcomposition en valeurs singulires de
Page 33 sur 104

06/14

dfinit une nouvelle variable centre C qui, tout individu i, associe la mesure
C(i) = (xi x)0 f .

Les estimations sont donc donnes par :


b
z

cq
Z

x,
q
X

0
cq ,
1/2 uk vk = Uq 1/2 Vq0 = XP

P ROPOSITION 2. Soient p variables quantitatives centres X 1 , . . . , X p observes sur n individus de poids wi ; lACP de (X, M, D) est aussi la recherche des q combinaisons linaires normes des X j , non corrles et dont
la somme des variances soit maximale.

k=1

cq
o P

Vq Vq0 M est la matrice de projection


cq ,
M-orthogonale sur E

cq
E
c2
E

vect{v1 , . . . , vq },

est

zbi

appel plan principal,


c
Pq xi + x.

Analyse en Composantes Principales (ACP)

Les vecteurs f k = Mvk sont les facteurs principaux. Ils permettent de

dfinir les combinaisons linaires des X j optimales au sens ci-dessus.


Les vecteurs ck = Xf k sont les composantes principales.
Les variables C k associes sont centres, non corrles et de variance k ;
ce sont les variables principales ;

Remarques
1. Les solutions sont embotes pour q = 1, . . . , p :

cov(C k , C ` )

E1 = vect{v1 } E2 = vect{v1 , v2 } E3 = vect{v1 , v2 , v3 } . . .

(Xf k ) DXf ` = f k Sf `
0

= vk MSMv` = ` vk Mv` = ` k` .

2. Les espaces principaux sont uniques sauf, ventuellement, dans le cas de


valeurs propres multiples.

Les f k sont les vecteurs propres M1 -orthonorms de la matrice MS.


La matrice

C = XF = XMV = U1/2

3. Si les variables ne sont pas homognes (units de mesure diffrentes, variances disparates), elles sont pralablement rduites :

est la matrice des composantes principales.


Les axes dfinis par les vecteurs D-orthonorms uk sont appels axes

e = X1/2 o = diag ( 2 , . . . , 2 ), avec 2 = Var (X j ) ;


X
1
p
j
e est alors la matrice R = 1/2 S1/2 des corrlations.
S
Sous lhypothse que la distribution de lerreur est gaussienne, une estimation par maximum de vraisemblance conduit la mme solution.

3.2

factoriels.

Graphiques

4.1

Individus

Autre dfinition

Les graphiques obtenus permettent de reprsenter au mieux les distances


On considre p variable statistiques centres X 1 , . . . , X p . Une combinaison euclidiennes inter-individus mesures par la mtrique M.
linaire de coefficients fj de ces variables,
4.1.1 Projection
p
X
Chaque individu i reprsent par xi est approch par sa projection Mc=
fj xj = Xf ,
cq engendr par les q premiers vecteurs
orthogonale
zbi q sur le sous-espace E
j=1
Page 34 sur 104

06/14

principaux {v1 , . . . , vq }. En notant ei un vecteur de la base canonique de E,


la coordonne de lindividu i sur vk est donne par :


xi x, vk M = (xi x)0 Mvk = e0i XMvk = cki .

Analyse en Composantes Principales (ACP)

A
x
e
2

P ROPOSITION 3. Les coordonnes de la projection M-orthogonale de xi


cq sont les q premiers lment de la i-me ligne de la matrice C des
x sur E
composantes principales.
4.1.2

4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
-8
-10

Qualits

10

20

Axe 1

La qualit globale des reprsentations est mesure par la part de dispersion explique :
Pq
cq
k
trSMP
rq =
= Pk=1
.
p
trSM
k=1 k
Remarque. La dispersion dun nuage de points unidimensionnel par rapport
sa moyenne se mesure par la variance. Dans le cas multidimensionnel, la
dispersion du nuage N par rapport son barycentre x se mesure par linertie,
gnralisation de la variance :
Ig (N ) =

n
X

2
0
2
wi kxi xkM = X M,D = tr (X DXM) = tr (SM).

F IGURE 1 Tempratures : premier plan des individus.

4.1.3

Contributions

Les contributions de chaque individu linertie de leur nuage


i =

Pp
2
wi
(ck )2
wi kxi xkM
= Ppk=1 i ,
trSM
k=1 k

ainsi qu la variance dune variable principale

i=1

La qualit de la reprsentation de chaque xi est donne par le cosinus carr


de langle quil forme avec sa projection :

ik =

wi (cki )2
,
k

permettent de dceler les observations les plus influentes et, ventuellement,


aberrantes. Ces points apparaissent visiblement lors du trac des diagrammes2
M
[cos (xi x, zbi q )] =
2
botes parallles des composantes principales qui vitent ainsi une lecture faskxi xkM
tidieuse de ce tableau des contributions. En effet, ils se singularisent aussi
comme outliers ou atypiques hors de la bote (au del des moustaches) corPour viter de consulter un tableau qui risque dtre volumineux (n lignes),
respondant une direction principale. Les individus correspondants, considles tiquettes de chaque individu sont affiches sur les graphiques avec des cars comme individus supplmentaires, peuvent tre limins lors dune nouractres dont la taille est fonction de la qualit. Un individu trs mal reprsent
velle analyse.
est la limite de la lisibilit.

2
c

Pq (xi x)

Pq
(cki )2
= Pk=1
.
p
k 2
k=1 (ci )

Page 35 sur 104

06/14

4.1.4

Individus supplmentaires

Analyse en Composantes Principales (ACP)

4.2.2

Qualit

Il sagit de reprsenter, par rapport aux axes principaux dune analyse, des
La qualit de la reprsentation de chaque xj est donne par le cosinus carr
individus qui nont pas particip aux calculs de ces axes. Soit s un tel vecteur, de langle quil forme avec sa projection :


il doit tre centr, ventuellement rduit, puis projet sur le sous-espace de
c j 2
Pq
j 2
h
i2
Qq x
reprsentation. Les coordonnes sont fournies par :
k=1 k (vk )
D
cq xj ) =
cos (xj , Q
=
.
P
p
2
j 2
kxj kD

k

k=1 k (vk )
0
0
v , Vq Vq0 M(s x) M = vk MVq Vq0 M(s x) = ek Vq0 M(s x).
4.2.3 Corrlations variables facteurs
Les coordonnes dun individu supplmentaire dans la base des vecteurs prinCes indicateurs aident linterprtation des axes factoriels en exprimant les
cipaux sont donc :
corrlations entre variables principales et initiales.

j k

Vq0 M(s x).


x ,u D
k k
j
k
j k
j
k
=
v ;
cor(X , C ) = cos (x , c ) = cos (x , u ) =
kxj kD
j j

4.2

Variables

ce sont les lments de la matrice 1/2 V1/2 .

Les graphiques obtenus permettent de reprsenter au mieux les corrla- 4.2.4 Cercle des corrlations
tions entre les variables (cosinus des angles) et, si celles-ci ne sont pas rduites,
j
e D = 1, les x
ej sont sur la
ej = j1 xj , x
Dans le cas de variables rduites x
leurs variances (longueurs).
sphre unit Sn de F . Lintersection Sn F2 est un cercle centr sur lorigine
4.2.1 Projection
ej et xj sont
et de rayon 1 appel cercle des corrlations. Les projections de x
j
e tant lintrieur du cercle :
cq xj sur colinaires, celle de x
Une variable X j est reprsente par la projection D-orthogonale Q


c j
le sous-espace Fq engendr par les q premiers axes factoriels. La coordonne
c2 xj ) 1.
e = cos (xj , Q
Q
x

2
D
de xj sur uk est :
c2 x
ej est proche de ce cercle, meilleure est la qualit de sa reprAinsi, plus Q

j k
1 j0
j0
k
k
sentation. Ce graphique est commode interprter condition de se mfier
x , u D = x Du = x DXMv
k
des chelles, le cercle devenant une ellipse si elles ne sont pas gales. Comme
p
1 j0 0
pour les individus, la taille des caractres est aussi fonction de la qualit des
k
k
= e X DXMv = k vj .
k
reprsentations.

4.3

Biplot

partir de la dcomposition en valeurs singulires de (X, M, D), on reP ROPOSITION 4. Les coordonnes de la projection D-orthogonale de xj marque que chaque valeur
sur le sous-espace Fq sont les q premiers lments de la j-me ligne de la
p
h
ij
X
p
matrice V1/2 .
xji xj =
k uki vkj = U1/2 V0
k=1

Page 36 sur 104

06/14

Analyse en Composantes Principales (ACP)

sexprime comme produit scalaire usuel des vecteurs


h
i
h
i
ci = U1/2 et vj ou encore ui et V1/2 .

1.0

Pour q = 2, la quantit zbi j en est une approximation limite aux deux premiers
termes.

0.5
A
x
e

Cette remarque permet dinterprter deux autres reprsentations graphiques


en ACP projetant simultanment individus et variables.
1. la reprsentation isomtrique ligne utilise les matrices C et V ; elle permet dinterprter les distances entre individus ainsi que les produits scalaires entre un individu et une variable qui sont, dans le premier plan
principal, des approximations des valeurs observes X j (i ) ;

0.0

2
-0.5
-1.0
-1.0 -0.5 0.0

0.5

2. la reprsentation isomtrique colonne utilise les matrices U et V1/2 ;


elle permet dinterprter les angles entre vecteurs variables (corrlations)
et les produits scalaires comme prcdemment.
Remarques
1. Dans le cas frquent o M = Ip et o les variables sont rduites, le point
reprsentant X j , en superposition dans lespace des individus se confond
avec un pseudo individu supplmentaire qui prendrait la valeur 1 (carttype) pour la variable j et 0 pour les autres.
2. En pratique, ces diffrents types de reprsentations (simultanes ou non)
ne diffrent que par un changement dchelle sur les axes ; elles sont trs
voisines et suscitent souvent les mmes interprtations. Lusage thoriquement abusif fait finalement superposer les deux reprsentations isomtriques lignes et colonnes.

1.0

Axe 1

1.0
0.5
A
x
e

0.0

3
-0.5

5
-1.0
-1.0 -0.5 0.0

0.5

Choix de dimension

La qualit des estimations auxquelles conduit lACP dpend, de faon vidente, du choix de q, cest--dire du nombre de composantes retenues pour
reconstituer les donnes, ou encore de la dimension du sous-espace de reprsentation.

1.0

Axe 2

F IGURE 2 Tempratures : Premier et deuxime plan des variables.

De nombreux critres de choix pour q ont t proposs dans la littrature.


Nous prsentons ici ceux, les plus courants, bass sur une heuristique et un reposant sur une quantification de la stabilit du sous-espace de reprsentation.

Page 37 sur 104

06/14

Analyse en Composantes Principales (ACP)

Dautres critres, non explicits, sinspirent des pratiques statistiques dcisionnelles ; sous lhypothse que lerreur admet une distribution gaussienne, on
peut exhiber les lois asymptotiques des valeurs propres et donc construire des
tests de nullit ou dgalit de ces dernires. Malheureusement, outre la ncessaire hypothse de normalit, ceci conduit une procdure de tests embots
dont le niveau global est incontrlable. Leur utilisation reste donc heuristique.
0

10

15

20

La qualit globale des reprsentations est mesure par la part dinertie


explique :

0
0.4

0.2

La valeur de q est choisie de sorte que cette part dinertie explique rq soit
suprieure une valeur seuil fixe a priori par lutilisateur. Cest souvent le
seul critre employ.

5.2

10

0.0

renn
roue
janv
nant
dece
ange lill
toul
fevr
stqu
ajac
nove
ango limo
orle
tour
mars
octo
pari reim
nice bord
avri tlse cler
vich
sept
perp mai
nanc
besa
juin
aout
juilmont
dijoembr
gren
mars
nime
lyon stra

0.2

Pq
k
rq = Ppk=1 .

k=1 k

10

0.4
0.2
0.0
0.2

Part dinertie

15

bres

biar

Comp.2

5.1
20

0.6

10

On considre que, si tous les lments de Y sont indpendants, les composantes principales sont toutes de variances gales (gales 1 dans le cas de
lACP rduite). On ne conserve alors que les valeurs propres suprieures leur
moyenne car seules juges plus informatives que les variables initiales ; dans
le cas dune ACP rduite, ne sont donc retenues que celles plus grandes que 1.
Ce critre, utilis implicitement par SAS/ASSIST, a tendance surestimer le
nombre de composantes pertinentes.

0.6

Comp.1

F IGURE 3 Tempratures : Reprsentation simultane ou biplot du premier


plan.

5.3

Rgle de Kaiser

boulis

Cest le graphique (figures 4) prsentant la dcroissance des valeurs propres.


Le principe consiste rechercher, sil existe, un coude (changement de signe
dans la suite des diffrences dordre 2) dans le graphe et de ne conserver que
les valeurs propres jusqu ce coude. Intuitivement, plus lcart (q q+1 )
est significativement grand, par exemple suprieur (q1 q ), et plus on
cq .
peut tre assur de la stabilit de E

Page 38 sur 104

06/14

Analyse en Composantes Principales (ACP)

PCTVAR
1.0

CC
20

0.8
10

0.6
0.4

0.2
0.0

-10
0

1
0

1
1

1
2

9 10 11 12

F IGURE 5 Tempratures : composantes en botes.


qui en est faite. Besse (1992)[1] propose dtudier la qualit de lestimation du
cq en considrant la fonction perte :
sous-espace de reprsentation E

Diagrammes botes

Un graphique (figure 5 ) prsentant, en parallle, les diagrammes botes des


variables principales illustre bien leurs qualits : stabilit lorsquune grande
bote est associe de petites moustaches, instabilit en prsence dune petite
bote, de grandes moustaches et de points isols. Intuitivement, on conserve
les premires grandes botes. Les points isols ou outliers dsignent les
points forte contribution, ou potentiellement influents, dans une direction
principale. Ils ncessitent une tude clinique : une autre analyse dans laquelle
ils sont dclars supplmentaires (poids nuls) afin dvaluer leur impact sur
lorientation des axes.

5.5

F IGURE 4 Tempratures : boulis des valeurs propres.

5.4

Stabilit

La prsentation de lACP, comme rsultat de lestimation dun modle, offre


une autre approche au problme du choix de dimension. La qualit des estimations est value de faon habituelle en statistique par un risque moyen quadratique dfinissant un critre de stabilit du sous-espace de reprsentation. Il est
dfini comme lesprance dune distance entre le modle vrai et lestimation


2
cq
cq ,
cq ) = 1
Lq = Q(Eq , E
= q trPq P
Pq P

2
M,D
o Q mesure la distance entre deux sous-espaces par la distance usuelle entre
les matrices de projection qui leur sont associes. Cest aussi la somme des
carrs des coefficients de corrlation canonique entre les ensembles de composantes ou de variables principales qui engendrent respectivement Eq et son
cq .
estimation E
Un risque moyen quadratique est alors dfini en prenant lesprance de la
fonction perte :
cq ).
Rq = EQ(Eq , E
(4)
Sans hypothse sur la distribution de lerreur, seules des techniques de rchantillonnage (bootstrap, jackknife) permettent de fournir une estimation
de ce risque moyen quadratique. Leur emploi est justifi, car le risque est invariant par permutation des observations, mais coteux en temps de calcul.

Page 39 sur 104

06/14

10

1.5

2.0

2.5

3.0

On se pose donc la question de savoir pour quelles valeurs de q les reprsentations graphiques sont fiables, cest--dire stables pour des fluctuations de
lchantillon. Besse (1992)[1] propose dutiliser une approximation de lestimateur par jackknife ; elle fournit, directement partir des rsultats de lA.C.P.
(valeurs propres et composantes principales), une estimation satisfaisante du
risque :
2
d
\
R
).
JKq = RPq + O((n 1)

Analyse en Composantes Principales (ACP)

0.5

1.0

d
R
Pq est une approximation analytique de lestimateur jackknife qui a pour
expression :
Pn
q
p
j
1 X X n1 i=1 (cki )2 (ci )2
d
RPq =
(5)
n1
(j k )2
j=q+1

0.0

k=1

o cji dsigne le terme gnral de la matrice des composantes principales C.


Ce rsultat souligne limportance du rle que joue lcart (q q+1 ) dans
la stabilit du sous-espace de reprsentation. Le dveloppement est inchang
dans le cas dune ACP rduite ; de plus, il est valide tant que

10

11

12

F IGURE 6 Tempratures : stabilit des sous-espaces.

n>

kSk2
.
inf {(k k+1 ); k = 1, . . . , q}

La figure 6 montrent la stabilit du sous-espace de reprsentation en fonction


de la dimension q pour lA.C.P. des donnes de tempratures. Comme souvent,
le premier axe est trs stable tandis que le premier plan reste fiable. Au del, les
axes tant trs sensibles toute perturbation des donnes, ils peuvent tre associs du bruit. Ces rsultats sont cohrents avec les deux critres graphiques
prcdents mais souvent, en pratique, le critre de stabilit conduit un choix
de dimension plus explicite.

Interprtation

Les macros SAS utilises, de mme que la plupart des logiciels, proposent,
ou autorisent, ldition des diffrents indicateurs (contributions, qualits, corrlations) et graphiques dfinis dans les paragraphes prcdents.
Les contributions permettent didentifier les individus trs influents pouvant dterminer eux seuls lorientation de certains axes ; ces points sont

vrifis, caractriss, puis ventuellement considrs comme supplmentaires dans une autre analyse.
Il faut choisir le nombre de composantes retenir, cest--dire la dimension des espaces de reprsentation.
Les axes factoriels sont interprts par rapport aux variables initiales bien
reprsentes.
Les graphiques des individus sont interprts, en tenant compte des qualits de reprsentation, en termes de regroupement ou dispersions par rapport aux axes factoriels et projections des variables initiales.
Les quelques graphiques prsents suffisent, dans la plupart des cas, linterprtation dune ACP classique et vitent la sortie volumineuse, lorsque n
est grand, des tableaux daide linterprtation (contributions, cosinus carrs). On chappe ainsi une critique frquente, et souvent justifie, des anglosaxons vis--vis de la pratique franaise de lanalyse des donnes qui, paradoxalement, cherche rsumer au mieux linformation mais produit plus de
chiffres en sortie quil ny en a en entre !

Page 40 sur 104

06/14

Analyse en Composantes Principales (ACP)

Variances

F IGURE 7 Souris : boulis des dix premires valeurs propres de lACP.

0.3

Remarque. LACP est une technique linaire optimisant un critre quadratique ; elle ne tient donc pas compte dventuelles liaisons non linaires et
prsente une forte sensibilit aux valeurs extrmes.

0.2

0.0

0.1

0.2

0.3

0.4

11

0.1

0.0

0.1

La figure 8 reprsente conjointement souris et gnes (biplot). Dans le cadre


de cette ACP, il est cohrent de rechercher quels sont les 25% des gnes contribuant le plus la dfinition de lespace propre trois dimensions jug pertinent. Avec cette slection, la reprsentation des variables ainsi restreinte 30
gnes est plus facilement lisible sur le plan factoriel. Pour des donnes plus
volumineuses (puces pangnomiques) dautres outils (version parcimonieuse
ou creuse de lACP) sont considrer.

GSTpi2CYP2c29
CAR1
ACOTH
PMDCI
PECI
mHMGCoAS
GSTmu
G6Pase
SIAT4c
AOX
BIEN
SR.BI
ALDH3
VDR
Ntcp
HPNCL
THIOL
GSTa
ACBP
L.FABP
LPK
HMGCoAred
ACC2
GKcHMGCoAS
Lpin1
Lpin

0.2

Lboulis des premires valeurs propres (figure 7) conduit considrer trois


dimensions reprsentant environ les deux tiers de linertie globale mais nous
limiterons linterprtation un peu sommaire au premier plan.

CYP3A11
CYP4A10

S14
FAS

0.3

Exemple : Donnes gnomiques

PC2

CYP4A14

0.3

0.2

0.1

0.0

0.1

0.2

0.3

PC1

Le premier plan (Fig. 8) doit tre interprt globalement puisque sa


deuxime bissectrice spare exactement les souris WT des souris PPAR. Les
gnes coordonnes ngatives sur laxe 2 et positives sur laxe1 sont sensible- F IGURE 8 Reprsentations conjointe sur le premier plan principal. Les soument plus exprims chez les souris WT, en particulier CYP3A11, CYP4A10, ris identifis par leur gnotype (WT triangles vers le haut, PPAR vers le bas) et
CYP4A14, THIOL, PMDCI, GSTpi2, L.FABP et FAS (ngatif sur les deux leur rgime (principalement noir-dha et rouge-efad).
axes). linverse, les gnes forte coordonne ngative sur laxe 2 sexpriment davantage chez les souris PPAR, par exemple, S14 et CAR1. Ceci
est en partie connu des biologistes.
Sur cette reprsentation, seules les souris WT prsentent des comportement
Page 41 sur 104

06/14

12

Analyse en Composantes Principales (ACP)

sensiblement diffrents au regard des rgimes. Le phnomne le plus marquant est lopposition, chez ces souris WT, entre les rgimes dha (triangles
noirs), dont les coordonnes sont toutes positives, et efad (triangles rouges),
dont les coordonnes sont toutes ngatives. Les gnes les plus exprims dans
le premier cas (rgime dha chez les souris WT) sont CYP3A11, CYP4A10,
CYP4A14 ; dans le second cas (rgime efad chez les mmes souris), il sagit
des gnes FAS et S14. Parmi ces rgulations, on note une opposition entre les
CYP4A, connus pour tre impliqus dans le catabolisme des acides gras, et les
gnes FAS et S14 impliqus eux dans la synthse des lipides. Par ailleurs, la
rgulation de CYP3A11 par le DHA a dj t dcrite dans la littrature.

Rfrences
[1] P.C. Besse, PCA stability and choice of dimensionality, Statistics & Probability Letters 13 (1992), 405410.
[2] I. Jolliffe, Principal Component Analysis, 2nd edition d., Springer-Verlag,
2002.

Page 42 sur 104

06/14

Analyse factorielle discriminante (AFD)

Analyse factorielle discriminante (AFD)

En posant
w` =

wi ,

i`

il vient

Rsum

D = T0 DT = diag(w1 , . . . , wm ).

Mthode factorielle de rduction de dimension pour lexploration


statistique de variables quantitatives et dune variable qualitative.
Construction du modle statistique associ, estimation. Reprsentation graphique optimale des classes des individus, liens avec
dautres dfinitions de lAFD.
Travaux pratiques de complexit croissante par ltudes de donnes
socio-conomiques.
Retour au plan du cours.

1
1.1

1.2

Objectifs

Deux techniques cohabitent sous la mme appellation danalyse discriminante :


descriptive : cette mthode recherche, parmi toutes les ACP possibles sur les
variables X j , celle dont les reprsentations graphiques des individus discriminent au mieux les m classes engendres par la variable T (e.g.
recherche de facteurs de risque en statistique mdicale) ;
dcisionnelle : connaissant, pour un individu donn, les valeurs des Y j mais
pas la modalit de T , cette mthode consiste affecter cet individu une
modalit (e.g. reconnaissance de formes). Cette mthode est dcrite dans
la partie modlisation de ce cours.

Introduction
Donnes

Les donnes sont constitues de


p variables quantitatives X 1 , . . . , X p jouant le rle de variables explicatives comme dans le modle linaire,
une variable qualitative T , m modalits {T1 , . . . , Tm }, jouant le rle de
variable expliquer.
La situation est analogue celle de la rgression linaire multiple mais,
comme la variable expliquer est qualitative, on aboutit une mthode trs
diffrente. Les variables sont
Pnobserves sur lensemble des n individus affects des poids wi > 0, ( i=1 wi = 1), et lon pose

Remarque. Lorsque le nombre et les caractristiques des classes sont


connues, il sagit dune discrimination ; sinon, on parle de classification ou
encore, avec des hypothses sur les distributions, de reconnaissance de mlanges.

1.3

Notations

On note X la matrice (np) des donnes quantitatives, G la matrice (mp)


des barycentres des classes :

D = diag(wi ; i = 1, . . . , n).
g1 0
1 X
1

G = D T0 DX = ... o g` =
wi xi ,
La variable T engendre une partition {` ; ` = 1, . . . , m} de lensemble
w`
0
i
`
gm
des individus dont chaque lment est deffectif n` .
On note T (n m) la matrice des indicatrices des modalits de la variable
et Xe la matrice (n p) dont la ligne i est le barycentre g` de la classe `
T ; son terme gnral est
laquelle appartient lindividu i :

1 si T (i ) = T`
`
`
ti = t (i ) =
.
Xe = TG = PG ;
0 sinon
Page 43 sur 104

06/14

Analyse factorielle discriminante (AFD)

P = TD T0 D est la matrice de projection D-orthogonale sur le sous-espace sont


P les observations rptes n` fois du mme effet z` pondr par w` =
engendr par les indicatrices de T ; cest encore lesprance conditionnelle
i` wi . Le modle devient donc :
sachant T .
Deux matrices centres sont dfinies de sorte que X se dcompose en
X = Xr + Xe
avec
Xr = X Xe et Xe = Xe 1n x 0 .
On note galement G la matrice centre des barycentres :
G = G 1m x 0 .
On appelle alors variance intraclasse (within) ou rsiduelle :
Sr = Xr 0 DXr =

m X
X

wi (xi g` )(xi g` )0 ,

`=1 i`

{xi ; i = 1, . . . , n}, n vecteurs indpendants


de E,

E(i ) = 0, var(i ) = ,
`, i ` , xi = z` + i avec
rgulire et inconnue,
(1)
Aq , sous-espace affine de de dimension q de E tel que
`, z` Aq , (q < min(p, m 1)).
Pm
Remarque. Soit z = `=1 w` z` . Le modle entrane que z Aq . Soit Eq
le sous-espace de dimension q de E tel que Aq = z + Eq . Les paramtres
estimer sont Eq et {z` ; ` = 1, . . . , m} ; w` est un paramtre de nuisance qui
ne sera pas considr.

2.2

Estimation

Lestimation par les moindres carrs scrit ainsi :

et variance interclasse (between) ou explique :


0

Se = G DG = X e DX e =

m
X

min

P ROPOSITION 1. La matrice des covariances se dcompose en


S = Se + Sr .

2
2.1

Dfinition

Eq ,z`

w` (g` x)(g` x)0 .

`=1

(m
XX

)
wi kxi

2
z` kM

; dim(Eq ) = q, z` z Eq

`=1 i`

Comme on a
m X
m
m X
X
X
X
2
2
2
wi kxi z` kM =
wi kxi g` kM +
w` kg` z` kM ,
`=1 i`

`=1 i`

`=1

on est conduit rsoudre :


(m
)
X
2
w` kg` z` kM ; dim(Eq ) = q, z` z Eq .
min
Eq ,z`

Modle

`=1

La covariance 2 du modle (1) tant inconnue, il faut lestime. Ce moDans lespace des individus, le principe consiste projeter les individus
dans une direction permettant de mettre en vidence les groupes. cette fin, dle stipule que lensemble des observations dune mme classe l suit une loi
Il faut privilgier la variance interclasse au dtriment de la variance intraclasse (inconnue) de moyenne ze ll et de variance . Dans ce cas particulier, la matrice de covariances intraclasse ou matrice des covariances rsiduelles empiconsidre comme due au bruit.
riques Sr fournit donc une estimation optimale de la mtrique de rfrence :
En ACP, pour chaque effet zi estimer, on ne dispose que dune observation
b 1 = S1
xi ; dans le cas de lAFD on considre que les lments dune mme classe `
M=
r
Page 44 sur 104

06/14

Analyse factorielle discriminante (AFD)

Les individus initiaux sont projets comme des individus supplmentaires dans
le systme des axes discriminants. Comme en ACP, on peut calculer des cosiP ROPOSITION 2. Lestimation des paramtres Eq et z` du modle 1 est nus carrs pour prciser la qualit de reprsentation de chaque individu.
obtenue par lACP de (G, S1
r , D). Cest lAnalyse Factorielle Discriminante
Il est utile de diffrencier graphiquement la classe de chaque individu afin
(AFD) de (X|T, D) .
de pouvoir apprcier visuellement la qualit de la discrimination.
.

Ralisation de lAFD

3.3

Reprsentation des variables

Lespace des variables est (Rm , b. c., D). Chaque variable X j est reprsent
Les expressions matricielles dfinissant les reprsentations graphiques et les
par un vecteur dont les coordonnes dans le systme des axes factoriels est une
aides linterprtation dcoulent de celles de lACP.
ligne de la matrice V1/2 .

3.1

Matrice diagonaliser

3.4

Interprtations

LACP de (G, S1
r , D) conduit lanalyse spectrale de la matrice positive
Les interprtations usuelles : la norme est un cart-type, un cosinus dangle
1
Sr -symtrique :
est
un coefficient de corrlation, doivent tre faites en termes dcarts-types et
0
1
1
G D GSr = Se Sr .
de corrlations expliques par la partition.
Comme S1
r est rgulire, cette matrice est de mme rang que Se et donc de
La reprsentation des variables est utilise pour interprte les axes en foncmme rang que G qui est de dimension (m p). Les donnes tant centres
tion des variables initiales conjointement avec la matrice des corrlations exlors de lanalyse, le rang de la matrice diagonaliser est
1/2
pliques variablesfacteurs : 1
. La matrice 1
tant la matrice
e V
e
j
1
diagonale des carts-types expliqus e cest--dire des racines carres des
h = rang(Se Sr ) inf(m 1, p),
lments diagonaux de la matrice Se .
qui vaut en gnral m 1 cest--dire le nombre de classes moins un.
Le point pratique essentiel est de savoir si la reprsentation des individus1
h
On note 1 h > 0 les valeurs propres de Se S1
r et v , . . . , v les barycentres et des individus initiaux permet de faire une bonne discrimination
vecteurs propresS1
r -orthonorms associs. On pose
entre les classes dfinies par la variable T . Si ce nest pas le cas, lAFD ne
sert rien, les X j nexpliquent pas T . Dans le cas favorable, le graphique des
= diag(1 , . . . , h ) et V = [v1 , . . . , vh ].
individus permet dinterprter la discrimination en fonction des axes et, celui
Les vecteurs vk sont appels vecteurs discriminants et les sous-espaces vecto- des variables, les axes en fonction des variables initiales. La synthse des deux
riels de dimension 1 quils engendrent dans Rp les axes discriminants.
permet linterprtation de T selon les X j .

3.2

Reprsentation des individus

Variantes de lAFD

Lespace des individus est (Rp , b. c., S1


r ). Une reprsentation simultane
des individus xi et des barycentres g` des classes par rapport aux mmes axes 4.1 Individus de mmes poids
discriminants est obtenue dans cet espace au moyen des coordonnes :
LAFD peut tre dfinie de diffrentes faon. Dans la littrature angloC = XS1
saxonne, et donc dans la version standard dAFD du logiciel SAS (procdure
r V pour les individus et
1
candisc), ce sont les estimations sans biais des matrices de variances intra
C = GS1 V = D T0 DC pour les barycentres.
r

Page 45 sur 104

06/14

Analyse factorielle discriminante (AFD)

(within) et inter (between) qui sont considres dans le cas dindividus de Ainsi, les reprsentations graphiques sont identiques un facteur dchelle prs
tandis que les parts de variance explique et les corrlations variables-facteurs
mmes poids 1/n.
sont inchanges.
Dans ce cas particulier,
1
1
In et D = diag(n1 , . . . , nm ) o n` = card(` )
n
n
et les matrices de covariances empiriques ont alors pour termes gnraux :
D=

(S)kj

1X j
(x xj )(xki xk ),
n i=1 i

(Se )kj

1X
n` (g`j xj )(g`k xk ),
n

m
1XX j
(xi g`j )(xki g`k ).
n

`=1

(Sr )kj

`=1 i`

4.2

Mtrique de Mahalanobis

LAFD est souvent introduite dans la littrature francophone comme un cas


particulier dAnalyse Canonique entre un ensemble de p variables quantitatives
et un ensemble de m variables indicatrices des modalits de T . La proposition
suivante tablit les relations entre les deux approches :
P ROPOSITION 3. lACP de (G, S1
r , D) conduit aux mmes vecteurs principaux que lACP de (G, S1 , D). Cette dernire est lACP des barycentres
des classes lorsque lespace des individus est muni de la mtrique dite de Mahalanobis M = S1 et lespace des variables de la mtrique des poids des
classes D.

Les rsultats numriques de lAFD se trouvent alors modifis de la faon


Du point de vue de le Statistique infrentielle, on sait que les quantits calsuivante
:
cules ci-dessus ont respectivement (n 1), (m 1) et (n m) degrs de
libert. En consquence, ce point de vue est obtenu en remplaant dans les
matrice diagonaliser :
Se S1 ,
calculs
valeurs propres :
(I + )1 ,
n

vecteurs propres :
V(I + )1/2 ,
S,
S par S =
n1
reprsentation des barycentres : C(I + )1/2 ,
n

Se par Se = B =
Se ,
reprsentation des variables :
V1/2 ,
m1
1/2
corrlations variables-facteurs : 1
.
n
e V
Sr .
Sr par Sr = W =
nm
Les reprsentations graphiques des individus (voir ci-dessus) ne diffrent
Les rsultats numriques de lAFD se trouvent alors modifis de la faon alors que dune homothtie et conduisent des interprtations identiques, les
suivante :
corrlations variables-facteurs ainsi que les reprsentations des variables sont
nm
1
inchanges.
matrice diagonaliser :
Se S1
=
S
S
,
r
m1 e r
valeurs propres :

= nm
,
m1
q
n
5 Exemples
vecteurs propres :
V
=
V,
q nm

nm
reprsentation des barycentres : C
=
C,
5.1 Les insectes de Lubitsch
q n
1/2
n
1/2
,
reprsentation des variables :
V
=
m1 V
Cette mthode est illustre par une comparaison des sorties graphiques is1 1/2
1
1/2
sues
dune ACP et dune AFD. Les donnes dcrivent trois classes dinsectes
corrlations variables-facteurs : e V
= e V .
Page 46 sur 104

06/14

Analyse factorielle discriminante (AFD)

A
x
e
2

-1

-2

-3

5
-4
-4

-3

-2

-1

Axe 1

3
2

F IGURE 1 Insectes : premier plan factoriel de lACP.

A
x
e

0
-1

sur lesquels ont t ralises 6 mesures anatomiques. On cherche savoir si


ces mesures permettent de retrouver la typologie de ces insectes. Ce jeu de
donnes scolaire, comme les fameux iris de Fisher conduit une discrimination assez vidente. La comparaison entre lACP et lAFD met clairement en
vidence le rle de la distance S1
R que la forme des nuages de chaque classe
en analyse discriminante.

5.2

Donnes gnomiques

-2
-3
-4
-8

-7

-6

-5

-4

-3

-2

-1

Axe 1

F IGURE 2 Insectes : premier plan factoriel de lAFD.

Les donnes gnomiques pose videmment des problmes lanalyse discriminante ; le grand nombre de gnes/variables par rapport au nombre de souris/individus rend impossible linversion de la matrice des covariances intraclasses. Aussi, en saidant de la slection de variables suggre par lanalyse
en composantes principales, une analyse factorielle discriminante a t calcule sur les seules souris sauvages (WR) pour qui les rgimes apparaissaient dj
bien diffrencis sur lACP. Les variables ne sont pas reprsentes mais les
rapprochements dj voqus pour lACP sont confirms et prciss.

Page 47 sur 104

06/14

15
4
dha

esol

12

218

1
111013
ref8
lin 17
5
7
14 20
tournesol
19

efad
16

Dim 2 (15.55 %)

Analyse factorielle discriminante (AFD)

Dim 1 (44.91 %)

F IGURE 3 Souris : Les souris de gnotype WT dans le premier plan factoriel de lAFD calcule avec une slection de variables dexpression de gnes
conditionnellement au rgime.

Page 48 sur 104

06/14

Analyse Factorielle des Correspondances (AFC)

Analyse Factorielle des


Correspondances (AFC)

TABLE 1 Table de contingence

x1
..
.
x`
..
.
xr
sommes

Rsum
Mthode factorielle de rduction de dimension pour lexploration
statistique dune table de contingence dfinie par deux variables
qualitatives. Dfinition partir de lanalyse en composantes principales des profils. Dfinition du modle statistique associ, estimation. Reprsentation graphique simultane des modalits des variables.

1
1.1

yh
n1h
..
.
n`h
..
.
nrh
n+h

yc
n1c
..
.
n`c
..
.
nrc
n+c

sommes
n1+
..
.
n`+
..
.
nr+
n

n`h /n) et de frquences marginales ranges dans les vecteurs :


gr
et gc

Travaux pratiques de complexit croissante par ltudes de donnes


lmentaires.
Retour au plan du cours.

y1
n11
..
.
n`1
..
.
nr1
n+1

= [f1+ , . . . , fr+ ]0 ,
= [f+1 , . . . , f+c ]0 .

Elles permettent de dfinir les matrices :


Dr
et Dc

Introduction

= diag(f1+ , . . . , fr+ ),
= diag(f+1 , . . . , f+c ).

Donnes

On sera galement amen considrer les profilslignes et les profils


On considre dans cette vignette deux variables qualitatives observes si- colonnes dduits de T. Le `-ime profil-ligne est
multanment sur n individus affects de poids identiques 1/n. On suppose que
n`1
n`h
n`c
{
,...,
,...,
}.
la premire variable, note X, possde r modalits notes x1 , . . . , x` , . . . , xr ,
n`+
n`+
n`+
et que la seconde, note Y , possde c modalits notes y1 , . . . , yh , . . . , yc .
c
La table de contingence associe ces observations, de dimension r c, est Il est considr comme un vecteur de R et les r vecteurs ainsi dfinis sont
note T ; son lment gnrique est n`h , effectif conjoint. Elle se prsente sous disposs en colonnes dans la matrice c r
la forme suivante dune table de contingence prsente dans le Tableau 1).
1
A = T0 D1
r .
n
1.2 Notations
Pc
Pr
Les quantits {n`+ = h=1 n`h ; ` = 1, . . . ,P
r} et {n+h =P `=1 n`h ; h = De mme, le h-ime profil-colonne est
r
c
1, . . . , c} sont les effectifs marginaux vrifiant `=1 n`+ = h=1 n+h = n.
n1h
n`h
nrh
{
,...,
,...,
},
De faon analogue, on dfinit les notions de frquences conjointes (f`h =
n+h
n+h
n+h
Page 49 sur 104

06/14

vecteur de Rr , et la matrice r c des profils-colonnes est


B=

1.3

Analyse Factorielle des Correspondances (AFC)

e et Ye ne sont pas indpenlhypothse alternative est H1 : les variables X


dantes.

1
TD1
c .
n

La statistique de test est alors

Liaison entre deux variables qualitatives

2 =

n`+ n+h 2
n
;
n`+ n+h
n

c
r X
X
n`h

D FINITION 1. On dit que deux variables X et Y sont non lies relative`=1 h=1
ment T si et seulement si :
elle suit asymptotiquement (pour les grandes valeurs de n), et si lhypothse
n`+ n+h
(`, h) {1, . . . , r} {1, . . . , c} : n`h =
.
H0 est vraie, une loi de 2 (r1)(c1) degrs de libert. On rejette donc H0
n
(et lon conclut au caractre significatif de la liaison) si 2 dpasse une valeur
Il est quivalent de dire que tous les profils-lignes sont gaux, ou encore que particulire (valeur ayant une probabilit faible et fixe a priori en gnral
0,05 tre dpasse par une loi de 2 (r 1)(c 1) degrs de libert).
tous les profils-colonnes sont gaux.
Cette notion est cohrente avec celle dindpendance en probabilits. En
effet, soit = {1, . . . , n} lensemble des individus observs et (, P(), P )
lespace probabilis associ o P est lquiprobabilit ; MX = {x1 , . . . , xr }
et MY = {y1 , . . . , yc } dsignent les ensembles de modalits, ou valeurs prises
e et Ye les variables alatoires associes aux
par les variables X et Y . On note X
2 variables statistiques X et Y :

1.4

Objectifs

Pour prciser la liaison existant entre les variables X et Y , on souhaite dfinir un modle statistique susceptible de fournir des paramtres dont la reprsentation graphique (de type biplot) illustrera les correspondances entre les
modalits de ces 2 variables. Cette approche sera dveloppe au paragraphe 3.

Une autre approche, trs courante dans la littrature francophone, consiste


dfinir lAnalyse Factorielle des Correspondances (AFC) comme tant le
rsultat dune double Analyse en Composantes Principales
lACP des profilslignes,
PX , PY et PXY dsignent respectivement les probabilits images dfinies par
lACP des profilscolonnes,
e Ye et le couple (X,
e Ye ) sur (MX , P(MX )), (MY , P(MY )) et (MX
X,
relativement la mtrique dite du 2 . Cette approche est prsente au paraMY , P(MX ) P(MY )) ; ce sont les probabilits empiriques. Alors, X et Y graphe 2.
e et Ye sont indpendantes en probabilit (la
sont non lies si et seulement si X
Remarque. :
vrification est immdiate).
1. Toute structure dordre existant ventuellement sur les modalits de X ou
On suppose maintenant quil existe une liaison entre X et Y que lon soude Y est ignore par lAFC
haite tudier. La reprsentation graphique des profils-lignes ou des profilse : (, P(), P )
X
7
(MX , P(MX )),
Ye : (, P(), P )
7
(MY , P(MY )) ;

colonnes, au moyen de diagrammes en barres parallles, ainsi que le calcul


de coefficients de liaison (Cramer ou Tschuprow) donnent une premire ide
de la variation conjointe des deux variables. Le test du 2 permet de plus de
sassurer du caractre significatif de cette liaison. Il est construit de la manire
suivante :
e et Ye sont indpendantes en probabilits ;
lhypothse nulle est H0 : X

2. Tout individu prsente une modalit et une seule de chaque variable.


3. Chaque modalit doit avoir t observe au moins une fois ; sinon, elle est
supprime.

Double ACP

Page 50 sur 104

06/14

2.1

Mtriques du Chi2

Les correspondances entre modalits voques au paragraphe prcdant se


trouvent exprimes en termes de distances au sens dune certaine mtrique.
Ainsi, chaque modalit x` de X est caractrise par son profilligne reprsent
par le vecteur a` de lespace Rc muni de la base canonique (les coordonnes de
a` sont les lments de la `-ime colonne de A). De mme, chaque modalit
yh de Y est caractrise par son profilcolonne reprsent par le vecteur bh de
lespace Rr muni de la base canonique.

Analyse Factorielle des Correspondances (AFC)

3. la solution de lACP est fournie par la D.V.S. de (B0 1gr0 , D1


r , Dc ), qui conduit
rechercher les valeurs et vecteurs propres de la matrice (SM)
0
0
1
BDc B0 D1
( car B0 D1
= D1
r gr Dc gr = BA gr gr Dr
r
c A)

4. les matrices BA gr gr0 D1


et BA ont les mmes vecteurs propres associes
r
aux mmes valeurs propres, lexception du vecteur gr associ la valeur propre
0 = 0 de BA gr gr0 D1
r et la valeur propre 0 = 1 de BA.
2

Ces espaces sont respectivement munis des mtriques, dites du 2 , de maet D1


trices D1
r . Ainsi, la distance entre deux modalits x` et xi de X
c
On note U la matrice contenant les vecteurs propres D1
r orthonorms de
scrit
BA.
La
reprsentation
des
individus
de
lACP
ralise
fournit
une reprsenc
X
1
tation
des
modalits
de
la
variable
Y
.
Elle
se
fait
au
moyen
des
lignes de la
`
i 2
`
i 2
ka a kD1 =
(a ah ) ,
c
f+h h
matrice
des
composantes
principales
(XMV)
:
h=1
Cc = B0 D1
et de mme pour les modalits de Y . La mtrique du 2 introduit les inverses
r U.
des frquences marginales des modalits de Y comme pondrations des carts
entre lments de deux profils relatifs X (et rciproquement) ; elle attribue 2.3 ACP des profilslignes
donc plus de poids aux carts correspondants des modalits de faible effectif
De faon symtrique (ou duale), on sintresse lACP des individus mo(rares) pour Y .
dalits de X ou profilslignes (la matrice des donnes est A0 ), pondrs par
les frquences marginales des lignes de T (la matrice diagonale des poids est
2.2 ACP des profilscolonnes
Dr ) et utilisant la mtrique du 2 . Il sagit donc de lACP de (A0 , D1
c , Dr ).
On sintresse ici lACP du triplet (B0 , D1
,
D
).
Dans
cette
ACP,
les
inc
r
dividus sont les modalits de Y , caractrises par les profilscolonnes de T,
P ROPOSITION 3. Les lments de lACP de (A0 , D1
c , Dr ) sont fournis
pondres par les frquences marginales correspondantes et ranges en lignes
1
par
lanalyse
spectrale
de
la
matrice
carre,
D
symtrique
et semidfinie
c
dans la matrice B0 .
positive AB.
P ROPOSITION 2. Les lments de lACP de (B0 , D1
r , Dc ) sont fournis
On obtient directement les rsultats en permutant les matrices A et B, ainsi
par lanalyse spectrale de la matrice carre, D1
r symtrique et semidfinie que les indices c et r. Notons V la matrice des vecteurs propres de la matrice
positive BA.
AB ; les coordonnes permettant la reprsentation les modalits de la variable
X sont fournies par la matrice :
Preuve Elle se construit en remarquant successivement que :

Cr = A0 D1
c V.

1. le barycentre du nuage des profilscolonnes est le vecteur gr des frquence marginales de X,


2. la matrice BDc B0 gr Dc gr0 joue le rle de la matrice des variancescovariances,

Sachant que V contient les vecteurs propres de AB et U ceux de BA,


un thorme de lannexe (st-m-explo-alglin Complments dalgbre linaire)

Page 51 sur 104

06/14

Analyse Factorielle des Correspondances (AFC)

montre quil suffit de raliser une seule analyse, car les rsultats de lautre sen 3.2 Le modle dassociation
dduisent simplement :
Il est encore appel RC-modle, ou modle de Goodman :
!
q
X
V = AU1/2 ,
p`h = .` .h .exp
k .`k .hk .
k=1
U = BV1/2 ;
Ce modle, muni des contraintes ncessaires, permet de structurer les interac est la matrice diagonale des valeurs propres (excepte 0 = 0) communes
tions et de faire des reprsentations graphiques des lignes et des colonnes de
aux deux ACP
T au moyen des paramtres k et hk . Ces paramtres peuvent tre estims
par maximum de vraisemblance ou par moindres carrs.
1/2
1/2
1/2
0 1
0 1
1
1
Cc = B Dr U = B Dr BV
= Dc ABV
= Dc V ,
Cr

3.3

1/2
1
= A0 D1
.
c V = Dr U

Le modle de corrlation

On crit ici :

On en dduit les formules dites de transition :


Cc
Cr

p`h = p`+ p+h +

1/2

= B Cr
,
1/2
0
= A Cc
.

k uk` vhk ,

(1)

k=1

La reprsentation simultane habituellement construite partir de ces matrices (option par dfaut de SAS) nest pas a priori justifie. On lui donnera un
sens dans les paragraphes suivants.

q
X
p

avec q inf(r 1, c 1), 1 q > 0 et sous les contraintes


didentifiabilit suivantes :
r
X

Modles pour une table de contingence

uk` =

`=1
0

c
X

vhk

0,

h=1
0

j
k
1 j
uk D1
r u = v Dc v

= kj .
On crit dabord que chaque frquence f`h de T correspond lobservation
dune probabilit thorique p`h ; on modlise donc la table de contingence par Remarque. :
cette distribution de probabilits. On prcise ensuite le modle en explicitant
1. Le modle (1) ci-dessus est quivalent au modle considr par Goodlcriture de p`h . Diffrents modles classiques peuvent tre considrs.
man :
!
3.1 Le modle loglinaire
q
X
p
k k
k ` h ,
(2)
p`h = p`+ p+h 1 +
Il consiste crire :
k=1

ln(p`h ) = + ` + h + `h
avec des contraintes le rendant identifiable. Ce modle, trs classique, est dvelopp par ailleurs.

moyennant une homothtie sur les paramtres.


Pq
2. La quantit k=1 k uk` vhk exprime lcart lindpendance pour la cellule considre.

Page 52 sur 104

06/14

Analyse Factorielle des Correspondances (AFC)

3. Le modle suppose que cet cart se dcompose dans un sousespace de associs aux valeurs propres k .
dimension q < min(c 1, r 1).
De plus, le vecteur gr = u0 (resp. gc = v0 ) est vecteur propre D1
r norm (resp.
4. Les estimations des paramtres p`+ , p+h , k , uk , vk peuvent tre rali- D1
c norm) de la matrice BA (resp. AB) associ la valeur propre 0 = 1. Enfin,
2
ses par maximum de vraisemblance 1 ou par moindres carrs. Dans le les matrices AB et BA sont stochastiques et donc les valeurs propres vrifient :
contexte de la statistique descriptive, qui est celui de ce cours, il est natu1 = 0 1 q > 0.
rel de retenir cette dernire solution.

3.4
3.4.1

Estimation Moindres Carrs dans le modle de


corrlation
Critre

k=1

Considrons les espaces Rc et Rr munis de leur base canonique et de leur


mtrique du 2 respectives et notons P le tableau des probabilits thoriques
dfinies selon le modle (1). Le critre des moindres carrs scrit alors :

2
1


min T P
1 1 .
P
n
Dr Dc
3.4.2

En identifiant les termes, lapproximation de rang (q + 1) de la matrice P scrit


donc :
q
X
p
0
b q = gr gc0 +
P
k uk v k

(3)

Reprsentations graphiques

4.1

Estimation

P ROPOSITION 4. Lestimation des paramtres de (1) en rsolvant (3) est


1
fournie par la D.V.S. de ( n1 T, D1
c , Dr ) lordre q. Les probabilits marginales p`+ et p+h sont estimes par f`+ et f+h tandis que les vecteurs uk (resp.
vk ) sont vecteurs propres de la matrice BA (resp. AB) associs aux valeurs
propres k .
On obtient ainsi, dune autre faon, lAFC de la table de contingence T.
1
Preuve Elle se construit partir de la D.V.S. de ( n1 T, D1
c , Dr ) :

1 h
t` =
n

Biplot

La dcomposition de la matrice n1 T se transforme encore en :


f`h f`+ f+h
=
f`+ f+h

min(r1,c1)

k=0

uk` vhk
.
f`+ f+h

En se limitant au rang q, on obtient donc, pour chaque cellule (`, h) de la table


T, une approximation de son cart relatif lindpendance comme produit
scalaire des deux vecteurs

min(r1,c1)

uk` 1/4
v k 1/4
k et h k ,
f`+
f+h

p
k uk` vhk ,

k=0

1
o les vecteurs u (resp. v ) sont vecteurs propres D1
r orthonorms (resp. Dc
orthonorms) de la matrice
1
1 0 1
1
1
TD1
T Dr = BA (resp. T0 D1
TD1
= AB),
c
r
c
n
n
n
n
k

et les proprits dorthonormalit des vecteurs propres assurent que les contraintes du
modle sont vrifies.

1. On suppose alors que les n p`h sont les paramtres de lois de Poisson indpendantes
conditionnellement leur somme qui est fixe et gale n.

termes gnriques respectifs des matrices


1/4
1/4
D1
et D1
,
r U
c V

2. Matrice relle, carre, termes positifs, dont la somme des termes de chaque ligne (ou
chaque colonne) vaut 1.

Page 53 sur 104

06/14

Analyse Factorielle des Correspondances (AFC)

on voit que dans la seconde des reprsentations cidessus, chaque modalit x`


de X est reprsente par un vecteur qui est barycentre de lensemble des vecteurs associs aux modalits de Y , chacun deux ayant pour poids llment
correspondant du l-ime profilligne. L encore, la reprsentation simultane
sen trouve parfaitement justifie. Malheureusement, dans la pratique, les reprsentations barycentriques sont souvent illisibles ; elles sont, de ce fait, trs
LAFC apparat ainsi comme la meilleure reconstitution des frquences f`h , peu utilises.
ou encore la meilleure reprsentation des carts relatifs lindpendance. La
4.4 Autre reprsentation
reprsentation simultane des modalits de X et de Y se trouve ainsi pleinement justifie.
La pratique de lAFC montre que linterprtation des graphiques est toujours
la mme, quelle que soit la reprsentation simultane choisie parmi les 3 ci
4.2 Double ACP
dessus.

qui sont encore les estimations des vecteurs ` et h du modle 2. Leur reprsentation (par exemple avec q = 2) illustre alors la correspondance entre les
deux modalits x` et yh : lorsque deux modalits, loignes de lorigine, sont
voisines (resp. opposes), leur produit scalaire est de valeur absolue importante ; leur cellule conjointe contribue alors fortement et de manire positive
(resp. ngative) la dpendance entre les deux variables.

On peut ainsi envisager dutiliser, pour une reprsentation simultane des


Chacune des deux ACP ralise permet une reprsentation des individus
(modalits) approchant, au mieux, les distances du 2 entre les profilslignes modalits de X et de Y , les coordonnes fournies respectivement par les lignes
dune part, les profilscolonnes dautre part. Les coordonnes sont fournies des matrices
cette fois par les matrices (de composantes principales)
1/2
1/2
Cr = D1
et Cc = D1
.
r U
c V

1
D1
r U et Dc V.

Mme si la reprsentation simultane na plus alors de justification, elle reste


couramment employe. En fait, les graphiques obtenus diffrent trs peu de
ceux du biplot ; ce dernier sert donc de caution puisque les interprtations
des graphiques sont identiques. On notera que cette reprsentation issue de la
double ACP est celle ralise par la plupart des logiciels statistiques (cest en
particulier le cas de SAS).

Linterprtation du graphique sera toujours la mme et les matrices ci


dessus, outre leur simplicit, prsentent lavantage de conduire a une reprsentation graphique qui reste invariante lorsque lon utilise la technique dAnalyse
Factorielle des Correspondances Multiples sur les donnes considres ici.

4.5

Aides linterprtation

Les qualits de reprsentation dans la dimension choisie et les contributions


des modalits de X ou de Y se dduisent aisment de celles de lACP Ces
Dautres reprsentations simultanes, appeles barycentriques, sont propo- quantits sont utilises la fois pour choisir la dimension de lAFC et pour
ses en utilisant les matrices
interprter ses rsultats dans la dimension choisie.

4.3

Reprsentations barycentriques

1/2
D1
et D1
r U
c V,

4.5.1

ou encore les matrices


D1
r U

et

1/2
D1
.
c V

Si lon considre alors, par exemple, la formule de transition


1/2
0 1
Cr = A0 Cc 1/2 Cr 1/2 = A0 Cc D1
,
r U = A Dc V

Mesure de la qualit globale

Pour une dimension donne q (1 q d = inf(r 1, c 1)), la qualit


globale des reprsentations graphiques en dimension q se mesure par le rapport entre la somme des q premires valeurs propres de lAFC et leur somme
complte de 1 d.
Pd
Comptetenue de la proprit k=1 k = 2 (voir en 6.1), la qualit de la

Page 54 sur 104

06/14

Analyse Factorielle des Correspondances (AFC)

reprsentation dans la kime dimension scrit

Exemple

Lexemple des donnes bancaires ainsi que les donnes dexpression gnomique se prte mal lillustration dune analyse des correspondances, aucun
couple de variable qualitative ne conduit des reprsentations intressantes.

nk
.
2

La table de contingence tudie titre dexemple dcrit la rpartition des


On parle encore de part du khideux explique par la kime dimension (voir exploitations agricoles de la rgion MidiPyrnes dans les diffrents dparteles sorties du logiciel SAS).
ments en fonction de leur taille. Elle croise la variable qualitative dpartement,

8 modalits, avec la variable taille de lexploitation, quantitative dcoupe en


4.5.2 Mesure de la qualit de chaque modalit
6 classes. Les donnes, ainsi que les rsultats numriques obtenus avec la proPour chaque modalit de X (resp. de Y ), la qualit de sa reprsentation en cdure corresp de SAS/STAT, sont fournis en annexe.
dimension q se mesure par le cosinus carr de langle entre le vecteur reprsenLa figure 5 prsente le premier plan factoriel utilisant les coordonnes obtetant cette modalit dans Rc (resp. dans Rr ) et sa projection D1
c orthogonale nues par dfaut, cestdire celles de la double ACP.
(resp. D1
r orthogonale) dans le sousespace principal de dimension q.
Ces cosinus carrs sobtiennent en faisant le rapport des sommes appropries des carrs des coordonnes extraites des lignes de Cr (resp. de Cc ).

4.5.3

6.1

Contributions linertie totale

Linertie totale (en dimension d) du nuage des profilslignes (resp. des


profilscolonnes) est gale la somme des d valeurs propres. La part due au
Pd
iime profilligne (resp. au jime profilcolonne) valant f`+ k=1 (ckr` )2
Pd
(resp. f+h k=1 (ckch )2 ), les contributions linertie totale sen dduisent immdiatement.
4.5.4

Proprits

Formule de reconstitution des donnes. On appelle ainsi lapproximation

dordre q (cestdire fournie par lAFC en dimension q) de la table des


frquences initiales ( n1 T) :
f`h ' f`+ f+h

q
X
p
k uk` vhk .
k=1

Contributions linertie selon chaque axe

Il sagit de quantits analogues celles cidessus, dans lesquelles il ny a


pas de sommation sur lindice k. Ces quantits sont utilises dans la pratique
pour slectionner les modalits les plus importantes, cestdire celles qui
contribuent le plus la dfinition de la liaison entre les 2 variables X et Y .
4.5.5

Complments

Remarque

Les valeurs propres vrifient :


d
X

k = 2 .

k=1

En effet, on vrifie facilement :

En gnral, on ninterprte pas les axes dune AFC (en particulier parce
quil ny a pas de variable quantitative intervenant dans lanalyse). Linterprtation sappuie surtout sur la position relative des diffrentes modalits repres comme les plus importantes.

trAB =

d
X
k=0

k = 1 +

2
= 1 + 2 ;
n

do le rsultat.

Page 55 sur 104

06/14

Analyse Factorielle des Correspondances (AFC)

6.2

Invariance

Les tables de contingence T et T, R+ , admettent la mme AFC

(vident).
Proprit dquivalence distributionnelle : si deux lignes de T, ` et i,

ont des effectifs proportionnels, alors les reprsentations de x` et xi sont


confondues (leurs profils sont identiques) et le regroupement de x` et xi
en une seule modalit (en additionnant les effectifs) laisse inchanges les
reprsentations graphiques (mme chose pour les colonnes de T). Cette
proprit est une consquence de la mtrique du 2 .

0.4

6.3

0.3

SINF1
h.g.

A
x
e

0.1

Le choix de la dimension pose les mmes problmes quen ACP De nombreuses techniques empiriques ont t proposes (essentiellement : part dinertie explique, boulis des valeurs propres). Il existe galement une approche
probabiliste qui peut donner des indications intressantes. Nous la dtaillons
cidessous.

S1_5
arie

0.2

Choix de la dimension

S_100
S50_99

Posons
gers
0.0

q
d
n
`h = nf`+ f+h + n

h.p.

q
X
p
k uk` vhk ,
k=1

S20_50
t.g.
S10_20
lot
tarn
-0.1

aver
S5_10
-0.2
-0.5

-0.3

-0.1

0.1
Axe

0.3
1

0.5

0.7

estimation dordre q de leffectif conjoint de la cellule (`, h). Alors, sous certaines conditions (chantillonnage, n grand, modle multinomial . . . ), on peut
montrer que
r X
c
d
q 2
d
X
X
(n`h n
`h )
'n
k
Kq =
q
d
n
`=1 h=1

`h

k=q+1

2
F IGURE 1 Rpartition des exploitations agricoles par taille et par dparte- suit approximativement une loi de (r q 1)(c q 1) degrs de libert.
On peut donc retenir pour valeur de q la plus petite dimension pour laquelle
ment. Premier plan de lAFC.
Kq est infrieure la valeur limite de cette loi. Le choix q = 0 correspond
la situation o les variables sont proche de lindpendance en probabilits ;
les frquences conjointes sont alors bien approches par les produits des frquences marginales.

Page 56 sur 104

06/14

Analyse factorielle multiple des correspondances (AFCM)

1
p
Considrons maintenant p variables
Pp qualitatives X , . . . , X . On note cj le
j
nombre de modalits de X , c = j=1 cj et Xj la matrice des indicatrices de
Xj.

Analyse factorielle multiple des


correspondances (AFCM)

On appelle alors tableau disjonctif complet la matrice X, n c, obtenue par


concatnation des matrices Xj :

Rsum
Mthode factorielle de rduction de dimension pour lexploration
statistique de donnes qualitatives complexes. Cette mthode est une
gnralisation de lAnalyse Factorielle des Correspondances, permettant de dcrire les relations entre p (p > 2) variables qualitatives
simultanment observes sur n individus. Elle est aussi souvent utilise pour la construction de scores comme pralable une mthode
de classification (kmeans) ncessitant des donnes quantitatives.
Travaux pratiques de complexit croissante par ltudes de donnes
lmentaires, puis pidmiologiques avec interactions.
Retour au plan du cours.

1
1.1

X = [X1 | |Xp ].
X vrifie :

c
X

xki = p, i et

k=1

n X
c
X

xki = np.

i=1 k=1

Dautre part, la somme des lments dune colonne de X est gale leffectif
marginal de la modalit de la variable X j correspondant cette colonne.

1.2

Tableau de Burt

On observe toujours p variables qualitatives sur un ensemble de n individus.


On appelle tableau de Burt la matrice B, c c, dfinie par :

Codages de variables qualitatives

B = X0 X.

Tableau disjonctif complet

On peut crire B = [Bjl ] (j = 1, . . . , p ; l = 1, . . . , p) ; chaque bloc Bjl , de


Soit X une variable qualitative c modalits. On appelle variable indica- dimension cj cl , est dfini par :
trice de la k-ime modalit de x (k = 1, . . . , c), la variable X(k) dfinie par
Bjl = X0j Xl .

1 si X(i) = Xk ,
X(k) (i) =
Si j 6= l, Bjl est la table de contingence obtenue par croisement des variables
0 sinon,
X j en lignes et X l en colonnes. Si j = l, le bloc diagonal Bjj est luimme
o i est un individu quelconque et Xk est la kime modalit de X. On notera une matrice diagonale vrifiant :
nk leffectif de Xk .
Bjj = diag (nj1 , . . . , njcj ).
On appelle matrice des indicatrices des modalits de X, et lon notera X, la
matrice n c de terme gnral :
La matrice B est symtrique, deffectifs marginaux njl p et deffectif total np2 .
xki = X(k) (i).
On vrifie :

1.3
c
X
k=1

xki = 1, i et

n
X
i=1

xki = nk .

La dmarche suivie dans ce chapitre

La gnralisation de lAFC plusieurs variables qualitatives repose sur certaines proprits observes dans le cas lmentaire o p = 2. On sintresse
Page 57 sur 104

06/14

Analyse factorielle multiple des correspondances (AFCM)

tout dabord aux rsultats fournis par lAFC usuelle ralise sur le tableau dis- en AFC classique.
jonctif complet X = [X1 |X2 ] relatif 2 variables qualitatives X 1 et X 2 ; X
est alors considr comme une table de contingence (paragraphe 2). Ensuite, P ROPOSITION 1. LACP des profilslignes issue de lAFC ralise sur le
on suit la mme dmarche avec lAFC ralise sur le tableau de Burt B rela- tableau disjonctif complet associ 2 variables qualitatives conduit lanatif X 1 et X 2 (paragraphe 3). Enfin, en utilisant les proprits obtenues dans lyse spectrale de la matrice D1
c symtrique et positive :
les deux premiers cas, on gnralise cette double approche un nombre quel

1 Ir B
conque p de variables qualitatives ; on dfinit ainsi lAnalyse Factorielle des
AB =
.
2 A Ic
Correspondances Multiples (paragraphe 4).

2
2.1

AFC du tableau disjonctif complet relatif


2 variables
Donnes

Les r + c valeurs propres de A B scrivent

1 k
k =
,
2

o les k sont les valeurs propres de la matrice AB (donc celles de lAFC


On note toujours X 1 et X 2 les 2 variables qualitatives considres et r et c classique de X 1 et X 2 ).
1
leurs nombres respectifs de modalits.
Les vecteurs propres Dc orthonorms associs se mettent sous la forme
Les matrices intervenant dans lAFC usuelle sont reprises ici avec les mmes


1 U
notations, mais surlignes. On obtient ainsi :
V=
;
2 V
la matrice U (resp. V) contient les vecteurs propres D1
r orthonorms (resp.
D1
c -orthonorms) de la matrice BA (resp. AB) ; autrement dit, les matrices
U et V sont les matrices de vecteurs propres obtenues en faisant lAFC classique de la table de contingence croisant X 1 et X 2 .

T = X = [X1 |X2 ] ;
1
In ;
Dr =
n

1 Dr 0
1
Dc =
= ;
0 Dc
2
2
1 0 1
1 0
A =
T Dr = X ;
2n
2
1
1
1
B =
T Dc = X1 .
2n
n

La matrice des composantes principales scrit


Cr =

1
[X1 Cr + X2 Cc ] 1/2 ,
2

o Cr et Cc sont encore les matrices de composantes principales de lAFC


classique.

On considre ici lAFC comme une double ACP : celle des profilslignes
A, puis celle des profilscolonnes B.

Dans la pratique, on ne considre que les d = inf(r 1, c 1) plus grandes


valeurs propres diffrentes de 1, ainsi que les vecteurs propres associs. Les
2.2 ACP des profilslignes
valeurs propres sont ranges dans la matrice
i
Les profilslignes, provenant de T, sont associs aux n individus observs.
1h
M = diag (1 , . . . , d ) =
Id + 1/2 .
Leur ACP conduit ainsi une reprsentation graphique des individus, inconnue
2
Page 58 sur 104

06/14

Analyse factorielle multiple des correspondances (AFCM)

Les autres valeurs propres non nulles sont dues lartifice de construction de 2 modalits quil a prsentes. Dans le cas o n est grand, le graphique des
individus a nanmoins peu dintrt ; seule sa forme gnrale peut en avoir un.
la matrice diagonaliser ; elles nont donc pas de signification statistique.
On notera que la matrice Cr , n d, fournit les coordonnes permettant la Remarque. Si, dans lAFC classique, on choisit dutiliser, pour la reprsentation simultane des modalits de X 1 et de X 2 , les lignes des matrices
reprsentation graphique des individus sur les axes factoriels.

2.3

1/2
1/2
Cr = D1
et Cc = D1
r U = Cr
c V = Cc

ACP des profilscolonnes

Les profilscolonnes sont associs aux r + c modalits des variables. Leur (voir chapitre prcdent, soussection 4.4), alors on obtient par AFC du tableau
ACP conduit donc une reprsentation graphique de ces modalits dont on disjonctif complet la matrice
verra quelle est trs voisine de celle fournie par une AFC classique.
 

Cr
1/2
Cc = Cc M
=
;
Cc
P ROPOSITION 2. LACP des profilscolonnes issue de lAFC ralise sur le
tableau disjonctif complet associ 2 variables conduit lanalyse spectrale il y a invariance de la reprsentation des modalits lorsque lon passe dune
1
de la matrice Dr symtrique et positive :
mthode lautre. Pour les individus, on obtient
BA =


1 
0
1 0
X1 D1
r X1 + X2 D c X2 .
2n

Cr =

1
[X1 Cr + X2 Cc ] M1/2
2

(le commentaire est alors le mme quavec Cr ).

Les r + c valeurs propres non nulles de B A sont les k .


1

Les vecteurs propres Dr orthonorms associs se mettent sous la forme :


1
U = Cr M1/2 .
n

Ainsi, lAFC du tableau disjonctif complet permet, grce aux coordonnes


contenues dans les lignes de la matrice Cc , une reprsentation simultane des
modalits des 2 variables. Cette reprsentation est trs voisine de celle obtenue
par lAFC classique, dfinie au chapitre
prcdent. Une simple homothtie sur
q

1+ k
2k ,

AFC du tableau de Burt relatif 2 variables

Dans cette section, on sintresse aux rsultats fournis par lAFC ralise
sur le tableau de Burt B = X0 X, (r + c) (r + c), relatif aux 2 variables X 1
et X 2 ; B est encore considr comme une table de contingence. La matrice B
tant symtrique, les profilslignes et les profilscolonnes sont identiques ; il
suffit donc de considrer une seule ACP

La matrice des composantes principales scrit :




Cr
Cc =
1/2 M1/2 .
Cc

chaque axe factoriel, de rapport

Les notations des matrices usuelles de lAFC sont maintenant rutilises


surmontes dun tilde. On obtient ainsi :

permet de passer de lune lautre.

De plus, cette approche permet aussi de raliser une reprsentation graphique des individus avec les coordonnes contenues dans les lignes de la matrice Cr . un facteur prs, chaque individu apparat comme le barycentre des
Page 59 sur 104


nDr
T
;
T0 nDc


1
fr = D
fc = 1 Dr 0
= = Dc ;
D
0 Dc
2
2


1
Ir B
e = B
e =
A
= A B.
2 A Ic
e = B=
T

06/14

Analyse factorielle multiple des correspondances (AFCM)

e (ou des
On considre encore lAFC comme lACP des profilslignes A
e
profilscolonnes B).

Dans les deux cas dAFC considrs dans ce chapitre (sur tableau dis-

jonctif complet et sur tableau de Burt) on trouve, par construction, des


valeurs propres non nulles sans signification statistique. En consquence,
les critres de qualit sexprimant comme une part dinertie explique
nont plus de signification.
LAFC sur tableau de Burt ne prend en compte que linformation contenue dans B qui ne considre que les croisements de variables prises deux
deux. En consquence, les interactions de niveau plus lev sont ignores par cette approche, moins de procder des recodages de variables
comme lexplique lexemple prsent dans la section 5.

P ROPOSITION 3. LACP des profilslignes (ou des profilscolonnes) issue


de lAFC ralise sur le tableau de Burt associ 2 variables qualitatives
1
fc symtrique et positive :
conduit lanalyse spectrale de la matrice D


eB
e = AB 2.
A
1

fc orthonorms
Elle admet pour matrice de vecteurs propres D


e =V
e =V= 1 U .
U
2 V

Analyse Factorielle des Correspondances


Multiples

4.1

Les valeurs propres associes vrifient : k = 2k .

Dfinition

On considre maintenant p variables qualitatives (p 3)P


notes {X j ; j =
p
1, . . . , p}, possdant respectivement cj modalits, avec c = j=1 cj . On suppose que ces variables sont observes sur les mmes n individus, chacun affect du poids 1/n.

La matrice des composantes principales scrit :




Cr
f
f
Cr = Cc =
1/2 M.
Cc

Soit X = [X1 | |Xp ] le tableau disjonctif complet des observations (X


fr fournit les coordonnes permettant une reprsentation simul- est n c) et B = X0 X le tableau de Burt correspondant (B est carr dordre
La matrice C
tane des modalits des deux variables. une homothtie prs, cette reprsen- c, symtrique).
tation est identique celle de lAFC classique, ralise sur la table de contingence T (mais le rapport dhomothtie, sur chaque axe, nest plus le mme D FINITION 4. On appelle Analyse Factorielle des Correspondances Multiples (AFCM) des variables (X 1 , . . . , X p ) relativement lchantillon consiquavec Cc ).
dr, lAFC ralise soit sur la matrice X soit sur la matrice B.
Remarque.
En reprenant les notations de la remarque 2.3, on obtient ici :

f (= C
f ) = C
fr M1 = C =
C
r
c
c

Cr
Cc


.

On note njk (1 j p, 1 k cj ) leffectif de la kime modalit de X j ,


1
Dj = diag (nj1 , . . . , njcj ) et = diag (D1 . . . Dp ) ( est carre dordre c
n
et diagonale).

Ainsi, si lon utilise ce mode de reprsentation graphique, les trois ap- 4.2 AFC du tableau disjonctif complet
proches de lAFC que nous avons prsentes conduisent la mme reprsentation simultane des modalits des 2 variables : il y a donc invariance
Comme dans le cas p = 2, on reprend les notations de lAFC classique en
de cette reprsentation.
les surlignant. On obtient ainsi :
Page 60 sur 104

06/14

Analyse factorielle multiple des correspondances (AFCM)

Comme dans le cas p = 2, la matrice des composantes principales permet de


raliser une reprsentation graphique des individus dans laquelle chacun apparat, un facteur prs, comme le barycentre des p modalits quil a prsentes.

T = X;
1
Dr =
In ;
n
1
;
Dc =
p
1 0
A =
X ;
p
1
B =
X1 .
n

Remarque. La gnralisation au cas p > 2 restreint les proprits. Ainsi,


les vecteurs des blocs Vj ne sont pas les vecteurs propres D1
j orthonorms
dune matrice connue.
ACP des profilscolonnes
P ROPOSITION 6. LACP des profilscolonnes issue de lAFC ralise sur
le tableau disjonctif complet de p variables conduit lanalyse spectrale de la
1
matrice Dr symtrique et positive :
p

ACP des profilslignes

BA =

P ROPOSITION 5. LACP des profilslignes issue de lAFC ralise sur le


tableau disjonctif complet de p variables qualitatives conduit lanalyse spec1
trale de la matrice Dc symtrique et positive :
AB =

1
1 X
0
X1 X0 =
Xj D1
j Xj .
np
np j=1
1

La matrice des vecteurs propres Dr orthonorms vrifie :


U = BVM1/2 .

1
B1 .
np

La matrice des composantes principales scrit :


Il y a m (m c p) valeurs propres notes k , (0 < k < 1) ranges dans
la matrice diagonale M.

Cc = p1 VM1/2 ;

1
La matrice des vecteurs propres Dc orthonorms associs se dcompose elle se dcompose en blocs sous la forme :

en blocs de la faon suivante :


C1

Cc = ... .
V1

Cp
V = ... ;

Vp
chaque bloc Vj est de dimension cj m.
La matrice des composantes principales scrit :
Cr =

p
X
j=1

Xj D1
j Vj .

Chaque bloc Cj , de dimension cj m, fournit en lignes les coordonnes des


modalits de la variable X j permettant la reprsentation graphique simultane.

4.3

AFC du tableau de Burt

Le tableau de Burt B = X0 X, carr dordre c, tant symtrique, les profils


lignes et les profilscolonnes sont identiques ; on ne considre donc ici quune
seule ACP
Page 61 sur 104

06/14

Analyse factorielle multiple des correspondances (AFCM)

En utilisant encore le tilde dans ce cas, les matrices usuelles de lAFC deviennent :
e = B;
T
fc = 1 = Dc ;
= D
p
1
e = B
e =
A
B1 = A B.
np

fr
D

B0

D0

A0

[T01 | . . . |T0p ] ;
1
diag (n01 , . . . , n0c0 ) ;
n
1 1
D B0 .
np 0

Les coordonnes des modalits de la variable supplmentaires X 0 sur les


axes factoriels sont alors fournies dans les lignes de la matrice

P ROPOSITION 7. LACP des profilslignes (ou des profilscolonnes) issue


1
fc V
e = pA0 1 V.
C0 = A0 D
de lAFC ralise sur le tableau de Burt associ p variables qualitatives
1
fc symtrique et positive :
conduit lanalyse spectrale de la matrice D
4.5 Interprtation


eB
e = AB 2.
A
Les reprsentations graphiques sont interprtes de manire analogue ce
qui
est fait dans lAFC de deux variables, bien que la reprsentation simultane
1
fc orthonorms U
e =V
e =
Elle admet pour matrice de vecteurs propres D
des modalits de toutes les variables ne soit pas, en toute rigueur, rellement
V.
justifie.
Les valeurs propres associes vrifient k = 2k .
Les principes suivants sont donc appliqus :
La matrice des composantes principales scrit :

C1
. 1/2
fr = C
fc = Cc M1/2 =
C
.. M .

on interprte globalement les proximits et les oppositions entre les mo-

Cp
fr fournit les coordonnes permettant la reprsentation simultaLa matrice C
ne des modalits de toutes les variables (on ne peut pas faire de reprsentation
des individus si lon fait lAFC du tableau de Burt).

4.4

Variables illustratives

dalits des diffrentes variables, comme en AFC, en privilgiant les modalits suffisamment loignes du centre du graphique (attention aux modalits faible effectif !) ;
les rapports de valeurs propres ne sont pas interprtables comme indicateurs de qualit globale ; on peut nanmoins regarder la dcroissance des
premires valeurs propres pour choisir la dimension ;
les coefficients de qualit de chaque modalit ne peuvent pas tre interprts ; seules les contributions des modalits linertie selon les axes sont
interprtes, selon le mme principe quen AFC

Soit X 0 une variable qualitative, c0 modalits, observe sur les mmes n 5 Exemple
individus que les X j et ntant pas intervenue dans lAFCM Soit T0j la table
de contingence c0 cj croisant les variables X 0 en lignes et X j en colonnes.
LAFCM ne donne pas de rsultats trs intressants sur les donnes banLobjectif est maintenant de reprsenter les modalits de cette variable sup- caires lexception du graphe prsent dans le chapitre dintroduction qui est
plmentaire X 0 dans le graphique de lAFCM ralise sur X 1 , . . . , X p . Pour relativement plus sophistiqu car il fait pralablement appel une classification. Il en est de mme pour les donnes dexpression qui sont quantitatives.
cela, on considre les matrices :
Page 62 sur 104

06/14

TABLE 1 Donnes sous la forme dune table de contingence complte

Centre
Tokyo

ge
< 50
50 69
> 70

Boston

< 50
50 69
> 70

Glamorgan

< 50
50 69
> 70

Survie
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui

Histologie
Inflam. minime
Grande inflam.
Maligne Bnigne Maligne Bnigne
9
7
4
3
26
68
25
9
9
9
11
2
20
46
18
5
2
3
1
0
1
6
5
1
6
7
6
0
11
24
4
0
8
20
3
2
18
58
10
3
9
18
3
0
15
26
1
1
16
7
3
0
16
20
8
1
14
12
3
0
27
39
10
4
3
7
3
0
12
11
4
1

Analyse factorielle multiple des correspondances (AFCM)

vie de ces patientes, trois ans aprs le diagnostic. En plus de cette information,
quatre autres variables sont connues pour chacune des patientes :

le centre de diagnostic,
la tranche dge,
le degr dinflammation chronique,
lapparence relative (bnigne ou maligne).

Lobjectif de cette tude est une analyse descriptive de cette table en cherchant mettre en vidence les facteurs de dcs.

5.2

Analyse brute

On se reportera la figure 5. La variable survie, qui joue en quelques sortes


le rle de variable expliquer, est trs proche de laxe 2 et semble lie chacune des autres variables.

5.3

Analyse des interactions

Pour essayer de mettre en vidence dventuelles interactions entre variables, les donnes sont reconsidres de la faon suivante :
les variables centre et ge sont croises, pour construire une variable

c_x_ge, 9 modalits ;
les variables inflam et appar sont galement croises pour dfinir la

variable histol, 4 modalits.


Une nouvelle analyse est alors ralise en considrant comme actives les
deux variables nouvellement cres, ainsi que la variable survie, et comme
illustratives les variables initiales : centre, ge, inflam, appar.
Les rsultats sont donns dans la figure 2.

En revanche, lAFCM est trs indique et trs utilise dans des enqutes de
nature pidmiologique.

5.1

Les donnes

La littrature anglo-amricaine prsente souvent des donnes relatives plusieurs variables qualitatives sous la forme dune table de contingence complte
(5). Cest le cas de lexemple cidessous qui dcrit les rsultats partiels dune
enqute ralise dans trois centres hospitaliers (Boston, Glamorgan, Tokyo)
sur des patientes atteintes dun cancer du sein. On se propose dtudier la surPage 63 sur 104

06/14

A
x
e
2

1.0
A>70
0.9
0.8
0.7
0.6
0.5
0.4
0.3
Cbos
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
-0.6
-0.7
-1

Analyse factorielle multiple des correspondances (AFCM)

2
Snon
X TH>g7- m
Igra

Igra

Tmal

XT>-

Cgla

Hg-b

Tmal
XG<5
XG>7
C g l aH pS -n mo n

Ctok
A
x
e

XT<5
0

A<50
S o u iA > - <

A>-<

X GX>B-< 5
A>70
Ipet

Tben
Hp-b

Ipet

Cbos
-1

XB>-

Soui

XB>7

A<50
Tben
Ctok
-2
0

Axe 1

-2

-1

Axe 1

F IGURE 1 Cancer du sein : analyse des donnes brutes.

F IGURE 2 Cancer du sein : analyse des interactions.

Page 64 sur 104

06/14

Analyse canonique des corrlations


(ACC)
Rsum
Mthode factorielle de rduction de dimension pour lexploration
statistique de deux ensembles de donnes quantitatives observes sur
les mmes individus. Reprsentations graphiques des individus, des
variables et simultane. Lien avec la rgression multivarie et les
tests associs.
Rerour au plan du cours.

Analyse canonique des corrlations (ACC)

deux groupes de variables quantitatives et quelles permettent de retrouver


lanalyse des correspondances multiples (en remplaant chaque groupe par
les indicatrices dune variable qualitative), ainsi que lA.C.P. (en ne mettant
quune seule variable quantitative dans chaque groupe). Nous ne nous intresserons ici qu lA.C. classique, entre deux groupes de variables quantitatives.
En dpit de sa place centrale au sein des mthodes de statistique multidimensionnelle, pendant longtemps, lA.C. ntait pas (ou trs peu) enseigne
dans ces cursus, compte tenu du petit nombre dapplications auxquelles elle
donnait lieu. Les choses ont chang, dabord vers le milieu des annes 1990,
avec le dveloppement de la rgression P.L.S. (partial least squares), mthode
assez voisine de lA.C., ensuite, plus rcemment, avec lapparition des donnes de biopuces, dont certaines relvent typiquement de lA.C. quant leur
traitement.

Le logiciel statistique SAS dispose dune procdure assez complte ddie


lA.C. : CANCORR. Divers dveloppements de ce chapitre ont pour objectif de
mieux saisir la signification de certaines sorties de cette procdure. Les comLanalyse canonique (A.C.) est une mthode de statistique descriptive mul- mandes R permettant de mettre en uvre lA.C., telles quelles seront prsentidimensionnelle qui prsente des analogies la fois avec lanalyse en com- tes dans les T.P., ont t quelque peu calques sur le principe de la procdure
posantes principales (A.C.P.), pour la construction et linterprtation de gra- CANCORR.
phiques, et avec la rgression linaire, pour la nature des donnes. Lobjectif gnral de lA.C. est dexplorer les relations pouvant exister entre deux 2 Approche lmentaire
groupes de variables quantitatives observes sur le mme ensemble dindividus. Ltude des relations entre deux groupes de variables constitue la princi- 2.1 Exemple : nutrition chez la souris
pale particularit de lA.C. par rapport lA.C.P. De ce point de vue, lA.C.
Cest encore lexemple de la nutrition chez la souris qui sera utilis pour
est davantage proche de la rgression linaire multiple (explication dune variable quantitative par un ensemble dautres variables quantitatives), mthode illustrer lA.C. Nous disposons donc des 40 souris sur lesquelles on sintresse
dont elle constitue, dailleurs, une gnralisation (on retrouve la rgression maintenant deux catgories de mesures (de variables) : les expressions des
120 gnes considrs et les proportions de 21 acides gras hpatiques. La queslorsque lun des deux groupes de lA.C. ne comporte quune seule variable).
En fait, lanalyse canonique est, sur le plan thorique, la mthode centrale tion qui va tre aborde ici est celle des relations entre ces deux ensembles
de la statistique descriptive multidimensionnelle, dans la mesure o elle g- de variables : certains acides gras sont-ils plus prsents lorsque certains gnes
nralise diverses autres mthodes. Outre la rgression linaire, lA.C. redonne sont surexprims, ou le contraire... La rponse sera essentiellement fournie par
en effet lanalyse factorielle discriminante lorsque lun des deux groupes de les graphiques produits par lA.C. et dans lesquels seront simultanment reprvariables est remplac par les indicatrices dune variable qualitative. Elle re- sents gnes et acides gras : il sagira donc de graphiques relatifs aux variables.

Introduction

Notons tout de suite quil nest pas trs courant de reprsenter les individus
donne galement lanalyse factorielle des correspondances lorsque chacun des
deux groupes est remplac par les indicatrices dune variable qualitative. Si- en A.C. Toutefois, compte tenu des particularits de lexemple considr ici
gnalons galement quil existe certaines gnralisations de lA.C. plus de (petit nombre dobservations et structuration de ces observations selon les facPage 65 sur 104

06/14

Analyse canonique des corrlations (ACC)

teurs gnotype et rgime), nous raliserons ces graphiques et nous verrons 2.3 Principe gnral de la mthode
quel est leur intrt.
Chaque variable de chacun des deux groupes (les 10 gnes et les 11 acides
gras) sont mesures sur les n individus (n = 40). On peut donc associer
2.2 Notations
chacune un ensemble de 40 valeurs, autrement dit un vecteur de R40 (espace
Dans toute la suite de ce chapitre, on notera n le nombre dindividus consi- vectoriel que lon a pralablement muni dune base adquate et dune mtrique
drs (autrement dit, la taille de lchantillon observ, ici 40), p le nombre de approprie). Cest dans cet espace (R40 ) que lon peut dfinir la mthode :
variables (quantitatives) du premier groupe (les gnes) et q le nombre de va- elle consiste rechercher le couple de vecteurs, lun li aux gnes, lautres
riables (galement quantitatives) du second groupe (les acides gras). On dsi- aux acides, les plus corrls possible. Ensuite, on recommence en cherchant
gnera par X la matrice, de dimension np, contenant les observations relatives un second couple de vecteurs non corrls aux vecteurs du premier et le plus
au premier groupe de variables et par Y la matrice, de dimension n q, conte- corrls entre eux, et ainsi de suite. La dmarche est donc similaire celle
nant celles relatives au second groupe. La j-ime colonne de X (j = 1, . . . , p) utilise en A.C.P. ou en analyse factorielle discriminante. La reprsentation
contient donc les observations xji de la j-ime variable du premier groupe (no- graphique des variables se fait soit par rapport aux vecteurs lis aux gnes,
te X j , il sagit de lexpression du j-ime gne retenu) sur les n individus soit par rapport ceux lis aux acides (en gnral, les deux sont quivalentes,
considrs (i = 1, . . . , n). De mme, la k-ime colonne de Y (k = 1, . . . , q) au moins pour ce qui est de leur interprtation). Ces vecteurs, obtenus dans
contient les observations yik de la k-ime variable du second groupe (note Y k , chaque espace associ chacun des deux groupes de variables, sont analogues
il sagit du pourcentage relatif au k-ime acide gras retenu).
aux facteurs de lA.C.P. et sont ici appels variables canoniques. Comme en
En A.C., il est ncessaire davoir p n, q n, X de rang p et Y de rang A.C.P., on peut tracer le cercle des corrlations sur le graphique des variables,
q. Par consquent, dans lexemple considr, il a t ncessaire de faire une ce qui en facilite linterprtation (dont le principe est le mme que pour le
slection des gnes et de ne retenir que les plus importants (ceux dont le rle graphique des variables en A.C.P.). Des considrations techniques permettent
prpondrant a pralablement t mis en vidence au moyen des techniques de faire galement un graphique pour les individus.
exploratoires). Bien que ce ne soit pas impos par la thorie, nous avons galeAppelons d le nombre de couples de variables canoniques jugs intressants,
ment fait, pour tre cohrents, une slection des acides gras. Finalement, nous autrement dit la dimension retenue pour les reprsentations graphiques. On a
avons slectionn 10 gnes et 11 acides gras hpatiques.
ncessairement 1 d p, et on choisit en gnral d entre 2 et 4. Nous noterons (V s , W s ) (s = 1, . . . , d) les couples de variables canoniques retenus ; on
Les gnes sont les suivants :
posera
s = Cor(V s , W s ) et on appellera corrlations canoniques les coeffiPMDCI THIOL CYP3A11 CYP4A10 CYP4A14 Lpin Lpin1 GSTmu GSTpi2
S14.
cients s qui sont, par construction, dcroissants.
Les acides gras sont les suivants :
C16_0 C18_0 C18_1n_7 C18_1n_9 C18_2n_6 C18_3n_3

Approche mathmatique

C20_4n_6 C20_5n_3 C22_5n_3 C22_5n_6 C22_6n_3.

Dans ce paragraphe, nous reprenons, plus en dtail et avec plus de rigueur


Remarque. On notera que la notation habituelle des acides gras est un peu
mathmatique,
les lments prsents dans le paragraphe prcdent. Le lecteur
diffrente de celle ci-dessus ; ainsi C18_1n_7 correspond C18:1n-7 ; la
biologiste
peu
familiaris
avec ces notions de mathmatiques pourra donc le
notation adopte est ncessaire pour la lecture par le logiciel SAS.
parcourir trs rapidement et se contenter daller y chercher quelques rsultats,
Enfin, sans perte de gnralit, on suppose galement p q (on dsigne lorsque ncessaire.
donc par premier groupe celui qui comporte le moins de variables). Finalement, nous avons ici : n = 40 ; p = 10 ; q = 11.
Page 66 sur 104

06/14

3.1

Analyse canonique des corrlations (ACC)

Reprsentations vectorielles des donnes

Ensuite, on cherche le couple norm (V 2 , W 2 ), V 2 combinaison linaire


des X j non corrle V 1 et W 2 combinaison linaire des Y k non corrle
Comme en A.C.P., on peut considrer plusieurs espaces vectoriels rels as- W 1 , telles que V 2 et W 2 soient le plus corrles possible. Et ainsi de suite...
socis aux observations.
Remarque. Dans la mesure o lA.C. consiste maximiser des corrlaTout dabord, lespace des variables ; cest F = Rn , muni de la base cano- tions, quantits invariantes par translation et par homothtie de rapport positif
nique et dune certaine mtrique, en gnral lidentit. chaque variable X j sur les variables, on peut centrer et rduire les variables initiales X j et Y k
est associ un vecteur unique xj de F dont les coordonnes sur la base cano- sans modifier les rsultats de lanalyse. Pour des raisons de commodit, on le
nique sont les xji (i = 1, . . . , n). De mme, chaque variable Y k est associ fera systmatiquement. Par consquent, les matrices X et Y seront dsormais
un vecteur unique y k de F , de coordonnes les yik . On peut ainsi dfinir dans F supposes centres et rduites (en colonnes).
deux sous-espaces vectoriels : FX , engendr par les vecteurs xj (j = 1, . . . , p),
LA.C. produit ainsi une suite de p couples de variables (V s , W s ), s =
en gnral de dimension p, et FY , engendr par les vecteurs y k (k = 1, . . . , q),
1, . . . , p. Les variables V s constituent une base orthonorme de FX (les V s ,
en gnral de dimension q.
combinaisons linaires de variables centres, sont centres ; comme elles sont
Remarque. Il est courant de munir lespace vectoriel F de la mtrique non corrles, elles sont donc orthogonales pour la mtrique identit). Les
dite des poids, dfinie, relativement la base canonique, par la matrice diag variables W s constituent, de mme, un systme orthonorm de F (ils nen
Y
(p1 , . . . , pn ), o les pi (i = 1, . . . , n) sont des poids (positifs et de somme constituent une base que si q = p). Les couples (V s , W s ), et plus particuliregale 1) associs aux individus observs. Lorsque tous ces poids sont gaux, ment les premiers dentre eux, rendent compte des liaisons linaires entre les
ils valent ncessairement n1 et la matrice dfinissant la mtrique des poids vaut deux groupes de variables initiales. Les variables V s et W s sont appeles les
1
n In , o In est la matrice identit dordre n. Dans ce cas, il est quivalent variables canoniques. Leurs corrlations successives (dcroissantes) sont apdutiliser la mtrique identit, ce que nous ferons par la suite, dans la mesure peles les coefficients de corrlation canonique (ou corrlations canoniques)
o les individus seront systmatiquement quipondrs.
et notes s (1 1 2 p 0).
On peut ensuite considrer deux espaces vectoriels pour les individus, Remarque. Toute variable canonique V s0 est, par construction, non corrle
EX = Rp et EY = Rq , eux aussi munis de leur base canonique et dune (donc orthogonale) avec les autres variables canoniques V s , s 6= s . On peut
0
certaine mtrique. Dans EX , chaque individu i est reprsent par le vecteur galement montrer que V s0 est non corrle avec W s , si s 6= s (la mme
0
j
xi , de coordonnes xi (j = 1, . . . , p) sur la base canonique. De mme, dans proprit est bien sr vraie pour toute variable W s0 avec les variables V s ,
EY , lindividu i est reprsent par le vecteur yi , de coordonnes les yik .
s 6= s ).
0

En fait, cest surtout lespace F que nous considrerons par la suite, la dfi- Remarque. Si ncessaire, on peut complter le systme des variables W s
nition de lA.C. y tant plus naturelle.
(s = 1, . . . , p) pour obtenir une base orthonorme de FY dans laquelle les
dernires
variables W s (s = p + 1, . . . , q) sont associes des coefficients de
3.2 Retour sur le principe de la mthode
corrlation canonique nuls (s = 0, pour s = p + 1, . . . , q).
Le principe gnral de lA.C. est dcrit ci-dessous, dans lespace des va3.3 Proprit
riables F .
Dans un premier temps, on cherche un couple de variables (V 1 , W 1 ), V 1
La proprit donne ici permet, dans la pratique, de dterminer les variables
tant une combinaison linaire des variables X j (donc un lment de FX ), canoniques V s et W s en utilisant un algorithme standard de recherche des
norme, et W 1 une combinaison linaire des variables Y k (donc un lment vecteurs propres dune matrice.
de FY ), norme, telles que V 1 et W 1 soient le plus corrles possible.
Page 67 sur 104

06/14

Analyse canonique des corrlations (ACC)

Dans le mme espace, on peut galement reprsenter les variables de lautre


Dans lespace vectoriel F muni de la mtrique identit, notons PX et PY
les matrices des projecteurs orthogonaux sur les sous-espaces FX et FY d- groupe, les Y k , en projetant tout dabord les vecteurs y k dans FX , au moyen
finis plus haut. Les formules usuelles de dfinition des projecteurs permettent de PX , puis en prenant le produit scalaire de ces projections avec les vecteurs
v s . On doit donc calculer pour cela les produits scalaires
dcrire (X0 dsignant la matrice transpose de X) :
PX = X(X0 X)1 X0 ; PY = Y(Y0 Y)1 Y0 .

< PX (y k ), v s >=< y k , PX (v s ) >=< y k , v s >,


encore gaux aux corrlations entre les variables initiales Y k et les variables
canoniques V s .

On peut alors montrer la proprit ci-dessous.


P ROPOSITION 1. Les vecteurs V s sont les vecteurs propres norms de la
matrice PX PY respectivement associs aux valeurs propres s ranges par
ordre dcroissant (on peut vrifier que ces valeurs propres sont comprises entre
1 et 0). De mme, les vecteurs W s sont les vecteurs propres norms de la matrice PY PX respectivement associs aux mmes valeurs propres s . De plus,
les coefficients de corrlation canonique
s sont les racines carres positives

de ces valeurs propres : s = s , s = 1, . . . , p (le logiciel SAS fournit les


corrlations canoniques s ainsi que leurs carrs s ).

Dans la mesure o le graphique ainsi obtenu est bon (sur ce point, voir
plus loin), on peut lutiliser pour interprter les relations (proximits, oppositions, loignements) entre les deux ensembles de variables. Par construction,
ce graphique reprsente les corrlations entre les variables canoniques V s et
les variables initiales X j et Y k , corrlations la base de son interprtation. On
peut aussi conforter cette interprtation en utilisant les coefficients de corrlation linaire entre variables X j , entre variables Y k , et entre variables X j et
Y k . Tous ces coefficients sont en gnral fournis par les logiciels.

3.4

Reprsentation des variables dans le sous-espace FY

Retour sur les reprsentations graphiques

De faon symtrique, on restreint le systme (w1 , . . . , wp ) de FY aux preComme en A.C.P., les reprsentations graphiques des rsultats dune A.C. se
1
d
auxquelles on reprsente aussi bien
font en dimension rduite (souvent 2 ou 3). Nous noterons d cette dimension, mires variables (w , . . .j , w ), par rapport
k
les
variables
initiales
X
que
les
Y
,
selon
le mme principe que celui dcrit
avec : 1 d p. Plusieurs reprsentations sont envisageables, la fois pour
ci-dessus
(les
coordonnes
sont
les
corrlations).
les variables et pour les individus.
L encore, dans la mesure o ce graphique est bon, il permet dinterprter
Reprsentation des variables dans le sous-espace FX
les relations entre les deux ensembles de variables.
Dsignons par v s et ws les vecteurs de FX et FY respectivement associs
Les deux graphiques (dans FX et dans FY ) ayant la mme qualit et conduiaux variables canoniques V s et W s .
sant aux mmes interprtations, un seul suffit pour interprter les rsultats
Dans FX , on considre la base orthonorme (v 1 , . . . , v p ) que lon restreint dune analyse.
(v 1 , . . . , v d ) pour les reprsentations graphiques.
Reprsentation des individus
On peut tout dabord reprsenter chacune des variables initiales X j au
moyen de ses coordonnes sur les v s . Ces coordonnes sobtiennent en calculant les produits scalaires < xj , v s >, j = 1, . . . , p, s = 1, . . . , d. Les
variables X j tant centres et rduites, les vecteurs xj sont centrs et norms
(et il en va de mme pour les vecteurs v s ), de sorte que ces produits scalaires
sont gaux aux corrlations entre variables initiales X j et variables canonique
V s (au coefficient n prs, puisquon a considr la mtrique identit).

Dans chacun des espaces relatifs aux individus (EX et EY ), il est encore
possible de faire une reprsentation graphique de ces individus en dimension
d, ces deux reprsentations graphiques tant comparables (dautant plus comparables que les corrlations canoniques sont leves).
En fait, on peut vrifier que les coordonnes des individus sur les axes canoniques pour ces deux reprsentations sont respectivement donnes par les

Page 68 sur 104

06/14

Analyse canonique des corrlations (ACC)

lignes des matrices Vd (dans EX ) et Wd (dans EY ), Vd et Wd dsignant les sauter ce paragraphe.


matrices n d dont les colonnes contiennent les coordonnes des d premires
4.1 Introduction
variables canoniques sur la base canonique de F .
Ouvrages et logiciels anglo-saxons de statistique prsentent souvent lanalyse canonique paralllement la rgression linaire multivarie (rgression
Comme dans toute mthode factorielle, diffrents lments doivent tre pris dun ensemble de variables Y k , expliquer, sur un autre ensemble de variables
en compte pour le choix de la dimension d dans laquelle on ralise les gra- X j , explicatives). Cette approche est, en fait, assez naturelle, dans la mesure
phiques (et dans laquelle on interprte les rsultats).
o les donnes sont de mme nature dans les deux mthodes et o lon cherche,
Tout dabord, il est clair que d doit tre choisi petit, lobjectif gnral de dans lune comme dans lautre, des relations linaires entre variables.
la mthode tant dobtenir des rsultats pertinents dans une dimension
Il convient toutefois de noter les deux diffrences fondamentales entre les
rduite ; ainsi, le plus souvent, on choisit d gal 2, 3 ou 4.
deux mthodes : contrairement ce quil se passe en A.C., les deux ensembles
Plus lindice de dimension s augmente, plus la corrlation canonique s de variables X j et Y k ne sont pas symtriques en rgression, puisquil sagit
diminue ; or, on ne sintresse pas aux corrlations canoniques faibles, dexpliquer les variables Y k au moyen des variables X j ; dautre part, toujours
puisquon cherche expliciter les relations entre les deux groupes de va- en rgression, on suppose la normalit des variables rponses Y k , alors quauriables ; par consquent, les dimensions correspondant des s faibles cune hypothse de cette nature nest ncessaire en A.C. Lavantage de cette
peuvent tre ngliges.
hypothse (lorsquelle est raisonnable) est de permettre de raliser des tests
Le pourcentage que chaque valeur propre s reprsente par rapport la dans le modle de rgression.
somme de toutes les valeurs propres, cest--dire par rapport la trace
de la matrice diagonalise, facilitent galement le choix de d (voir la re- 4.2 Le modle de rgression multivarie
marque 5).
Le modle de rgression multivarie des variables Y k sur les variables X j
scrit :
4 Complments : analyse canonique et rY = XB + U ;
Choix de la dimension

gression multivarie

les matrices Y, n q, et X, n p, sont celles introduites en A.C. ; B est la


matrice p q des paramtres inconnus, estimer (les coefficients de rgresLobjectif principal de ce paragraphe est de donner une ide, lutilisateur sion) ; U est la matrice n q des erreurs du modle. Chaque ligne Ui de U est
du logiciel SAS, du principe des tests figurant dans la procdure CANCORR, un vecteur alatoire de Rq suppos Nq (0, ), les Ui tant indpendants ( est
celle qui permet de raliser lanalyse canonique. Accessoirement, ce para- une matrice inconnue, estimer, suppose constante en i).
graphe introduit la rgression multivarie et fait le lien entre cette technique
Lestimation maximum de vraisemblance de B conduit la solution :
et lanalyse canonique.
= (X0 X)1 X0 Y.
B
On notera que les tests prsents ici sont des tests statistiques classiques
dans le contexte de lanalyse multivarie, que ce soit lanalyse canonique, la On appelle alors valeurs prdites (de Y par le modle) les quantits :
rgression multivarie, lanalyse de variance multivarie (la MANOVA), ou
= XB
= PX Y ;
Y
mme lanalyse discriminante. Ils apparaissent ainsi dans toutes les procdures
dautre part, on appelle rsidus les quantits :
du logiciel SAS permettant de mettre en uvre ces mthodes.
=YY
= P Y
Le lecteur peu familiaris avec les mthodes multivaries pourra nanmoins
U
X

Page 69 sur 104

06/14

Analyse canonique des corrlations (ACC)

n
En interprtant ces pourcentages comme la part dinertie globale du nuage
(dans lcriture ci-dessus, P
X dsigne, dans R , le projecteur orthogonal sur
le sous-espace supplmentaire orthogonal FX dans Rn ; on sait que ce pro- des individus restitue par les diffrents axes canoniques (ce quelles sont, par
exemple, en analyse factorielle discriminante), ces quantits facilitent le choix
jecteur scrit : P
X = In PX ).
de la dimension d retenue pour les graphiques et les interprtations.

4.3

Matrices intervenant dans les tests

Dans le cadre du modle gaussien, on peut tester la significativit du modle


en gnralisant le test de Fisher, bien connu dans le cas unidimensionnel. Au
numrateur de la statistique de Fisher figure la norme carre du vecteur y y,
0Y
(cette matrice est centre). Au dnominateur figure la
ici remplace par Y
0U
(on nglige, pour linstant,
norme carre des rsidus, ici remplace par U
les degrs de libert de ces quantits). La statistique de Fisher est donc rem 0 Y(
U
0 U)
1 . Comme on a Y
= PX Y, il
place par le produit matriciel Y
0
0
Y
= Y PX Y = H (la notation H est standard, car cette quanvient : Y
= P Y entrane :
tit est lie lhypothse nulle teste). Dautre part, U
X
0U
= Y0 P Y = E (il sagit encore dune notation standard, cette matrice
U
X
reprsentant les erreurs du modle). Les tests multidimensionnels de significativit du modle sont ainsi bass sur ltude des valeurs propres soit du produit
matriciel
1
HE1 = (Y0 PX Y)(Y0 P
,
X Y)

4.4

Tests

Il existe plusieurs tests de significativit du modle de rgression multivarie, en gnral quivalents (au moins au niveau des dcisions quils entranent). Ces tests sont les gnralisations classiques du test de Fisher au cas
multivari (on les retrouve, par exemple, en analyse de variance multivarie)
et sont des tests asymptotiques. Le logiciel SAS fournit les trois premiers cidessous, mais pas le quatrime. Il fournit galement le test de Roy, bas sur la
1
plus grande valeurs propre de la matrice HE1 , soit
, mais ce test est
1 1
dconseiller.
Le test de Wilks, adaptation du test du rapport des vraisemblances, est

bas sur la statistique


=

soit encore du produit H(H + E) , les valeurs propres de ces deux matrices
se dduisant les unes des autres. Dveloppons le second produit matriciel :

p
Y

(1 s ) =

s=1

p
Y

(1 2s ).

s=1

Le test de la trace de Pillai est bas sur la statistique

H + E = Y0 PX Y + Y0 (In PX )Y = Y0 Y;
1

Z = trace H(H + E)

do :
1

H(H + E)

= Y PX Y(Y Y)

p
X

s .

s=1

Le test de la trace de Lawley-Hotelling est bas sur la statistique

matrice ayant les mmes valeurs propres que


PX Y(Y0 Y)1 Y0 = PX PY ,

T 2 = trace HE1 =

p
X
s=1

cest--dire les s (s = 1, . . . , p), carrs des corrlations canoniques.


Remarque. On peut vrifier (le rsultat est classique) que les valeurs propres
s
de la matrice HE1 valent
. Ces valeurs propres sont fournies par le
1 s
logiciel SAS, ainsi que les pourcentages (et les pourcentages cumuls) quelles
reprsentent par rapport leur somme, trace de la matrice HE1 .

s
.
1 s

Le test du khi-deux est bas sur la statistique

Page 70 sur 104

p
Y
1
K = [(n 1) (p + q + 1)] ln
(1 s ).
2
s=1

06/14

Analyse canonique des corrlations (ACC)

Le test du khi-deux prsente lavantage dtre directement utilisable, puis- 5


quon compare la statistique K une loi de khi-deux pq degrs de liberts (il
sagit dun test approch).
5.1

Exemple : nutrition chez la souris


Traitements prliminaires

Dans les trois autres tests ci-dessus, on doit transformer la statistique (, Z


Nous donnons ci-dessous les statistiques lmentaires relatives aux deux
ou T 2 ) pour obtenir un test de Fisher approch, les transformations tant assez groupes de variables. Les corrlations entre gnes se trouvent en Annexe A,
compliques expliciter (toutefois, SAS les ralise automatiquement).
celles entre acides en Annexe B.
Remarque. Dans un article de 1951, Rao a montr que, dans la plupart des
Variable
N
Mean
Std Dev
Minimum
Maximum
cas, lapproximation de Fisher du test de Wilks est la meilleure. Cest donc le -------------------------------------------------------------PMDCI
40
-0.7673
0.1861
-1.07
-0.44
test que nous conseillerons.
Si le modle de rgression est significatif (il en va alors de mme pour
lanalyse canonique), on peut tester la significativit dune dimension et de
lensemble des suivantes, en particulier pour guider le choix de la dimension
en A.C. Ainsi, supposons que les corrlations canoniques soient significatives
depuis la premire jusqu la k-ime (1 k p). On peut alors tester lhypothse nulle

THIOL
CYP3A11
CYP4A10
CYP4A14
Lpin
Lpin1
GSTmu
GSTpi2
S14

40
40
40
40
40
40
40
40
40

-0.4110
-0.5083
-0.9798
-0.9930
-0.7533
-0.7648
-0.1190
0.2298
-0.8068

0.2125
0.2556
0.2237
0.2460
0.1735
0.1638
0.1504
0.1422
0.2008

-0.90
-1.02
-1.33
-1.29
-1.13
-1.10
-0.44
0
-1.05

-0.03
0.06
-0.48
-0.15
-0.48
-0.49
0.23
0.55
-0.25

{H0 : k+1 = = p = 0} ( {H0 : d = k})


contre lalternative
{H1 : k+1 > 0} ( {H1 : d > k}).
Pour cela, il faut adapter soit le test de Wilks, soit le test du khi-deux.
Pour le test de Wilks, il suffit de faire le produit des quantits (1 s )
de lindice k + 1 lindice p et dadapter la transformation en fonction des
nouvelles dimensions. SAS le fait automatiquement. Pour le test du khi-deux,
il faut considrer la statistique
p
k
X
Y
1
1
Kk = [(n 1 k) (p + q + 1) +
] ln
(1 s )
2

s=1 s
s=k+1

et la comparer une loi de khi-deux (p k)(q k) degrs de libert.

Variable
N
Mean Std Dev Minimum Maximum
-----------------------------------------------------C16_0
40
23.03
3.57
14.65
29.72
C18_0
40
6.75
2.64
1.68
10.97
C18_1n_7
40
4.43
3.38
1.53
15.03
C18_1n_9
40
25.27
7.34
14.69
41.23
C18_2n_6
40
15.28
8.76
2.31
40.02
C18_3n_3
40
2.89
5.83
0
21.62
C20_4n_6
40
5.28
4.46
0.75
15.76
C20_5n_3
40
1.79
2.59
0
9.48
C22_5n_3
40
0.87
0.86
0
2.58
C22_5n_6
40
0.44
0.66
0
2.52
C22_6n_3
40
5.91
5.33
0.28
17.35

Remarque. Les valeurs ci-dessus sont relatives aux variables brutes (aux
donnes initiales). Comme indiqu dans la remarque 3, ces variables ont ensuite t centres et rduites avant la ralisation de lA.C.

5.2

Analyse canonique

Remarque. Dans lutilisation de ces tests, il convient de ne pas perdre de Gnralits


vue dune part quil sagit de tests asymptotiques (dautant meilleurs que la
taille de lchantillon, n, est grande), dautre part quils ne sont valables que
Les premiers rsultats fournis par une A.C. sont les corrlations croises
sous lhypothse de normalit des variables Y k .
entre les deux groupes de variables. Nous donnons ces corrlations dans lanPage 71 sur 104

06/14

Analyse canonique des corrlations (ACC)

nexe C.
Ensuite sont donnes les corrlations canoniques reproduites ci-dessous.
1
2
3
4
5
6
7
8
9
10

Canonical Correlation
1
0.96
2
0.93
3
0.91
4
0.86
5
0.79
6
0.72
7
0.61
8
0.41
9
0.25
10
0.04

On notera que le plus petit groupe ne comportant que 10 variables, on ne


peut dterminer que 10 corrlations canoniques. Lobjectif principal de lA.C.
tant dtudier les relations entre variables des deux groupes, on peut noter ici
quil existe effectivement des relations fortes entre ces deux groupes, puisque
les premiers coefficients canoniques sont trs levs. Compte tenu des valeurs
importantes des premiers coefficients, on peut raisonnablement se contenter
de deux ou trois dimensions pour tudier les rsultats fournis par la mthode
et nous avons choisi ici seulement deux dimensions, compte tenu quil sagit
essentiellement dune illustration.

current row and all that follow are zero


Likelihood
Approximate
Ratio
F Value
Num DF
Den DF
0.00003857
4.08
110
155.53
0.00053068
3.31
90
145.91
0.00403909
2.77
72
135.32
0.02387531
2.21
56
123.78
0.08995724
1.78
42
111.33
0.23902627
1.41
30
98
0.49427788
0.99
20
83.865
0.78104952
0.56
12
69.081
0.93806320
0.29
6
54
0.99819295
0.03
2
28

Pr > F
<.0001
<.0001
<.0001
0.0001
0.0090
0.1087
0.4795
0.8636
0.9380
0.9750

On voit que le choix optimal de la dimension serait probablement d = 4 (ne


pas oublier que ces tests sont asymptotiques et que nous avons n = 40). Pour
simplifier, nous ne prsentons, par la suite, que les graphiques selon les deux
premires dimensions.
Graphique des individus

Dans un premier temps, nous avons ralis le graphique des individus (les
40 souris) relativement aux deux premiers axes canoniques de lespace des
gnes EX (Fig. 1). En gnral, dans une A.C., ce graphique sert seulement
contrler lhomognit de lensemble des individus (absence dindividus
Remarque. Les valeurs propres de la matrice HE1 et les pourcentages atypiques par exemple). Ici, dans la mesure o les individus proviennent dun
plan dexpriences deux facteurs croiss (le gnotype et le rgime), il est
dinertie restitus par les diffrentes dimensions sont les suivants :
intressant de regarder si lon retrouve la structure de ce plan. On notera que
Eigenvalues of Inv(E)*H
cela est trs net en ce qui concerne le gnotype et encore assez net pour ce
= CanRsq/(1-CanRsq)
qui est du rgime (en fait, la slection des gnes a t ralise de telle sorte
Eigenvalue
Difference
Proportion
Cumulative
1
12.7583
6.1471
0.4167
0.4167
que ceux retenus soient le plus structurant possible pour ces deux facteurs ; le
2
6.6111
1.7001
0.2159
0.6326
rsultat, sil est rassurant, na donc rien dextraordinaire).
3
4.9111
2.1433
0.1604
0.7930
4
5
6
7
8
9
10

2.7678
1.6571
1.0679
0.5802
0.2010
0.0641
0.0018

1.1107
0.5892
0.4877
0.3792
0.1369
0.0623

0.0904
0.0541
0.0349
0.0189
0.0066
0.0021
0.0001

0.8833
0.9375
0.9723
0.9913
0.9978
0.9999
1.0000

Signalons pour terminer quon a galement ralis le graphique des individus relativement aux deux premiers axes de lautre espace (espace des acides
gras, EY ) et quil est trs semblable celui-ci.
Graphique des variables

Pour la reprsentation des variables, nous avons considr le sous-espace


Par ailleurs, les tests de Wilks, de significativit de chaque dimension, sont
F
X , engendr par les 10 gnes, et nous avons reprsent la fois les gnes
les suivants :
et les acides gras relativement aux deux premires variables canoniques, V 1
Test of H0: The canonical correlations in the
et V 2 (Fig. 2). Comme indiqu en 3.4, les coordonnes des variables initiales
Page 72 sur 104

06/14

Analyse canonique des corrlations (ACC)

sont fournies par leur corrlations avec les variables canoniques.

0.8

5
5
5

0.7

0.6

0.5

3
3

5
2
0.4

Dimension 2

Certaines associations entre gnes et acides gras, en particulier celles correspondant des points loigns de lorigine, sont intressantes noter. Ainsi
peut-on observer que la sparation des gnotypes est principalement lie dune
part laccumulation prfrentielle de lacide gras C18_2n_6 chez les souris
PPAR, au dtriment de C16_0, de C18_0 et des acides gras longs polyinsaturs C20_5n_3 et C22_6n_3 (les omga 3), dautre part la plus forte expression des gnes THIOL, PMDCI, CYP3A11 et GSTpi2 chez les souris WT
par rapport aux souris PPAR. On peut galement noter les proximits entre le
C16_0 et le gne THIOL, ainsi que les proximits entre CYP3A11 et GSTpi2
et les acides gras C18_0 et C22_6n_3. Par ailleurs, lopposition entre le rgime 2-efad et les rgimes 1-dha et 3-lin est lie, sous rgime efad,
laccumulation dacides gras monoinsaturs (C18_1n_9 et C18_1n_7) chez
les souris des deux gnotypes (mais plus marque chez les souris PPAR), accompagne de la sur-expression du gne S14 presque exclusivement chez les
souris WT. Sous rgime riche en Omga 3 (1-dha et 3-lin), on observe une
accumulation prfrentielle des acides gras C20_5n_3 (surtout pour le rgime lin), C22_6n_3 (surtout pour le rgime dha) et C18_0 accompagne
de rgulations positives des gnes GSTpi2, CYP3A11 et des CYP4A qui, cependant, se rvlent moins marques, voire absentes, chez les souris PPAR.
Enfin, remarquons que la position particulire du rgime 5-tsol chez les
souris PPAR est lie laccumulation extrmement marque de C18_2n_6
dans le foie de ces souris sous le rgime tsol (sous ce rgime, la proportion
de C18_2n_6 est presque deux fois plus importante chez les souris PPAR que
chez les souris WT), soulignant ainsi le rle primordial de PPAR dans la prise
en charge de cet acide gras, que ce soit pour sa dgradation ou pour son utilisation pour la biosynthse des acides gras longs polyinsaturs de la famille
Omga 6.

13

0.3

1
4

3
3

4
0.2

4
4
0.1

0.0

0.1

0.2

0.3

0.4

0.5

Dimension 1

F IGURE 1 Souris : reprsentation des individus (souris) dans lespace des


gnes. Les WT sont en rouge-gras et les PPAR en bleu-italique ; les numros
correspondent aux rgimes.

Page 73 sur 104

06/14

Analyse canonique des corrlations (ACC)

0.5

1.0

10

C18.2n.6
C22.5n.6

0.0

S14
GSTmu
C20.4n.6
Lpin
Lpin1

C18.3n.3
C22.5n.3

C20.5n.3
CYP4A14
C22.6n.3
CYP4A10
GSTpi2
C16.0
C18.0
THIOL
CYP3A11
PMDCI

1.0

0.5

Dimension 2

C18.1n.9
C18.1n.7

1.0

0.5

0.0

0.5

1.0

Dimension 1

F IGURE 2 Souris : reprsentation des gnes (en rouge-gras) et des acides


(en bleu-italique) dans le sous-espace des gnes.

Page 74 sur 104

06/14

cessaire de dterminer le nombre de dimensions fixant la taille de lespace de


reprsentation. Le graphique reprsentant la dcroissance des valeurs propres
aide ce choix.

Positionnement multidimensionnel
(MDS)
Rsum
Mthode factorielle de rduction de dimension pour lexploration
statistique dune matrice de distances ou dissemblances entre individus. ACP dun tableau de distances ou multidimensional scaling.
Travaux pratiques avec tude de donnes lmentaires.
Retour au plan du cours.

Positionnement multidimensionnel (MDS)

Introduction

Considrons n individus. Contrairement aux chapitres prcdents, on ne


connat pas les observations de p variables sur ces n individus mais dans certains cas les n(n 1)/2 valeurs dun indice (de distance, dissimilarit ou dissemblance) observes ou construites pour chacun des couples dindividus. Ces
informations sont contenues dans une matrice (n n) D. Lobjectif du positionnement multidimensionnel (multidimensional scaling, ou MDS, ou ACP
dun tableau de distances) est de construire, partir de cette matrice, une reprsentation euclidienne des individus dans un espace de dimension rduite q
qui approche au mieux les indices observs. Autrement dit, visuellement le
graphique obtenu reprsente en dimension (en gnral) 2 la meilleure approximation des distances observes entre les individus pouvant tre des gnes ou
des chantillons biologiques.
Exemple lmentaire : Les donnes sont constitues dun tableau contenant
les distances kilomtriques par route (Source : IGN) entre 47 grandes villes en
France et dans les pays limitrophes. Toutes ces valeurs sont ranges dans le
triangle infrieur dune matrice carre avec des 0 sur la diagonale. La structure
du rseau routier, le relief, font que cette matrice de distances nest pas euclidienne qui, dans ce cas, correspondrait la distance "vol doiseau". Mais,
comme le montre le graphique issu dun positionnement multidimensionnel,
lapproximation euclidienne en est trs proche.

Le principal intrt de cette technique est donc de pouvoir observer graphiquement le mme ensemble de donnes travers diffrentes "optiques" et
mme den comparer les reprsentations ; chaque optique est dfinie par la faon dont on mesure des distances ou dissimilarits entre les objets. Citons trois
exemples typiques dans le cas spcifique de gnes dcrits par leurs expressions
transcriptomiques et un exemple pluls qualitatif :
chaque gne est un vecteur dans un espace vectoriel muni de la distance
euclidienne classique (racine de la somme des carrs des carts). Le MDS
ou ACP du tableau des distances qui en dcoule est quivalent lACP
dans laquelle les gnes sont les individus (les lignes).
On mesure la dissimilarit entre deux gnes X j et X k par 1
cor(X j , X k ) faisant intervenir la corrlation linaire de Pearson ou celle
robuste sur les rangs de Spearman. Les gnes co-rguls (fortement positivement corrls) sont trs proches, les gnes associs dans un mcanisme
dinhibition (fortement ngativement corrls) p
seront aussi proches.
On mesure la distance entre deux gnes par
1 cor(X j , X k )2 . Elle
vrifie, dans ce cas, les proprits qui en font une distance euclidienne.
Co-rguls ou inhibs, les gnes corrls positivement ou ngativement
sont proches dans les reprsentations graphiques.
Considrons un tableau avec, en ligne, les individus dun groupe et en
colonne les pays de la C.E. La valeur 1 est mise dans une case lorsque
lindividu de la ligne a pass au moins une nuit dans le pays concern.
Il est alors facile de construire une matrice de similarit avec un indice
qui compte le nombre de 1 apparaissant dans les mmes colonnes de tous
les couples dindividus. Lobjectif est ensuite dobtenir une reprsentation
graphique rapprochant les individus ayant visit les mmes pays.
Les preuves et dveloppements thoriques sont omis dans cet expos succinct, ils sont chercher dans la bibliographie. Voir par exemple Mardia et col.
(1979)[1].

Le MDS tant encore une technique factorielle, comme en ACP il est nPage 75 sur 104

06/14

Positionnement multidimensionnel (MDS)

Distance, similarits

Rappelons quelques proprits et dfinitions lmentaires propos de la


notion de dissemblance ou similarit. Ces poins sont reprciss dans la vignette
sur la Classification non-supervise.

2.1

hend

Dfinitions

bres
400

lour
bord
ando

roya

stma

nant

toul
poit

200

D FINITION 1.
Une matrice (n n) D est appele matrice (dindices) de distance si elle
est symtrique et si :

laba
renn

ange
lema

limo

Une matrice (n n) C est appele matrice de similarit si elle est sym-

caen

tour

trique et si
(j, k), ckj cjj .

leha

clem

bour

orle

roue
pari

mont

boul
cala
lill

200

amie

dijo

gren

dkj = (cjj + ckk 2ckj )1/2 .

brux

besa
nanc
metz
luxe
mulh
bale
stra

600

400

Une matrice de similarit se transforme en matrice de distance par :

reim

gene
cham

800

Pour que cette dfinition corresponde formellement celle dune distance il


faudrait ajouter laxiome dingalit triangulaire.

troy

lyon

mars

400

cp2

perp

nice

djj = 0 et (j, k), j 6= k, dkj 0.

cher

200
cp1

200

400

D FINITION 2. Une matrice de distance est dite euclidienne sil existe une
configuration de vecteurs {x1 , . . . , xn } dans un espace vectoriel euclidien E
de sorte que
2
dkj = hxj xk , xj xk i .
2

On note A la matrice issue de D de terme gnral dkj = dkj /2 et H la


matrice de centrage :
H = I 110 D,

F IGURE 1 Villes : Positionnement de 47 villes partir de la matrice de leurs


qui est la matrice de projection sur le sous-espace D-orthogonal au vecteur 1
distances kilomtriques.
dans lespace euclidien F des variables muni de la mtrique des poids.
P ROPOSITION 3.
Page 76 sur 104

06/14

Soit D une matrice de distance et B la matrice obtenue par double cen-

trage de la matrice A issue de D :


B = HAH0 ,
alors D est une matrice euclidienne si et seulement si B est positive
(toutes ses valeurs propres sont positives ou nulles).
Si la matrice de similarit C est positive alors la matrice de distance D
dduite est euclidienne.

2.2

Positionnement multidimensionnel (MDS)

P ROPOSITION 4. La distance entre variables quantitatives d2 (X, Y ) est encore le carr de la distance kPx Py kD entre les projecteurs D-orthogonaux
sur les directions engendres par les vecteurs x et y.
Des indices de dissimilarit peuvent galement tre dfinis pour un couple de
variables qualitatives ( partir de lindice de Tschuprow) ou pour une variable
quantitative et une variable qualitative ( parti du rapport de corrlation). Ils
ont moins dintrt pour des donnes dexpression et sont laisss de ct.

Distances entre variables

Lun des intrts pratiques du positionnement multidimensionnel est daider comprendre, visualiser, les structures de liaison dans un grand ensemble
de variables. On obtient ainsi des indications pour guider le choix dun sousensemble de variables, par exemple les plus lies une variable expliquer.
Cette approche ncessite la dfinition dindices de similarit entre variables.
Beaucoup sont proposs dans la littrature et concrtement utiliss pour les
donnes dexpression. Les gnes tant considrs comme des variables, on
sintresse alors diffrents critres bass sur la corrlation linaire usuelle de
Pearson ou robuste (non paramtrique de Spearman).

Recherche dune configuration de points

Le positionnement multidimensionnel est la recherche dune configuration


de points dans un espace euclidien qui admette D comme matrice de distances
si celle-ci est euclidienne ou, dans le cas contraire, qui en soit la meilleure
approximation un rang q fix (en gnral 2) au sens dune norme sur les
matrices. Nous ne nous intressons dans ce chapitre qu la version mtrique du MDS, une autre approche non mtrique construite sur les rangs est
dveloppe dans la bibliographie.

Ainsi pos, le problme admet une infinit de solutions. En effet, la distance


entre deux vecteurs xi et xk dune configuration est invariante par toute transOn note X et Y deux variables statistiques dont les observations sur les formation affine zi = Fxi + b dans laquelle F est une matrice orthogonale
mmes n individus sont ranges dans les vecteurs centrs x et y de lespace quelconque et b un vecteur de Rp . Une solution nest donc connue qu une
euclidien F muni de la mtrique des poids D. On vrifie facilement :
rotation et une translation prs.
cov(X, Y ) = x0 Dy
X = kxkD
x0 Dy
cor(X, Y ) =
.
kxkD kykD

3.1

Proprits

La solution est donne par les rsultats (Mardia et col.79) ci-dessous :

P ROPOSITION 5. Soit D une matrice de distance et B = HAH la matrice


centre en lignes et colonnes associe.
La valeur absolue ou le carr du coefficient de corrlation dfinissent des in Si D est la matrice de distance euclidienne dune configuration
dices de similarit entre deux variables quantitatives. Il est facile den dduire
{x1 , . . . , xn } alors B est la matrice de terme gnral
des distances. Le carr du coefficient de corrlation linaire a la particularit
bkj = (xj x)0 (xk x)
dinduire une distance euclidienne :
d2 (X, Y ) = 2(1 cor2 (X, Y )).

qui se met sous la forme


B = (HX)(HX)0 .
Page 77 sur 104

06/14

Positionnement multidimensionnel (MDS)

b qui rend
Elle est donc positive et appele matrice des produits scalaires de la confi- q fixe, la configuration issue du MDS a une matrice de distance D
2
P
n
guration centre.
ck
k 2
j,k=1 ({dj } dj ) minimum et, cest quivalent, une matrice de produit

2
Rciproquement, si B est positive de rang p, une configuration de vecteurs
b qui minimise
b
B B
.
admettant B pour matrice des produits scalaires est obtenue en consid- scalaire B
rant sa dcomposition spectrale B = UU0 . Ce sont les lignes de la
matrice centre X = U1/2 qui fournissent les coordonnes des vec- 4 Donnes gnomiques
teurs de la reprsentation euclidienne.
Une analyse en composantes principales fournit un premier aperu de la re3.2 Explicitation du MDS
prsentation de gnes relativement aux chantillons biologiques par lintermdiaire dun biplot. Le but ici est de sintresser aux ventuelles co-rgulations
Pour rsum, dans le cas dune matrice D euclidienne suppose de rang q,
ou inhibitions entre gnes. Le cas chant, ceux-ci apparatront corrls pole MDS est obtenu en excutant les tapes suivantes :
sitivement ou ngativement. Le positionnement multidimensionnel permet de
2
1. construction de la matrice A de terme gnral 1/2dkj ,
considrer diffrentes faon de prendre p
enP
compte des distances inter-gnes :
n
2 , positive ou nulle ;

distance
euclidienne,
d
(X,
Y
)
=
1
2. calcul de la matrice des produits scalaires par double centrage B =
i=1 (Xi Yi ) p
0
distance associe la corrlation carre, d2 (X, Y ) = 1 cor(X, Y )2 ,
HAH ,
comprise entre 0 et 1 ;
3. diagonalisation de B = UU0 ;
distance associe la corrlation, d3 (X, Y ) = 1 cor(X, Y ), comprise
4. les coordonnes dune configuration, appeles coordonnes principales,
entre 0 et 2.
sont les lignes de la matrice X = U1/2 .
En cas de problme de robustesse (valeurs atypiques) encore prsent aprs
Dans le cas euclidien, ACP et MDS sont directement connects.
transformation en logarithme, remplacer la corrlation linaire de Pearson par
celle sur les rangs de Spearman peut savrer utile.
P ROPOSITION 6. Soit Y la matrice des donnes habituelles en ACP. LACP
Remarquons tout dabord que dans les trois cas, plus la valeur est petite,
de (Y, M, 1/nI) fournit les mmes reprsentations graphiques que le poplus les gnes dont on mesure lloignement sont proches. Ensuite, pour d2 et
sitionnement calcul partir de la matrice de distances de terme gnral
d3 , une valeur proche de 1 caractrise deux gnes non corrls, ce qui nest
kyi yj kM . Si C dsigne la
matrice des composantes principales, alors les
pas ncessairement le cas de la distance euclidienne. Enfin, il est important
coordonnes principales sont nC.
de noter quune corrlation forte et ngative entre deux gnes conduit deux
Lintrt du MDS apparat videmment lorsque les observations Y sont in- rsultats opposs selon d2 (valeur proche de 0) et d3 (valeur proche de 2).
La figure 2 illustre les trois possibilits avec le positionnement multidimensionnel des gnes. Lanalyse conjointe de ces trois graphiques conduit de
nombreuses interprtations sur le plan biologique. Sans rentrer dans les dtails, nous noterons que ces trois graphiques tendent sparer deux groupes
de gnes qui interviennent dans deux fonctions biologiques opposes : les
CYP4A, PMDCI, PECI, AOX, BIEN, THIOL, CPT2, mHMGCoAS, Tpalpha
et Tpbeta sont impliqus dans le catabolisme des lipides et la ctognse
P ROPOSITION 7. Si D est une matrice de distance, pas ncessairement eu- alors que les gnes FAS, S14, ACC2, cHMGCoAS, HMGCoAred et, plus inclidienne, B la matrice de produit scalaire associe, alors, pour une dimension directement, GK et LPK sont impliqus dans la synthse de lipides au niveau

connues ou encore si lon cherche la meilleure reprsentation euclidienne de


distances non-euclidiennes entre les individus ; cest lobjet du thorme suivant. En ce sens, le MDS gnralise lACP et permet, par exemple, de considrer une distance de type robuste base de valeurs absolues mais la reprsentation des variables pose alors quelques problmes car le biplot nest plus
linaire.

Page 78 sur 104

06/14

Positionnement multidimensionnel (MDS)

dexpriences complmentaires.
GSTpi2

CYP4A14
THB

0.4

0.5

GK

HMGCoAred
ACC2
cHMGCoAS
Lpin1
Lpin

CAR1

0.0

0.2

MCADACOTH
PECI
THB
mHMGCoAS
GSTmu Tpalpha
M.CPT1
LCEPex11a
PON
apoB
RXRa
IL.2
apoE
RXRb2
Tpbeta
VLDLr
LXRb
FXR
CACP
G6Pase
ACAT1
PPARg
GS
LPL
SIAT4c
AM2R
PPARa
PXR
MTHFR
C16SR
AOX
PPARd
X36b4
SHP1
ADISP
OCTN2
MDR1
CIDEA
i.BABPi.BAT
BIEN SPI1.1
Lpin3
RARa
NURR1
TRa
Bcl.3
COX2
ap2
LXRa
hABC1
CBS cMOAT
CYP27b1
MS
UCP3
CYP26
TRb
RXRg1
CYP2b13
i.NOS
ADSS1
SR.BI
c.fos
CYP7a
ALDH3CPT2
COX1
BACT
VDR
CYP2b10
MDR2
PDK4
mABC1
ACC1
Waf1
MRP6
NGFiB
apoC3
UCP2
eif2g
CYP24
FAT Ntcp
RARb2
FDFT
ACAT2
CYP27a1
HPNCL
BSEP
i.FABP
GSTa
ACBP
G6PDH
PAL
apoA.I
Lpin2 PLTP
LDLr
CYP8b1
LPK

ACAT1PON
PPARd
G6Pase
apoB RXRb2
SPI1.1
C16SR
PECI
LXRb
Tpalpha
M.CPT1
GSTmu
mHMGCoAS
apoE
RXRa
CACP LCE i.BABP
PMDCI
X36b4
VLDLr
PPARg
Tpbeta
AM2R
FXR
MTHFR
LPL ADISP
PXR
AOX
OCTN2
CIDEA
i.BAT
MDR1
GS
CBS ACAT2
BACT
SHP1
LXRa Bcl.3
BIEN
SIAT4c
cMOAT
PPARa
NURR1
ap2
COX1 hABC1
TRa
Lpin3
CPT2
CYP26 CYP27b1
ALDH3
TRb
CYP2b10
CYP7a
THIOL HPNCL
MSSR.BI
UCP3
RXRg1
i.NOS
ACC1 RARa
CYP2b13
Waf1
c.fos
MDR2
ADSS1
VDR
mABC1
GSTa
COX2
L.FABP
NGFiBPDK4
apoC3 RARb2 Ntcp
ACBP
UCP2
BSEP
CYP27a1MRP6
PAL eif2g
FDFT
CYP24
Lpin2
i.FABP
FAT
G6PDH

Dimension 2

L.FABP

ACOTH
MCAD

IL.2
CYP4A10

0.0

0.0

PMDCI

THIOL

CAR1

0.2

CYP2c29

GSTpi2

Dimension 2

CYP2c29
Pex11a
CYP3A11

CYP4A10

Dimension 2

CYP3A11

0.2

0.5

CYP4A14

0.2

CYP4A14

Tpalpha
CYP4A10
MCAD
PECI
mHMGCoAS
Tpbeta
CYP3A11
RXRb2
THB
PMDCI
AOX
CACP
LXRb
C16SR
ACAT1
PPARg
ACOTH
Pex11a
PONM.CPT1
IL.2
FXR
PPARd
BIEN
apoB
RXRa
apoE
PXR VLDLr
AM2R
GSTmu
LCE
cMOAT
THIOL
i.BABP
ADISP
X36b4
OCTN2
CBS
CPT2 SPI1.1
CAR1 MTHFR
LPL
GS
MDR1
ALDH3
CIDEA
PPARa
G6Pase BACT
LXRa
i.BAT
SIAT4c
CYP2c29
Lpin3
NURR1
Bcl.3 SHP1
SR.BI CYP26
L.FABP
GSTpi2
hABC1
CYP27b1
TRa
Ntcp ap2 RARa
HPNCL
MS
UCP3
VDR
RXRg1
CYP2b10
GSTa
CYP7a
i.NOS
TRb
COX1
CYP2b13
ACAT2
COX2
MDR2
ACBP
ACC1
c.fos
ADSS1
Waf1 PDK4
UCP2
NGFiB
MRP6
mABC1
BSEP
eif2g
FAT RARb2
CYP27a1
apoC3
CYP24
PAL
FDFT
i.FABP
Lpin2
apoA.I
CYP8b1
G6PDH

GK

0.6

FAS

FAS

1.0

0.5
Dimension 1

0.0

0.5

GKFAS
LPK

LDLr

0.4

0.4

1.0

apoA.I
LPK
CYP8b1

S14

PLTPLpin1
Lpin
cHMGCoAS
HMGCoAred

ACC2

S14

0.5

0.0
Dimension 1

Lpin
Lpin1
LDLr

PLTP
cHMGCoAS
HMGCoAred
S14

0.5

0.6

0.4

0.2

ACC2

0.0

0.2

0.4

Dune manire gnrale, on peut retenir que lutilisation de la distance euclidienne tend rapprocher des gnes dont les expressions sont proches. En
revanche, les deux autres indicateurs considrent que deux gnes sont proches
si leur expression varie dans le mme sens selon les conditions exprimentales.
La corrlation (d3 ) distingue les gnes corrls ngativement, ce que ne permet pas la corrlation carre (d2 ) qui doit donc tre utilise en connaissance de
cause.

Dimension 1

Notons que la distance d1 est plus courante en statistique alors que d3 lest
davantage dans les tudes relatives aux biopuces. Autant que possible une comF IGURE 2 Souris : positionnement multidimensionnel des gnes sur les axes paraison des trois distances est recommande.
1 et 2 selon 3 distances diffrentes : distance euclidienne (d1 gauche), corrlation (d3 au centre), corrlation carre (d2 droite).
Rfrences
hpatique. On observera quaucun des trois graphiques de la figure 2, analys individuellement, ne conduit la totalit de cette interprtation mais que
cest bien lanalyse conjointe de ces reprsentations qui permet daffiner la
connaissance du biologiste sur ces donnes. Succintement, notons galement
que dautres gnes tendent participer ces groupes. Par exemple, le gne
Lpin1 est proche des gnes impliqus dans la lipognse. Bien que sa fonction soit actuellement inconnue, il a t observ que la ligne de souris dficiente pour Lpin1 prsente des altrations du mtabolisme des lipides.

[1] K.V. Mardia, J.T. Kent et J.M. Bibby, Multivariate Analysis, Academic
Press, 1979.

Les gnes dont la position sur le graphique sera le plus modifi en passant
de la distance d2 la distance d3 seront ceux prsentant des corrlations ngatives et importantes avec de nombreux autres gnes. Un cas typique dans
notre exemple est celui de CAR1 dont lACP (ainsi, que la matrice des corrlations) a montr quil tait ngativement corrls avec des gnes tels que
GSTpi2, CYP3A11, FAS... La position relative des couples de gnes ainsi
obtenus change de faon importante entre les deux graphiques. On observera
en particulier le couple CAR1-GSTpi2 totalement oppos sur laxe 1 selon
d3 et relativement proche selon d2 (tandis quil prsente une opposition moins
marque selon d1 ). La surexpression du gne CAR1 et la sous-expression du
gne GSTpi2 chez les souris dficientes en rcepteur PPAR na pas t dcrite et constitue lun des rsultats originaux de ce travail. Ltude dun lien potentiel entre ces deux modifications dexpression ncessitera la mise en uvre
Page 79 sur 104

06/14

Classification non supervise

1.2

Classification non supervise


Rsum
Mthodes de classification non supervise (ou clustering). Notions de distance, classification ascendante hirarchique et choix
de distances entre classes, construction du dendrogramme, chjoix
du nombre de classes Classification par r-allocation dynamique
(k-means, partitionning around medods), mthode mixte pour les
grands tableaux.
Travaux pratiques avec SAS et R pour la recherche de classes et leurs
reprsentations.

Les objectifs

Lobjectif dune mthode de classification dborde le cadre strictement exploratoire. Cest la recherche dune typologie, ou segmentation, cest--dire
dune partition, ou rpartition des individus en classes, ou catgories. Ceci est
fait en optimisant un critre visant regrouper les individus dans des classes,
chacune le plus homogne possible et, entre elles, les plus distinctes possible.
Cet objectif est distinguer des procdures de discrimination, ou encore de
classement (en anglais classification) pour lesquelles une typologie est a priori
connue, au moins pour un chantillon dapprentissage. Nous sommes dans une
situation dapprentissage non-supervis, ou en anglais de clustering 1 .

1.3

Les mthodes

Un calcul lmentaire de combinatoire montre que le nombre de partitions


possibles dun ensemble de n lments crot plus quexponentiellement avec
n ; le nombre de partitions de n lments en k classes est
de Stirling,
Ple nombre
n
le nombre total de partition est celui de Bell : Pn = 1e
k = 1 kk! .

Pour n = 20, il est de lordre de 1013 . Il nest donc pas question de chercher optimiser le critre sur toutes les partitions possibles. Les mthodes se
limitent lexcution dun algorithme itratif convergeant vers une bonne
1 Introduction
partition qui correspond en gnral un optimum local. Mme si le besoin
de classer des objets est trs ancien, seule la gnralisation des outils infor1.1 Les donnes
matiques en a permis lautomatisation dans les annes 1970. Celeux et col.
Comme dans le cas du thme prcdent (MDS), les donnes peuvent se pr- (1989)[1] dcrivent en dtail ces algorithmes.
senter sous diffrentes formes ; elles concernent n individus supposs affects,
Diffrents choix sont laisss linitiative de lutilisateur :
pour simplifier, du mme poids :
une mesure dloignement (dissemblance, dissimilarit ou distance) entre
un tableau de distances (ou dissimilarits, ou mesures de dissemblance),
individus ;
n n, entre les individus pris deux deux ;
le critre dhomognit des classes optimiser : il est, dans le cas de va les observations de p variables quantitatives sur ces n individus ;
riables quantitatives, gnralement dfini partir de la trace dune matrice
les observations, toujours sur ces n individus, de variables qualitatives ou
de variances-covariances ; soit les variances et covariances interclasses (la
dun mlange de variables quantitatives et qualitatives.
trace correspond alors linertie de la partition), soit les variances et coDune faon ou dune autre, il sagit, dans chaque cas, de se ramener au tavariances intraclasse ;
bleau des distances deux deux entre les individus (cest--dire au premier
la mthode : la classification ascendante hirarchique et celle par rcas). Le choix dune matrice de produit scalaire permet de prendre en compte
allocation dynamique sont les plus utilises, seules ou combines ;
simplement un ensemble de variables quantitatives tandis que le troisime cas
1. Faire attention aux faux amis franais / anglais : discrimination / classification (supervise)
ncessite plus de dveloppements.
Retour au plan du cours.

et classification / clustering (non-supervise)

Page 80 sur 104

06/14

Classification non supervise

le nombre de classes : cest un point dlicat.


2.1 Indice de ressemblance, ou similarit
Enfin, diffrents outils recherchent une interprtation, ou des caractrisations,
Cest une mesure de proximit dfinie de dans R+ et vrifiant :
des classes obtenues.

On notera que les principes algorithmiques de ces mthodes sont relativement lmentaires.
Classification ascendante hirarchique, ou CAH

s(i, j) = s(j, i), (i, j) : symtrie ;


s(i, i) = S > 0, i : ressemblance dun individu avec lui-mme ;
s(i, j) S, (i, j) : la ressemblance est majore par S.

Il sagit de regrouper itrativement les individus, en commenant par le bas


Un indice de ressemblance norm s est facilement dfini partir de s par :
(les deux plus proches) et en construisant progressivement un arbre, ou dendrogramme, regroupant finalement tous les individus en une seule classe, la
1
s (i, j) = s(i, j), (i, j) ;
racine (cf. figure 3.5 qui reprend les donnes lmentaires de la vignette sur
S
le MDS). Ceci suppose de savoir calculer, chaque tape ou regroupement, la
distance entre un individu et un groupe ainsi que celle entre deux groupes. Ceci s est une application de dans [0, 1].
ncessite donc, pour lutilisateur de cette mthode, de faire un choix supplmentaire : comment dfinir la distance entre deux groupes connaissant celles 2.2 Indice de dissemblance, ou dissimilarit
de tous les couples dindividus entre ces deux groupes. Diffrents choix, apUne dissimilarit est une application d de dans R+ vrifiant :
pels saut en franais et linkage en anglais, sont dtaills plus loin. Le nombre
de classes est dtermin a posteriori, la vue du dendrogramme ou dun gra(i, j)
phique reprsentant la dcroissance de la hauteur de chaque saut, ou cart de
d(i, j) = d(j, i), : symtrie ;
distance, opr chaque regroupement.
d(i, j) = 0 i = j.
Classification par r-allocation dynamique
Dans ce cas, le nombre de classes, k, est fix a priori. Ayant initialis k
centres de classes par tirage alatoire (ou autre procdure), tous les individus
sont affects la classe dont le centre est le plus proche au sens de la distance
choisie (en principe, euclidienne pour cette mthode). Dans une deuxime
tape, lalgorithme calcule des barycentres de ces classes qui deviennent les
nouveaux centres. Le procd (affectation de chaque individu un centre, dtermination des centres) est itr jusqu convergence vers un minimum (local)
ou un nombre ditrations maximum fix.

Mesures dloignement

Les notions de similarit et dissimilarit se correspondent de faon lmentaire. Si s est un indice de ressemblance, alors
d(i, j) = S s(i, j), (i, j)
est un indice de dissemblance. De faon rciproque, si d est un indice de dissemblance avec D = sup(i,j) d(i, j), alors s(i, j) = D d(i, j) est
un indice de ressemblance. Comme s , un indice de dissemblance norm est
dfini par :
1
d (i, j) = d(i, j), (i, j)
D

Notons = {i = 1, . . . , n} lensemble des individus. Cette section se avec d = 1 s et s = 1 d . Du fait de cette correspondance immdiate,
propose de dfinir sur diffrentes mesures dloignement entre deux seule la notion de dissemblance, ou dissimilarit, norme est considre par la
individus. Les hypothses et proprits tant de plus en plus fortes.
suite.
Page 81 sur 104

06/14

2.3

Distance

Classification non supervise

des inverses des carts-types :

Une distance sur est, par dfinition, une dissimilarit vrifiant en plus la
proprit dingalit triangulaire. Autrement dit, une distance d est une application de dans R+ vrifiant :

Donnes qualitatives

Si est fini, la distance peut tre norme.

Distance euclidienne

Dans le cas o est un espace vectoriel muni dun produit scalaire, donc
dune norme, la distance dfinie partir de cette norme est appele distance
euclidienne :
d(i, j) = < i j, i j >1/2 = ki jk.
La condition pour quune matrice donne de distances entre lments dun
espace vectoriel soit issue dune distance euclidienne est explicite dans le
chapitre prcdent. Toute distance nest pas ncessairement euclidienne ; voir,
par exemple, celle construite sur la valeur absolue.

2.5

1
1
).
1
p

La mtrique dite de Mahalanobis (inverse de la matrice des variancescovariances) peut aussi tre utilise pour attnuer la structure de corrlation.

d(i, j) = d(j, i), (i, j) ;


d(i, i) = 0 i = j ;
d(i, j) d(i, k) + d(j, k), (i, j, k) 3 .

2.4

M = 1 = diag (

Utilisation pratique

Dans le cas trs particulier o toutes les variables sont binaires (prsence,
absence de caractristiques), de nombreux indices de ressemblances ont t
proposs dans la littrature. Ils sont bass sur les quantits suivantes dfinis
pour deux individus i et j distincts :
aij = nombre de caractres communs i et j sur les p considrs,
bij = nombre de caractres possds par i mais pas par j,
cij = nombre de caractres possds par j mais pas par i,
cij = nombre de caractres que ne possdent ni i ni j.
bien sr, aij + bij + bij + dij = p.
Les indices de ressemblance les plus courants sont :
a +d
Concordance : ij p ij ,
aij
Jaccard : aij +bij +bij ,
Dice :

2aij
2aij +bij +bij .

Puis, il est facile de construire un indice de dissemblance.

Dans le cas plus gnral de p variables qualitatives, la distance la plus utiliConcrtement, il peut arriver que les donnes traiter soient directement
se
est celle, euclidienne, dite du 2 entre profils-lignes du tableau disjonctif
sous la forme dune matrice dun indice de ressemblance ou de dissemblance.
Il est alors facile de la transformer en une matrice de dissemblances normes complet (cf. chapitre 6 AFCM). La distance entre deux individus i et k est
alors dfinie par :
avant daborder une classification.
mj
n X X j` 1
2
Nous prcisons ci-dessous les autres cas.
p
ik j .
d2 =
p j=1
n`
`=1
Donnes quantitatives
Lorsque les p variables sont toutes quantitatives, il est ncessaire de dfinir
une matrice M de produit scalaire sur lespace RP . Le choix M = Ip , matrice
identit, est un choix lmentaire et courant ; mais il est vivement conseill de
rduire les variables de variances htrognes, comme en ACP, ce qui revient
considrer, comme matrice de produit scalaire, la matrice diagonale compose

o mj est le nombre de modalits de la variable qualitative Y j , nj` est leffectif


j`
de la `-ime modalit de Y j et ik
vaut 1 si les individus i et k prsentent une
discordance pour la `-ime modalit de la variables Y j et 0 sinon. Limportance donne une discordance est dautant plus importante que les modalits
considres sont rares. Le coefficient n/p peut tre omis.

Page 82 sur 104

06/14

Classification non supervise

Mlange quantitatif, qualitatif

paires dindividus, selon quils appartiennent la mme classe dans les deux
partitions, quils sont dans la mme classe pour lune mais pas pour lautre, et
Diffrentes stratgies sont envisageables dpendant de limportance relative enfin quils sont spars dans les deux partitions.
des nombres de variables qualitatives et quantitatives.
En notant nkl le terme gnral de la table de contingence croisant les deux
Rendre tout qualitatif . Les variables quantitatives sont rendues qualitatives
partitions, lindice dit de Rand scrit :
par dcoupage en classes. Les classes dune mme variable sont gnP P
P
P
ralement recherches deffectifs sensiblement gaux : bornes des classes
nkl k n2k+ l n2+l 2 2
gales des quantiles. La mtrique utiliser est alors celle du 2 dcrite
R= k l
n n .
+
ci-dessus.
Rendre tout quantitatif laide dune AFCM. Une AFCM est calcule sur Cet indice prend ses valeurs entre 0 et 1, il est gal 1 lorsque les deux partiles seules variables qualitatives ou sur lensemble des variables aprs tions sont identiques. Dautres variantes ont t proposes.
dcoupage en classes des variables quantitatives. LAFCM calcule par
AFC du tableau disjonctif complet produit des scores (cf. chapitre 6) 3 Classification ascendante hirarchique
qui sont les composantes principales de lACP des profils-lignes. Dans le
cas dune AFCM partielle des seules variables qualitatives, les variables 3.1 Principe
quantitatives restantes doivent tre ncessairement rduites. Ces scores
Linitialisation de cet algorithme consiste, sil nest dj donn, calculer
sont ensuite utiliss comme coordonnes quantitatives des individus en
un tableau de distances (ou de dissemblances) entre les individus classer.
vue dune classification.
Mtrique de Gower permet de mixer les types de variables mais celle-ci reste Lalgorithme dmarre alors de la partition triviale des n singletons (chaque individu constitue une classe) et cherche, chaque tape, constituer des classes
trs peu utilise.
par agrgation des deux lments les plus proches de la partition de ltape
2.6 Bilan
prcdente. Lalgorithme sarrte avec lobtention dune seule classe. Les regroupements successifs sont reprsents sous la forme dun arbre binaire ou
Une fois ces prliminaires accomplis, nous nous retrouvons donc avec
dendrogramme.
soit un tableau de mesures quantitatives n p, associ une matrice de
produit scalaire pp (en gnral Ip ) dfinissant une mtrique euclidienne, 3.2 Distance, ou dissemblance, entre deux classes
soit directement un tableau n n de dissemblances ou de distances entre
chaque tape de lalgorithme, il est ncessaire de mettre jour le tableau
individus.
des
distances (ou des dissemblances). Aprs chaque regroupement, de deux
Attention, si n est grand, la deuxime solution peut se heurter rapidement des
individus,
de deux classes ou dun individu une classe, les distances entre ce
problmes de stockage en mmoire pour lexcution des algorithmes.
nouvel objet et les autres sont calcules et viennent remplacer, dans la matrice,
2.7 Accord entre partitions
les distances des objets qui viennent dtre agrgs. Diffrentes approches sont
possibles ce niveau, donnant lieu diffrentes CAH.
Une partition de n individus dfinit une variable qualitative dont les catNotons A et B deux classes, ou lments, dune partition donne, wA et wB
gories sont les classes de la partition. Une comparaison de deux partitions est
leurs
pondrations, et di,j la distance entre deux individus quelconques i et j.
obtenue an construisant la table de contingence croisant ces deux variables. Cependant, les numros des classes tant arbitraires, lapprciation de cet accord
Le problme est de dfinir d(A, B), distance entre deux lments dune parest difficile aussi un indice quantitatif a t propos en considrant toutes les tition de .
Page 83 sur 104

06/14

Cas dune dissemblance

Initialisation Les classes initiales sont les singletons. Calculer la

Les stratgies ci-dessous saccommodent dun simple indice de dissemblance dfini entre les individus. Elles sappliquent galement des indices
plus structurs (distance) mais nen utilisent pas toutes les proprits.
d(A, B)

d(A, B)

Classification non supervise

matrice de leurs distances deux deux.


Itrer les deux tapes suivantes jusqu lagrgation en une seule

classe :
1. regrouper les deux classes les plus proches au sens de la distance
entre classes choisie,

min (dij ) (saut minimum, single linkage),

iA,jB

2. mettre jour le tableau de distances en remplaant les deux classes


regroupes par la nouvelle et en calculant sa distance avec chacune des autres classes.

sup (dij ) (saut maximum ou diamtre, complete linkage),


iA,jB

d(A, B)

1
card(A)card(B)

dij

(saut moyen, group average linkage).

iA,jB

3.4

Rsultats

Cas dune distance euclidienne

Graphes

Considrons que les donnes sont sous la forme dune matrice n p de


variables quantitatives associe une mtrique euclidienne dans Rp ou directement sous la forme dune matrice de distances euclidiennes (n n) des
individus 2 2. Dans le premier cas, il est facile de calculer les barycentres des
classes et donc de considrer les distances suivantes entre deux groupes.

Les graphes obtenus lissue dune CAH sont prsents et illustrs dans la
section suivante. Il sagit du graphique daide au choix du nombre de classes
et du dendrogramme, regroupant hirarchiquement les observations et groupes
par des branches dont la longueur est la distance entre les objets regroups.
Attention, la reprsentation du dendrogramme nest pas unique, celui-ci est
invariant par rotation dune branche. Lordre des observations sur laxe horizontal est donc artificiel, il peut amener rapprocher des observations qui sont
de fait trs loignes lune de lautre car regroupes par de longues branches.

d(A, B)

= d(gA , gB ) (distance des barycentres, centrod),


wA wB
d(gA , gB ) (saut de Ward).
d(A, B) =
wA + wB

Qualit et choix du nombre de classes


Dans le 2me cas, le carr de la distance entre 2 barycentres se calcule partir
La corrlation cophntique est un indicateur de qualit dune classificade la matrice des distances 2 2.
tion hirarchique ou dun dendrogramme est obtenue partir de la notion de
Remarque : Le saut de Ward joue un rle particulier et est la stratgie la plus
distance cophntique. Cette distance est dfinie entre deux observations recourante ; cest mme souvent loption par dfaut (SAS) dans le cas dune disprsentes dans un arbre par la hauteur des branches qui finissent par les runir
tance euclidienne entre individus. En effet, ce critre induit, chaque tape de
dans un mme groupe. Cest galement la distance entre les deux groupes
regroupement, une minimisation de la dcroissance de la variance interclasse.
contenant ces observations avant quils ne soient runis en un mme groupe ;
De plus, mme si la distance entre individus nest pas euclidienne, la mme
cest par exemple la distance entre deux espces dans un arbre phylogntique.
expression est utilise pour faire du saut de Ward dans le cas non-euclidien.
Toutes les distances ainsi dfinies entre les objets deux deux sont ranges
dans une matrice triangulaire de distances cophntiques.
3.3 Algorithme
A LGORITHME 1 :
classification ascendante hirarchique

La qualit dun arbre de classification peut se rsumer par un coefficient de


corrlation cophntique entre les valeurs de la matrice de distances initiales,
par exemple eucliennes, et celle des distances cophntiques. videmment,
Page 84 sur 104

06/14

Classification non supervise

plus proche est cette valeur de 1, meilleure est la classification.

obtenue par simulation (Monte Carlo) selon une loi uniforme et de rechercher
le plus grand cart ou gap. La fonction clusGap qui implmente ce critre
dans la librairie cluster propose 5 mthodes ou critres ! pour rechercher
La silhouette (Rousseeuw, 1987)[8] dune classification est un graphe monle plus grand gap. Attention, cette fonction naccepte que des donnes sous
trant comment chaque observation appartient plus ou moins sa classe. Supla forme dune matrice de variables quantitatives, pas celle dune matrice de
posons que n observations aient t rparties en k classes par un quelconque
distances ou dissimilarits.
algorithme. Soit a(i) la moyenne des dissimilarits (ou distances) de lobserEnfin , dans le contexte de mlanges supposs gaussiens, cest--dire si lhyvation i avec toutes les autres observations au sein dune mme classe. Plus
pothse
dune situation gaussienne multidimensionnelle, le choix du nombre
a(i) est petit meilleur est lassignation de i sa classe ; a(i) est la dissimilarit
de
classes
sapparente une slection de modle par des critres AIC, BIC,
moyenne de i cette classe.
spcifiques. Il nest pas abord dans ce cours aperu des mthodes de classifiSoit b(i) la plus faible moyenne des dissimilarits (ou distances) de lobsercation non-supervise.
vation i chaque autre classe dont i ne fait pas partie. La classe avec cette plus
faible dissimilarit moyenne est appel classe voisine de i car cest la meilleure 3.5 Illustration
classe suivante pour lobservation i.
Les donnes sont celles dj reprsentes laide du MDS : un tableau
La silhouette de la ime observations est alors donne par
contenant les distances kilomtriques par route (Source : IGN) entre 47 grandes
villes en France et dans les pays limitrophes. Toutes ces valeurs sont ranges
b(i) a(i)
s(i) =
.
dans le triangle infrieur dune matrice carre avec des 0 sur la diagonale. Il
max a(i), b(i)
sagit donc de regrouper au mieux ces villes, en tenant compte de leurs proxiPlus ces valeurs sont proches de 1 et meilleure est la classification. La moyenne mits relatives au sens de cette distance routire qui nest pas euclidienne
cause du relief.
de toutes ces valeurs est un autre indicateur global de qualit.
lissue de lexcution, la classification ascendante hirarchique fournit les
deux
graphiques prciss ci-dessous.
Le choix du nombre de classes k est, comme le choix de la dimension en
Un graphique daide au choix du nombre de classes (cf. figure 3.5). Il
ACP, dlicat oprer. Plusieurs heuristiques on t proposes selon les critres
reprsente rebours, en fonction du nombre de classes, la dcroissance
prcdents ou encore suivant le graphe de dcroissance de la distance interde la distance interclasses. La prsence dune rupture importante dans
classes qui est aussi la dcroissance de la variance inter-classe dans le cas du
cette dcroissance aide au choix du nombre de classes comme dans le cas
saut de Ward. La recherche dun coude dans ce graphe est une indication
du choix de dimension en ACP, avec lboulis des valeurs propres. Dans
heuristique du choix de k ; voir lapplication dans la section suivante.
ce cas, il faut lire le graphe de droite gauche et sarrter avant le premier
saut jug significatif. Avec lindice de Ward, cela revient couper larbre
La statistique du gap est une proposition de (Tibshirani et al.)[9] pour
avant une perte, juge trop importante, de la variance interclasses. Dans
tenter de rationaliser cette dmarche. Soit Dr la somme de toutes les distances
le cas des villes repres par leurs distances kilomtriques, le choix de 5
prises entre les observations deux deux au sein dune mme classe r = 1, k ;
classes semble raisonnable.
Wk est la moyenne pondre (par al taille de la classe) de ces sommes de disLa fonction clusGap ne permet pas de calculer la statistique de gap sur
tances. Si la distance initiale est euclidienne, W est ( un facteur 2 prs) la
une matrice de distances. La corrlation cophntique de larbre est de
norme carre de la matrice de variance intra-classe. Lide est alors de com0, 64 mais cela est gure utile dans labsolu tandis que les silhouhettes
pare le graphe de log(Wk ) par rapport celui dune distribution de rfrence
Page 85 sur 104

06/14

Classification non supervise

4000

5000

Height

2000

3000

F IGURE 1 Villes : Dcroissance de la variance interclasses chaque regroupement dans le cas du saut de Ward ( gauche) et droite silhouettes des
observations dans leur classe respective.

luxe
metz
nanc
reim
troy
besa
dijo
stra
bale
mulh
mars
nice
cham
gene
gren
lyon
hend
bord
roya
mont
perp
ando
lour
toul
boul
cala
brux
lill
caen
cher
leha
roue
amie
pari
bres
renn
stma
laba
nant
clem
limo
poit
ange
lema
tour
bour
orle

forme darbre binaire, des agrgations successives jusqu la runion en


une seule classe de tous les individus. La hauteur dune branche est proportionnelle lindice de dissemblance ou distance entre les deux objets
regroups. Dans le cas du saut de Ward, cest la perte de variance interclasses.

1000

sont reprsentes dans la figure 3.5.


Le dendrogramme (cf. figure 3.5) est une reprsentation graphique, sous

Une fois un nombre de classes slectionn par lun ou lautre des critres
proposs, une coupure de larbre fournit, dans chaque sous-arbre, la rpartition
des individus en classes. Ces classes peuvent ensuite tre reprsentes dans les
axes dune analyse factorielle :
une ACP si la classification a t opre sur des variables quantitatives
F IGURE 2 Villes : Exemple dun dendrogramme issu de la classification des
assorties dune mtrique euclidienne,
une AFCM si la classification a t opre sur les composantes dune donnes par CAH et saut de Ward.
AFCM de variables qualitatives,
un MDS dans le cas de lexemple (figure 3.5) car la classification est
directement calcule sur un tableau de distance.
Signalons quil est courant, dans la pratique, de mettre en uvre, lissue
dune CAH, une mthode de r-allocation dynamique avec pour nombre de
Page 86 sur 104

06/14

Classification non supervise

classes celui choisi par CAH et pour centres initiaux les barycentres des classes
obtenues : on stabilise ainsi les classes.

hend

bres

400

lour

laba
nant rennstma

bord roya
toul

200

ando

limo

cher
poit ange
lema caen
tour

clem

cp2

perp
bour

pari
troy

lyon
dijo

gren

nice

gene
cham

400

200

mont
mars

600

400

besa

200
cp1

boul
amie
cala
lill

reim
brux

mulh
bale
800

leha
roue

orle

nanc
metz
luxe
stra
200

400

Notons galement que lexemple prsent ici est relativement simple et bien
structur. Modifier le critre de saut ne change pas grand chose dans ce cas.
Mais, attention, il est facile de vrifier exprimentalement quune classification
ascendante est un objet trs sensible. En effet, il suffit de modifier une distance
dans le tableau, par exemple de rduire sensiblement la distance de Grenoble
Brest, pour que la classification (nombre de classes, organisation) devienne
trs sensible au choix du critre de saut. En revanche, la structure des donnes
fait que la reprsentation factorielle de lACP du tableau de distance (MDS)
est trs robuste ce type derreur de mesure ; il est recommand de systmatiquement complter une classification par une reprsentation factorielle.

Agrgation autour de centres mobiles

4.1

Principes

Diffrents types dalgorithmes ont t dfinis autour du mme principe de


r-allocation dynamique des individus des centres de classes, eux-mmes
recalculs chaque itration. Ces algorithmes requirent une reprsentation
vectorielle des individus dans Rp muni dune mtrique, gnralement euclidienne. Il est important de noter que, contrairement la mthode hirarchique
prcdente, le nombre de classes k doit tre dtermin a priori.
Ces mthodes sont itratives : aprs une initialisation des centres consistant, par exemple, tirer alatoirement k individus, lalgorithme rpte deux
oprations jusqu la convergence dun critre :
1. Chaque individu est affect la classe dont le centre est le plus proche au
sens dune mtrique.

2. Calcul des k centres des classes ainsi constitues.


F IGURE 3 Villes : Reprsentation des classes (couleurs) obtenues par CAH
dans les coordonnes du MDS.
4.2 Principale mthode
Il sagit de la version propos par Forgy (1965)[3] des algorithmes de type
kmeans.
A LGORITHME 2 :
Page 87 sur 104

06/14

Initialisation Tirer au hasard, ou slectionner pour des raisons

extrieures la mthode, k points dans lespace des individus, en gnral


k individus de lensemble, appels centres ou noyaux.
Itrer les deux tapes suivantes, jusqu ce que le critre de variance
interclasses ne croisse plus de manire significative, cest--dire jusqu
la stabilisation des classes.
1. Allouer chaque individu au centre (cest--dire la classe) le plus
proche au sens de la mtrique euclidienne choisie ; on obtient ainsi,
chaque tape, une classification en k classes, ou moins si, finalement, une des classes devient vide.
2. Calculer le centre de gravit de chaque classe : il devient le nouveau noyau ; si une classe sest vide, on peut ventuellement retirer
alatoirement un noyau complmentaire.

4.3

Proprits

Classification non supervise

Nues dynamiques
La variante propose par Diday (1973)[2] et paralllement par Hartigan et
Wong (1979)[4] consiste remplacer chaque centre de classe par un noyau
constitu dlments reprsentatifs de cette classe. Cela permet de corriger
linfluence dventuelles valeurs extrmes sur le calcul du barycentre. Diday
(1973) a galement propos la recherche de formes fortes communes plusieurs partitions issues dinitialisations diffrentes.
Partitionning Around Medods
Cet algorithme (PAM), propos par Kaufman & Rousseeuw (1990)[6], permet de classifier des donnes de faon plus robuste, cest--dire moins sensible
des valeurs atypiques. Le noyau dune classe est alors un mdod cest--dire
lobservations dune classe qui minimise la moyenne des distances ou dissimilarits aux autres observations de la classes. Une diffrence majeur avec
lalgorithme kmeans est quun mdod fait partie des donnes et permet donc
de partitionner des matrices de dissimilarits. En contre-partie, il est limit par
le nombre dobservations (matrice de dissimilarits stocker) et en temps de
calcul (algorithme en O(n2 )). Il fonctionne de manire analogue celui de
Mac Queen. chaque itration, un mdod est mis en concurrence avec un
autre individu alatoire. Si lchange amliore le critre, cet individu devient
le nouveau mdod.

Convergence Le critre (la variance interclasses) est major par la variance


totale. Il est simple de montrer quil ne peut que crotre chaque tape de
lalgorithme, ce qui en assure la convergence. Il est quivalent de maximiser la variance interclasses ou de minimiser la variance intraclasse. Cette
dernire est alors dcroissante et minore par 0. Concrtement, une dizaine ditrations suffit gnralement pour atteindre la convergence.
Dautres algorithmes ont t proposs pour des types de donnes spOptimum local La solution obtenue est un optimum local, cest--dire que la cifiques : k-modes (Huang, 1998)[5] pour des variables qualitatives et krpartition en classes dpend du choix initial des noyaux. Plusieurs ex- prototypes pour des variables mixtes. Ils sont disponibles dans R.
cutions de lalgorithme permettent de sassurer de la prsence de formes
La classification des villes par partitionnement autour de mdods est fournie
fortes, cest--dire de classes, ou partie de classes, prsentes de manire
dans la figure 4.4 ; le nombre de classes est fix a priori 5 comme le suggre
stable dans la majorit des partitions obtenues.
la CAH alors que les classes obtenues sont sensiblement diffrentes.

4.4

Variantes

4.5

kmeans
Toujours sous la mme appellation (une option de la commande kmeans
de R) Mac Queen (1967)[7] a propos une modification de lalgorithme prcdent. Les noyaux des classes, ici les barycentres des classes concernes, sont
recalculs chaque allocation dun individu une classe. Lalgorithme est ainsi
plus efficace, mais la solution dpend de lordre des individus dans le fichier.

Combinaison

Chaque mthode prcdente peut tre plus ou moins adapte la situation


rencontre. La classification hirarchique, qui construit ncessairement la matrice des distances, naccepte quun nombre limit dindividus ; de son ct,
la r-allocation dynamique ncessite de fixer a priori le nombre de classes.
La stratgie suivante, adapte aux grands ensembles de donnes, permet de
contourner ces difficults.

Page 88 sur 104

06/14

10

Classification non supervise

1. Excuter une mthode de r-allocation dynamique en demandant un


grand nombre de classes, de lordre de 10% de n.
2. Sur les barycentres des classes prcdentes, excuter une classification
hirarchique puis dterminer un nombre optimal k de classes.
3. Excuter une mthode de r-allocation dynamique sur tout lensemble
en fixant k le nombre de classes. Pour initialiser lalgorithme, il est
habituel de choisir pour noyaux les barycentres (calculs en pondrant
par les effectifs de classes) des classes de ltape prcdente.

hend

bres

400

lour

laba
nant rennstma

bord roya
toul

200

ando

limo

cher
poit ange
lema caen
tour

clem

cp2

perp
bour

pari

200

mont

nice

troy

lyon

mars
gren

leha
roue

orle

dijo

boul
amie
cala
lill

reim
brux

Donnes gnomiques

Pour ce type de donnes, les biologistes apprcient particulirement de


construire une double classification hirarchique oprant la fois sur les lignes
et sur les colonnes (gnes et chantillons). Une reprsentation en fausses couleurs fournit une lecture susceptible de prendre en compte les distances
respectives des lignes (gnes) dune part et des colonnes (chantillons biologiques) dautre part, et de se faire ainsi une ide des gnes pouvant influencer
la hirarchie obtenue pour les chantillons. Nanmoins, cette lecture, mme en
se limitant une slection des gnes, nest pas trs aise (figure 5).

400

Le choix de la distance est videmment important. La plus frquemment


rencontre pour ltude du transcriptome est du type de d3 , base sur la corrlation. Il nous semble pertinent dutiliser les trois types de distances et den apmulh
bale
stra
prcier leur complmentarit quant linterprtation des rsultats. Nous avons
fait le choix de limiter cette comparaison des distances au MDS et nous nous
800
600
400
200
0
200
400
contenterons ici de prsenter une classification base sur la distance euclidienne d1 . Le deuxime choix intervenant en classification concerne le critre
cp1
dagglomration, cest--dire la faon dont est dfinie la distance entre deux
groupes, et na pas dinterprtation biologique simple. Ce choix a plus une imF IGURE 4 Villes : Reprsentation des classes (couleurs) obtenues par PAM plication gomtrique, sur la forme des classes obtenues. Nous avons utilis
le critre de Ward parce quil favorise la construction de classes relativement
dans les coordonnes du MDS.
sphriques et quon peut lui associer des critres guidant la dtermination du
nombre de classes.
gene
cham

besa

nanc
metz
luxe

Linterprtation de la double classification (Fig. 5) prsente des analogies


avec celle de lACP sur le premier plan principal. Si lon sintresse aux
individus-souris, on peut constater que les deux gnotypes sont diffrencis
Page 89 sur 104

06/14

Classification non supervise

8
6
0

Valeurs propres

10

12

14

11

10

Dimension

SR.BI
Ntcp
CAR1
PAL
c.fos
TRb
VLDLr
RARa
SIAT4c
i.NOS
CYP2b13
eif2g
ADSS1
FAT
UCP2
CYP2b10
NGFiB
CYP26
RARb2
CYP27b1
CYP24
UCP3
RXRg1
Lpin3
i.BAT
GS
PON
COX2
NURR1
M.CPT1
PXR
MS
VDR
PDK4
ACOTH
RXRa
MCAD
CIDEA
OCTN2
ACC1
PPARg
FXR
MDR1
Waf1
apoC3
SHP1
TRa
i.BABP
C16SR
X36b4
COX1
Bcl.3
LXRa
LXRb
LPL
hABC1
ADISP
RXRb2
MTHFR
ap2
CYP7a
mABC1
IL.2
Pex11a
ACAT1
THB
PPARd
CYP4A10
CYP4A14
CYP3A11
L.FABP
THIOL
PMDCI
GSTmu
GSTpi2
CYP2c29
G6Pase
S14
Lpin1
Lpin
FAS
HMGCoAred
PLTP
LDLr
FDFT
G6PDH
ACC2
PPARa
i.FABP
LPK
cHMGCoAS
CYP8b1
CPT2
CACP
PECI
ALDH3
mHMGCoAS
BIEN
GK
GSTa
HPNCL
Lpin2
AOX
ACBP
CBS
SPI1.1
apoA.I
MDR2
CYP27a1
BSEP
BACT
Tpbeta
Tpalpha
MRP6
cMOAT
LCE
apoB
AM2R
apoE

PPAR efad
PPAR efad
PPAR ref
WT efad
WT efad
WT efad
WT dha
WT dha
WT dha
WT dha
WT tsol
WT tsol
WT lin
WT lin
WT lin
WT lin
WT ref
WT ref
WT tsol
WT efad
WT tsol
WT ref
WT ref
PPAR tsol
PPAR tsol
PPAR lin
PPAR lin
PPAR ref
PPAR lin
PPAR dha
PPAR lin
PPAR ref
PPAR tsol
PPAR tsol
PPAR efad
PPAR efad
PPAR dha
PPAR dha
PPAR dha
PPAR ref

F IGURE 6 Souris : boulis des valeurs propres pour le MDS de la matrice de


distance euclidienne inter-gnes.
en deux groupes, lexception de trois souris de type PPAR ayant suivi les
rgimes efad (pour deux dentre elles) et ref. Pour les variables-gnes,
on peut distinguer deux grandes classes correspondant, daprs les donnes,
deux niveaux dexpressions : gauche, les gnes dont lexpression est
relativement faible, droite les gnes dont lexpression est globalement
plus leve. Dans cette seconde classe, un groupe attire particulirement
lattention sur limage : sur une bande verticale correspondant 14 gnes,
les couleurs sont nettement plus variables que sur le reste de limage.
Il sagit des gnes : CYP4A10, CYP4A14, CYP3A11, L.FABP,
THIOL, PMDCI, S14, Lpin1, Lpin, FAS, GSTmu, GSTpi2,
CYP2c29, G6Pase.

F IGURE 5 Souris : double classification ascendante hirarchique des


MDS et classification apparaissent donc comme des techniques complmenindividus-souris et des variables-gnes selon la mthode de Ward, avec la dis- taires, mais elles ne sont pas sensibles de la mme faon aux perturbations. La
tance euclidienne.
perturbation dune donne peut fortement influencer la structure dun dendrogramme alors quen MDS, la prise en compte conjointe de toutes les distances
deux deux assure une certaine robustesse pour le calcul des coordonnes
principales. Pour cette raison, il est utile de reprsenter les classes dans une
projection sur des axes factoriels obtenus soit par MDS soit par ACP. Lboulis des valeurs propres (Fig. 6) nous oriente vers une reprsentation du MDS
en deux dimensions.
La reprsentation de la figure 7 est analogue celle dj prsente en application du MDS. Elle est simplement complte par un codage en couleurs
Page 90 sur 104

06/14

12

Classification non supervise

1.0

des gnes, selon leur appartenance une classe issue de la classification hirarchique. Pour cela, nous avons coup larbre afin den extraire 5 classes.

0.5

CYP4A14

CYP3A11
CYP4A10
GSTpi2

CYP2c29

MCAD
ACOTH
PECI
THB
Pex11a
mHMGCoAS
GSTmu
Tpalpha
M.CPT1
LCE
PON
apoB
RXRa
IL.2
apoE
RXRb2
Tpbeta
VLDLr
LXRb
FXR
CACP
G6Pase
ACAT1
PPARg
GS
LPL
SIAT4c
PPARa
PXR
C16SR
MTHFR
AOX
SPI1.1AM2R
PPARd
X36b4
ADISP
SHP1
OCTN2
MDR1
CIDEA
i.BABP
BIEN
Lpin3
i.BAT
RARa
NURR1
TRa
Bcl.3
ap2
COX2
LXRa
cMOAT
hABC1
CPT2
CBS
CYP27b1
MS
UCP3
CYP26
RXRg1
TRb
CYP2b13
ADSS1
i.NOS
SR.BI
c.fos
CYP7a
ALDH3
COX1
BACT
VDR
CYP2b10
MDR2
PDK4
mABC1
ACC1
Waf1
MRP6
NGFiB
apoC3
UCP2
eif2g
CYP24
FATNtcp
RARb2
FDFT
ACAT2
CYP27a1
HPNCL
BSEP
THIOL
i.FABP
GSTa
ACBP
G6PDH
L.FABP
apoA.I
PAL
Lpin2 PLTP
LDLr
CYP8b1
LPK
GK

0.0
0.5

Dimension 2

PMDCI

HMGCoAred
ACC2
cHMGCoAS
Lpin1
Lpin

CAR1

Brivement, on peut noter que laxe 1 met en vidence lopposition prcdemment voque entre CAR1 (sur-exprim chez les souris PPAR) et
un groupe de gnes (CYP3A10, CYP4A10, CYP4A14, PMDCI, THIOL et
L-FABP) qui est sur-exprim chez les souris WT. De manire similaire, laxe 2
oppose les gnes induits par le rgime dha (valeurs positives, gnes impliqus
dans le catabolisme des lipides et dans le mtabolisme des xnobiotiques) aux
gnes induits par le rgime efad (valeurs ngatives, gnes principalement impliqus dans la synthse de lipides). En remontant vers les feuilles de larbre de
classification, on notera que le groupe des gnes reprsents en vert est spar
en deux sous-groupes qui conservent une cohrence vis--vis des fonctions
biologiques de catabolisme et de synthse des lipides respectivement. Une observation des donnes individuelles rvle que ces rgulations opres par les
rgimes semblent plus marques chez les souris WT.
Nous laissons au lecteur lapprciation sur le nombre de combinaisons doptions possibles qui sont offertes par lensemble de ces outils : centrage, rduction, distance, critre de saut, projection, classification !

1.0

En guise de conclusion

S14

Quelle mthode ou combinaison de mthodes associes quelles options


faut-il choisir et sur quel critre ? Rponse, celle et ceux qui fournissent des
rsultats les plus utiles. Les techniques mises en uvre sont fondamentalement exploratoires, pas confirmatoires ni dcisionnelles. Un rsultat utile
1.0
0.5
0.0
0.5
1.0
fournit de nouveaux clairages, un point de vue fructueux sur des donnes
Dimension 1
complexes et ainsi une meilleure comprhension des interactions en jeu. Cest
une tape pralable la construction de futures modlisations et dinfrences
F IGURE 7 Souris : reprsentation par positionnement multidimensionnel qui seront confirmer. Ainsi, associer au sein dune mme classe, des gnes
(distance euclidienne) des 5 groupes issues de la classification hirarchique de fonctions inconnues dautres de fonctions connues est une stratgie frquente du biologiste pour poser des hypothses sur lannotation de ces gnes,
des gnes.
hypothses infirmer ou confirmer par de nouvelles expriences.
FAS

Attention, la pertinence des rsultats et la fiabilit des interprtations reposent sur une juste connaissance des mthodes, des options, des hypothses
sous-jacentes ces mthodes : comment interprter une proximit, au sens de
Page 91 sur 104

06/14

13

Classification non supervise

quelle distance avec quelle confiance ? sinon, lorientation du travail pour poser de nouvelles hypothses risque de se fourvoyer ou au mieux adopter une
marche alatoire (cf. devise Schadok) :
...en essayant continuellement on finit par russir donc, plus a rate,
plus on a de chance que a marche...

Rfrences
[1] G. Celeux, E. Diday, G. Govaert, Y. Lechevallier et H. Ralambondrainy, Classification automatique des donnes, Dunod,
1989.
[2] E. Diday, The dynamic clusters method in nonhierarchical
clustering, International Journal of Computer & Information
Sciences 2 (1973), no 1, 6188.
[3] R. Forgy, Cluster Analysis of Multivariate Data : Efficiency versus Interpretability of Classification, Biometrics (1965), no 21,
768769.
[4] J. A. Hartigan et M. A. Wong, Algorithm AS 136 : a k-means
clustering algorithm, Applied Statistics 28 (1979), 100108.
[5] Zhexue Huang, Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values, Data Min. Knowl.
Discov. 2 (1998), no 3, 283304.
[6] Leonard Kaufman et Peter J. Rousseeuw, Finding Groups in
Data An Introduction to Cluster Analysis, John Wiley & Sons,
1990.
[7] J. Macqueen, Some methods for classification and analysis of
multivariate observations, In 5-th Berkeley Symposium on Mathematical Statistics and Probability, 1967, p. 281297.
[8] Peter J. Rousseeuw, Silhouettes : A graphical aid to the interpretation and validation of cluster analysis, Journal of Computational and Applied Mathematics 20 (1987), no 0, 53 65.
[9] Robert Tibshirani, Guenther Walther et Trevor Hastie, Estimating the number of clusters in a data set via the gap statistic,
Journal of the Royal Statistical Society : Series B (Statistical
Methodology) 63 (2001), no 2, 411423.
Page 92 sur 104

06/14

NMF Factorisation par matrices non


ngatives
Rsum
Rduction de dimension par factorisation dune matrice creuse sous
contrainte de non ngativit des facteurs. Contrairement lACP
les facteurs ne sont pas orthogonaux et ne permettent pas de reprsentation mais, rduisant la dimension ils permettent classifications
non supervises et modles de prvision. Description sommaire des
nombreuses options de ces algorithmes principalement conues pour
lanalyse des trs grandes matrices du e-commerce, text mining...
Retour au plan du cours.

Introduction

Le principe de la factorisation X = UV0 dune matrice est largement utilis


en analyse en composantes principales qui utilise la dcomposition en valeurs
singulires de la matrice X (SVD) pour construire des facteurs orthogonaux
deux deux. Paatero et Tapper (1994)[5] puis Lee et Seung (1999)[4] ont propos une autre dcomposition sans contrainte dorthogonalit mais avec celle
de non ngativit des matrices des facteurs afin den simplifier linterprtation et sur la base dune motivation neuronale : les neurones ne fonctionnent
que de faon additive, pas soustractive. Cette technique a depuis t depuis
largement utilis dans de trs nombreux domaines : imagerie, reconnaissance
de formes, fouille de textes, systmes de recommandations, gnomique, avec
pour objectif dtudier la structure des trs grandes matrices creuses. La bibliographie sest donc largement dveloppe autour de ce thme en proposant diffrentes versions de lalgorithme avec diffrentes initialisations et contraintes,
par exemple de parcimonie, dont certaines paralllisables, et tout un ensemble
dapplications.

NMF Factorisation par matrices non ngatives

taines situations que la SVD mais cela a un prix ; la complexit algorithmique


de la SVD est polynomiale de lordre du produit n p des dimensions de la
matrice. La complexit de la NMF est un problme nondeterministic polynomial - NP ; lexistence dun algortihme de complexit polynomiale est inconnue. En revanche, il existe des approches itratives efficaces mais convergeant
vers une solution locale sauf dans des cas trs spcifiques (Donoho et Stodden,
2003)[2] ; contrairement la SVD qui conduit une solution unique (vecteurs
propres et valeurs propres dune matrice).
Par ailleurs, les facteurs non orthogonaux ne permettent pas de reprsentation comme en ACP mais sont utiliss comme base dune classification non
supervise ou pralable une modlisation pour de lapprentissage supervise.
Lee et Seung (1999) illustre cette mthode sur la classification dun corpus de 30991 articles de lencyclopdie Grolier. Plutt que de classer ces articles par thmes choisis a priori, ils sont classs sur la base dun vocabulaire de 15276 mots. chaque article se dcompose (coefficients positifs), en
principe parcimonieusement, sur des facteurs ou thmes, eux-mmes dfinis
chacun par un sous-ensemble petit, jug pertinent, de ces mots. En traitement dimages, un corpus se classifie partir de facteurs ou motifs lmentaires dimages, en gnomique par rapport des mtagnes. Lapproche non
supervise est ainsi susceptible de rvler des structures caches ou des tendances sans a priori. Par ailleurs, les facteurs de dcomposition ntant pas
orthogonaux, des superpositions apparaissent : des mme mots participants
plusieurs thmes, des gnes plusieurs fonctions...

NMF : mthode et implmentations

La description prsente de la mthode de NMF ne se veut pas exhaustive ;


elle est axe sur limplmentation ralise dans le package ponyme par Gaujoux et Seoighe (2010)[3] afin den prciser les options et critres mis en
uvre.

2.1

Principes

Soit X une matrice (n p) ne contenant que des valeurs non ngatives et


La NMF est donc une technique de rduction de dimension adapte aux ma- sans ligne ou colonne ne comportant que des 0 ; r un entier choisi relativement
trices creuses contenant des donnes positives, par exemple des occurrences ou petit devant n et p.
dnombrements de mots, de pannes... La mthode est donc plus adapte cerPage 93 sur 104

06/14

NMF Factorisation par matrices non ngatives

La factorisation non-ngative de la matrice X est la recherche de deux maUne fois la factorisation construite il est ensuite facile dutiliser ces matrices Wnr et Hrp ne contenant que des valeurs positives ou nulles et dont trices W et H pour construire des classifications (CAH, k-means), reprsenle produit approche X.
tations (ACP, MDS), et prvisions laide dune des nombreuses mthodes
dapprentissage.
X WH.
Le choix du rang de factorisation r << min(n, p) assure une rduction dras- 2.2 Algorithmes
tique de dimension et donc des reprsentations parcimonieuses. videmment,
De nombreuses variantes algorithmiques ou sur la forme des pnalisala qualit dapproximation dpend de la parcimonie de la matrice initiale.
tions ont t publies et implmentes gnralement en Matlab, parfois en C,
La factorisation est rsolue par la recherche dun optimum local du problme quelques unes spcifiques en R ; Berry et al. (2007)[1] proposent un tour dhodoptimisation :
rizon de certaines tandis que Gaujoux et Seoighe (2010) en ont implmentes
min [L(X, WH) + P (W, H)] .
dans R pour rendre facilement possible la comparaison des rsultats. Trois faW,H0
milles dalgorithmes sont gnralement cites :
L est une fonction perte mesurant la qualit dapproximation et P une fonction
Standard NMF algorithm with multiplicative update,
de pnalisation optionnelle ; L est gnralement soit un critre de moindres
Alternate Least Square (ALS) algorithm,
carrs (LS ou norme de Frobenius des matrices ou norme trace), soit la di Descente du gradient.
vergence de Kullback-Leibler (KL) ; P est une pnalisation optionnelle de r- Chacun de ces algorithmes peut par ailleurs tre initialis de diffrentes fagularisation utilise pour forcer les proprits recherches des matrices W et ons :
H, par exemple, la parcimonie des matrices ou la rgularit des solutions dans
plusieurs initialisations alatoires de W et H, le meilleur ajustement est
le cas de donnes spectrales.
conserv,
X

non-negative double singular value decomposition (NNSVD),


LS : L(A, B) = tr ((A B)(A B)0 ) =
(ai,j bi,j )2 ,
une classification (k-means) des lignes ou des colonnes,
i,j
parts positives de matrices issues dune analyse en composantes indpenX
ai,j
dantes (ACI),
KL : L(A, B) = KL(A||B) =
ai,j log(
) ai,j + bi,j .
bi,j
...
i,j
Entre le choix de la fonction objectif : fonction perte (LS ou KL) et lventuelle
Dans la librairie NMF de R, construite surtout pour des applications en g- pnalisation (L1 , L2 , rgularit), le choix de lalgorithme ou dune de ses vanomiques, les variables (features) sont en ligne et les individus / chantillons riantes, le choix de linitialisation... cela fait beaucoup doptions comparer,
(samples) sont en colonnes. Ceci na pas dimportance lorsque le critre des tester. Comme toujours avec une nouvelle mthode et la pression de publicamoindres carrs est utilis (LS), la rsolution est invariante par transposition tion, de trs nombreuses variants apparaissent avant quune slection naturelmais a du sens avec la divergence de Kullback-Leibler qui introduit une dissy- le nopre pour aboutir des choix plus efficaces et consensuels doptions en
fonction du type de donnes traites.
mtrie entre lignes et colonnes.
Berry et al. (2007)[1] dcrivent trs brivement les principes de ces diffN.B. Non seulement la solution est locale car la fonction objectif nest pas
convexe en W et H mais en plus la solution nest pas unique. Toute matrice rents algorithmes et commentent leurs proprits : convergence, complexit.
Drr non ngative et inversible fournit des solutions quivalentes en terme
Lalgorithme initial de Lee et Seung (1999)[4] (Multiplicative update algodajustement :
rithms) peut converger vers un point stationnaire pas ncessairement minima
X WDD1 H.
Page 94 sur 104

06/14

local, voire un point de la frontire mme pas point stationnaire. Ces cas sont
heureusement rares en pratique mais la convergence est considre comme
lente, demandant plus ditrations que ses concurrents alors que chaque itration ncessite de nombreux calculs (O(n3 )). Les algorithmes de descente du
gradient posent des questions dlicates concernant le choix des deux pas de
descente. La dernire famille dalgorithme : moindres carrs alterns (ALS),
exploite le fait que si le problme nest pas convexe en la fois W et H, il
lest soit en W soit en H. Il suit le principe ci-dessous et possde de bonnes
proprits (convergence, complexit).
A LGORITHME 1 : ALS
W =random(n, r)
for i = 1 Maxiter do
Rsoudre en H : W0 WH = W0 X
Mettre 0 les termes ngatifs de H
Rsoudre en W : HH0 W0 = HX0
Mettre 0 les termes ngatifs de W
end for

NMF Factorisation par matrices non ngatives

intervenir au cours dune tude. Ceux-ci sont illustrs dans la section suivante
sur un jeu de donnes publiques. Un premier tableau (1) fournit des :
rsidus, part de variance explique, indice de parcimonie (sparseness),
pour valuer la qualit de lajustement,
coefficient de corrlation cophntique, puret, entropie ou silhouette
pour valuer la stabilit sur plusieurs excutions.
Lvaluation de la stabilit de plusieurs excutions de NMF repose sur
des critres (silhouette, consensus, corrlation cophntique) issues des mthodes de classification non supervise. Pour adapter ces critres la NMF, la
notion de classe dune observation (resp. dune variable) est remplace par la
recherche du facteur, ou lment de la base (colonne de W resp. de H), pour
laquelle lobservation (resp. la variable) a obtenu la plus forte contribution.
Comme pour le choix dune dimension, dun nombre de classes, seules des
heuristiques sont proposes dans la littrature pour le difficile choix de r pour
lequel il ny a pas de critre nettement tranch. Cest finalement linterprtation, biologique ou autre, qui oriente le choix en sous main, ou encore cidessous la relative stabilit dune classification non-supervise.

2.4

Graphiques

La librairie NMF propose tout un ensemble de graphiques intgrant chacun


Lun des inconvnients du (Multiplicative update algorithms) originel est que
une plthore doptions quil serait fastidieux de dcrire exhaustivement ; se
si un lment des matrices W ou H prend la valeur 0, il reste cette valeur,
reporter la documentation en ligne et larticle de rfrence (Gaujoux et
nexplorant ainsi pas de solutions alternatives. LALS est lui plus souple en
Seoighe, 2010)[3]. Leur prsentation est largement inspire des habitudes de
permettant dchapper de mauvaises solutions locales.
la bioinformatique qui mettent en avant des graphes de type heatmap.
La librairie NMF de R implmente 11 mthodes ; 9 sont bases sur lalgoDes premiers graphiques, non reprsents sur lexemple mais quil est facile
rithme initial de Lee et Seung (1999)[4] (Multiplicative update algorithms)
dobtenir en excutant le scnario, visualisent les valeurs (heatmap) positives
avec diffrentes options de perte (LS, KL) et de pnalisation ou darrt, deux
ou nulles des matrices W (resp. H) de la dcomposition. Par dfaut une classont bases sur les moindres carrs alterns (ALS) avec contrainte de parcisification ascendante hirarchique (mtrique euclidienne, average linkage) des
monie sur les lignes ou les colonnes. Systmatiquement, loption est offerte, et
lignes (resp. colonnes) est associe. Il est videmment possible de modifier ces
encourage, de lancer plusieurs excutions partir de plusieurs initialisations
options par dfaut ou dintgrer les rsultats dune classification excute par
alatoires pour slectionner les options optimales puis, une fois les choix
ailleurs.
oprs, pour retenir la meilleure parmi un ensemble dexcutions.
Des consensus maps sont proposes pour aider au choix de la mthode (fi2.3 Critres de choix
gure 1) et au choix de la dimension (figure 3). Attention, ces graphiques sont
construits sur les colonnes (variables ou features) de la matrice X et dpendent
Les auteurs proposent diffrents critres pour aider aux choix des mthodes,
du choix initial de dcomposer la matrice ou de sa transpose. Ces graphiques
algorithmes et paramtres, notamment celui du rang r de factorisation, pouvant
Page 95 sur 104

06/14

NMF Factorisation par matrices non ngatives

montrent si, au cours de plusieurs excutions de lalgorithme pour diffrentes


mthodes ou pour diffrentes valeurs du rang r, les mmes variables sont au
mieux reprsentes par le mme facteur. Cest donc une information sur la
stabilit de loptimisation obtenue par diffrentes initialisations.

TABLE 1 Critres pour chacune des mthodes testes.


Mthode
brunet
lee
snmf/l snmf/r
sparseness basis
0.42
0.38
0.39
0.38
sparseness coef
0.87
0.74
0.69
0.74
silhouette coef
0.88
0.73
0.78
0.82
silhouette basis
0.57
0.62
0.51
0.39
residuals
23.k
5.4k
5.6k
5.6k
niter
510
2000
380
460
cophenetic
0.90
0.97
1.00
1.00
dispersion
0.67
0.82
1.00
0.97
silhouette consensus
0.50
0.84
0.98
0.95

Les mmes indicateurs, que ceux prsents dans un tableau (1) pour le choix
de la mthode, sont dclins dans des graphiques (figure 2) avec le rang r des
matrices en abscisse.
Enfin, un dernier graphique (figure 4) trace une heatmap reprsentant les
valeurs de la matrice initiale X dans laquelle les lignes et colonnes sont rorganises par double classification ascendante hirarchique. Ces classifications
sont construites sur les matrices en utilisant par dfaut la distance euclidienne
et le critre de saut moyen.

3
3.1

Exemple
Les donnes

Lillustration de la factorisation non ngative dune matrice utilise les donnes dcrites dans le scnario explorant les spcificits dun corpus de pourriels. Elles se prsentent sous une forme classique en fouille de texte dun tableau avec en lignes des messages et en colonnes des nombres ou taux doccurrences de mots ou caractres spcifiques. La nature des donnes : matrice trs
creuse pouvant prsenter des valeurs trs disparates rend les techniques factorielles habituelles (ACP, AFCM) peu adaptes. Le principal objectif sur ces
donnes est de prvoir le statut spam ou non spam dun message en fonction
de son contenu et cest lobjet dun autre scnario. Il sagit, dans un premier
temps de les dcrire, par exemple, en reprsentant et classifiant les principaux
mots clefs.

Ce choix tant arrt, les figures 2 et 3 conduisent de faon consensuelle au


choix de r = 5 : corrlation cophntique de 1 avant dcroissance et meilleur
graphique de consensus.
La dernire reprsentation ncessite videmment dtre agrandie pour tre
mieux interprte. Il est nanmoins facile didentifier les principaux critres
(nombre de lettre capitales ;...) regroups dans une mme classe et correspondant simultanment une classes de pourriels. En revanche le mot-clef georges, qui est le prnom du destinataire, est isol et caractrise des courriels
correctes. Une analyse plus fine permettrait didentifier le rle dautres classes
de mots.

Rfrences

[1] Michael W. Berry, Murray Browne, Amy N. Langville, V. Paul Pauca et


Robert J. Plemmons, Algorithms and applications for approximate nonnegative matrix factorization, Computational Statistics & Data Analysis 52
La mthode (critre et algorithme) optimale est choisie en consultant le
(2007), no 1, 155 173.
tableau 1 et les graphiques de la figure method. Sur ces donnes, il nest pas
difficile de se dterminer pour une mthode de moindres carrs (snmf/l) [2] David Donoho et Victoria Stodden, When Does Non-Negative Matrix Facconvergeant plus rapidement et prsentant des valeurs optimales (cophenetic,
torization Give a Correct Decomposition into Parts ?, Advances in Neural
residuals,...) ainsi que la meilleure stabilit sur plusieurs excutions.
Information Processing Systems 16 (S. Thrun, L.K. Saul et B. Schlkopf,
rds.), MIT Press, 2004, p. 11411148.

3.2

Choix de mthode, de rang

Page 96 sur 104

06/14

NMF Factorisation par matrices non ngatives

F IGURE 1 Spam : Matrice de confusion pour chaque mthode de la factorisation par NMF.
[3] Renaud Gaujoux et Cathal Seoighe, A flexible R package for nonnegative
matrix factorization, BMC Bioinformatics 11 (2010), no 1, 367, http:
//www.biomedcentral.com/1471-2105/11/367.
[4] D. Lee et S. Seung, Learning the parts of objects by non-negative matrix
factorization, Nature (1999).
[5] Pentti Paatero et Unto Tapper, Positive matrix factorization : A nonnegative factor model with optimal utilization of error estimates of data
values, Environmetrics 5 (1994), no 2, 111126.
F IGURE 2 Spam : volution des diffrents critres en fonction du rang des
matrices de la factorisation par NMF.

Page 97 sur 104

06/14

NMF Factorisation par matrices non ngatives

F IGURE 4 Spam : Double classification selon les facteurs de la factorisation


F IGURE 3 Spam : Matrice de confusion pour chaque valeur de rang des
par NMF et reprsentation de la matrice creuse initiale ; les message sont en
matrices de la factorisation par NMF.
lignes, les mots clefs en colonnes.

Page 98 sur 104

06/14

Rappels et complments dalgbre


linaire

Rappels et complments dalgbre linaire

On note par la suite :


aji
ai

=
=

[A]ji le terme gnral de la matrice,


[a1i , . . . , api ]0 un vecteur-ligne mis en colonne,

aj

[aj1 , . . . , ajn ]0 un vecteur-colonne.

Rsum
2.1.1

Types de matrices

Cette vignette rassemble des notations et rappels dalgbre linaire


de niveau L. Il introduit les principaux thormes dapproximation
matricielle par dcomposition en valeurs singulires qui sont la
base des mthodes statistique factorielles.

Une matrice est dite :


vecteur-ligne (colonne) si n = 1 (p = 1),
vecteur-unit dordre p si elle vaut 1p = [1, . . . , 1]0 ,
scalaire si n = 1 et p = 1,

carre si n = p.
Retour au plan du cours.
Une matrice carre est dite : 
0 si i 6= j
j
j
identit (Ip ) si ai = i =
,
1 Notations
1 si i = j
j
diagonale si ai = 0 lorsque i 6= j,
Dans tout ce qui suit, E et F sont deux espaces vectoriels rels munis resj
symtrique si ai = aij , (i, j),
pectivement des bases canoniques E = {ej ; j = 1, . . . , p} et F = {fi ; i =
j
triangulaire suprieure (infrieure) si ai = 0 lorsque i > j (i < j).
1, . . . , n}. On note indiffremment soit un vecteur de E ou de F , un endomorphisme de E, ou une application linaire de E dans F , soit leurs reprsenta2.1.2 Matrice partitionne en blocs
tions matricielles dans les bases dfinies ci-dessus.
Matrices dont les lments sont eux-mmes des matrices. Exemple :


2 Matrices
A21 (r (p s))
A11 (r s)
.
A(n p) =
A12 ((n r) s) A22 ((n r) (p s))

2.1

Notations

La matrice dordre (n p) associe une application linaire de E dans F


est dcrite par un tableau :

2.2

Oprations sur les matrices

Somme : [A + B]ji = aji + bji pour A et B de mme ordre (n p).


Multiplication par un scalaire : [A]ji = aji pour R.

a11
..
.

1
A=
ai
.
..
a1n

...

aj1
..
.

...

...

aji

...

...

..
.
ajn

...

ap1
..
.

api
.
..
.
apn

Transposition : [A0 ]ji = aij , A0 est dordre (p n).


(A0 )0 = A ; (A + B)0 = A0 + B0 ; (AB)0 = B0 A0 ;
 1
0  10
0 
A1 A21
A1 A12
=
.
0
0
A12 A22
A21 A22
Page 99 sur 104

06/14

Pn

Produit scalaire lmentaire : a0 b =


colonnes.

i=1

ai bi o a et b sont des vecteurs- 2.3.2

Produit : [AB]ji = a0i bj avec A(np) , B(pq) et AB(nq) , et pour des matrices par blocs :


A11
A12

A21
A22



B11
B12

B21
B22


=

Rappels et complments dalgbre linaire

A11 B11 + A21 B12


A12 B11 + A22 B12

A11 B21 + A21 B22


A12 B21 + A22 B22

On note |A| le dterminant de la matrice carre A (p p). Il vrifie :


|A| =
|A|
|AB|


A B


0 C
1

A1 A21
1

A2 A22

Proprits des matrices carres

La trace et le dterminant sont des notions intrinsques, qui ne dpendent


pas des bases de reprsentation choisies, mais uniquement de lapplication linaire sous-jacente.
2.3.1

Trace

Par dfinition, si A est une matrice (p p),


trA =

p
X

ajj ,

j=1

tr
trA
tr(A + B)
trAB

trCC0

=
=
=
=

,
trA,
trA + trB,
trBA,
reste vrai si A est (n p) et si B est (p n)
p
n X
X
= trC0 C =
(cji )2
i=1 j=1

dans ce cas, C est (n p).

ajj , si A est triangulaire ou diagonale,

= |A|,
= |A||B|,
= |A||C|,
= |A11 ||A22 A12 (A11 )1 A21 |

(1)

= |A22 ||A11 A21 (A22 )1 A12 |,


sous rserve de la rgularit de A11 et A22 .

(2)

Cette dernire proprit se montre en considrant les matrices :




I A21 (A22 )1
et BAB0 ,
B=
0
I
puis en comparant les dterminants |BAB0 | et |A|.
2.3.3

et il est facile de montrer :

p
Y
j=1
p

sous rserve de compatibilit des dimensions.

2.3

Dterminant

Inverse

Linverse de A, lorsquelle existe, est la matrice unique note A1 telle


que :
AA1 = A1 A = I ;
elle existe si et seulement si |A| 6= 0. Quelques proprits :
(A1 )0 = (A0 )1 ,
2.3.4

(AB)1 = B1 A1 ,

|A1 | =

1
.
|A|

Dfinitions

Une matrice carre A est dite :


symtrique si A0 = A,
Page 100 sur 104

06/14

Rappels et complments dalgbre linaire

singulire si |A| = 0,
rgulire si |A| 6= 0,

rang(A)
=
dim(Im(A)),
0 rang(A) min(n, p),
rang(A)
=
rang(A0 ),
rang(A + B)

rang(A) + rang(B),
rang(AB)

min(rang(A), rang(B)),
rang(BAC)
=
rang(A), si B et C sont rgulires,
rang(A)
=
rang(AA0 ) = rang(A0 A).

idempotente si AA = A,
dfinie-positive si, x Rp , x0 Ax 0, et si x0 Ax = 0 x = 0,
positive, ou semi-dfinie-positive, si, x Rp , x0 Ax 0,
orthogonale si AA0 = A0 A = I (A0 = A1 ).

Espaces euclidiens
E est un espace vectoriel rel de dimension p isomorphe Rp .

3.1

Enfin, si B (p q) est de rang q(q < p) et A est carre (p p) de rang p,


alors la matrice B0 AB est de rang q.

Sous-espaces

Un sous-ensemble Eq de E est un sous-espace vectoriel (s.e.v.) de E sil

3.3

Mtrique euclidienne

est non vide et stable :

Soit M une matrice carre (p p), symtrique, dfinie-positive ; M dfinit


sur lespace E :
un produit scalaire : hx, yiM = x0 My,
1/2
Le q-uple {x1 , . . . , xq } de E constitue un systme linairement indpen une norme : kxkM = hx, xiM ,
dant si et seulement si :
une distance : dM (x, y) = kx ykM ,
hx,yiM
q
X
.
des angles : cos M (x, y) = kxk kyk
M
M
i xi = 0 1 = = q = 0.
La matrice M tant donne, on dit que :
i=1
une matrice A est M-symtrique si (MA)0 = MA,
deux vecteurs x et y sont M-orthogonaux si hx, yiM = 0,
Un systme linairement indpendant Eq = {e1 , . . . , eq } qui engendre
un vecteur x est M-norm si kxkM = 1,
dans E un s.e.v. Eq = vec{e1 , . . . , eq } en constitue une base et
une base Eq = {e1 , . . . , eq } est M-orthonorme si
dim(Eq ) = card(Eq ) = q.
(x, y) Eq2 , R, (x + y) Eq .

3.2

(i, j), hei , ej iM = ij .

Rang dune matrice

Dans ce sous-paragraphe, A est la matrice dune application linaire de E = 3.4 Projection


R dans F = Rn .
Soit W un sous-espace de E et B = {b1 , . . . , bq } une base de W ; P(p p)
est une matrice de projection M-orthogonale sur W si et seulement si :
Im(A) = vect{a1 , . . . , ap } est le s.e.v. de F image de A ;
p

y E, Py W et hPy, y PyiM = 0.
Ker(A) = {x E ; Ax = 0} est le s.e.v. de E noyau de A ;
E = Im(A) Ker(A) si A est carre associe un endomorphisme deToute
E matrice idempotente (P2 = P) et M-symtrique (P0 M = MP) est
une matrice de projection M-orthogonale et rciproquement.
et p = dim(Im(A)) + dim(Ker(A)).
Page 101 sur 104

06/14

3.4.1

Rappels et complments dalgbre linaire

Proprits

T HORME 1. Soit deux matrices A(np) et B(pn) ; les valeurs propres


non
nulles de AB et BA sont identiques avec le mme degr de multiplicit.
Les valeurs propres de P sont 0 ou 1 (voir 4) :
Si u est vecteur propre de BA associ la valeur propre diffrente de zro,
u W,
Pu = u, = 1, de multiplicit dim(W ), alors v = Au est vecteur propre de la matrice AB associ la mme valeur
vW, (on note v W ) Pv = 0, = 0, de multiplicit dim(W ). propre.
trP = dim(W ).


P = B(B0 MB)1 B0 M, o B = b1 , . . . , bq .
Dans le cas particulier o les bj sont M-orthonorms :

P = BB0 M =

q
X

Les applications statistiques envisages dans ce cours ne sintressent qu


des types particuliers de matrices.
T HORME 2. Une matrice A relle symtrique admet p valeurs propres
relles. Ses vecteurs propres peuvent tre choisis pour constituer une base orthonorme de E ; A se dcompose en :

bj bj M.

i=1

Dans le cas particulier o q = 1 alors :

1
bb0
M=
bb0 M.
P= 0
b Mb
kbkM

A = VV =

p
X

k v k v k

k=1

Si P1 , . . . , Pq sont des matrices de projection M-orthogonales alors la

o V est une matrice orthogonale [v , . . . , vp ] des vecteurs propres orthonorsomme P1 + + Pq est une matrice de projection M-orthogonale si et ms associs aux valeurs propres k , ranges par ordre dcroissant dans la
seulement si : Pk Pj = kj Pj .
matrice diagonale .
La matrice I P est la matrice de projection M-orthogonale sur W .
T HORME 3. Une matrice A relle M-symtrique admet p valeurs
propres
relles. Ses vecteurs propres peuvent tre choisis pour constituer une
4 Elments propres
base M-orthonorme de E ; A se dcompose en :
Soit A une matrice carre (p p).
p
X
0
A = VV 0 M =
k vk vk M

4.1

Dfinitions

k=1

Par dfinition, un vecteur v dfinit une direction propre associe une

valeur propre si lon a :


Av = v.
Si est une valeur propre de A, le noyau Ker(A I) est un s.e.v. de

o V = [v1 , . . . , vp ] est une matrice M-orthogonale (V0 MV = Ip et VV0 =


M1 ) des vecteurs propres associs aux valeurs propres k , ranges par ordre
dcroissant dans la matrice diagonale .

E, appel sous-espace propre, dont la dimension est major par lordre


Les dcompositions ne sont pas uniques : pour une valeur propre simple
de multiplicit de . Comme cas particulier, Ker(A) est le sous-espace (de multiplicit 1) le vecteur propre norm est dfini un signe prs, tandis
propre associ, si elle existe, la valeur propre nulle.
que pour une valeur propre multiple, une infinit de bases M-orthonormes
Les valeurs propres dune matrice A sont les racines, avec leur multiplipeuvent tre extraites du sous-espace propre unique associ.
cit, du polynme caractristique :
Le rang de A est aussi le rang de la matrice associe et donc le nombre
|A I| = 0.
(rptes avec leurs multiplicits) de valeurs propres non nulles.
Page 102 sur 104

06/14

matrice (n p). Lensemble Mn,p des matrices (n p) est un espace vectoriel


de dimension np ; on le munit du produit scalaire :

Par dfinition, si A est positive, on note la racine carre de A :


A1/2 =

p
X

Rappels et complments dalgbre linaire

k vk vk M = V1/2 V0 M.

hX, YiM,D = trXMY0 D.

k=1

4.2

Proprits
h
Si k 6=Pj ,
p
trA = k=1 k ;
si A est rgulire,
si A est positive,
si A est dfinie-positive,

4.3

vk MQ
vj ;
p
|A| = k=1 k ;
k, k 6= 0 ;
p 0 ;
p > 0 ;

(4)

Dans le cas particulier o M = Ip et D = In , et en notant vec(X) =


i
0
0 0
x1 , . . . , xp la matrice vectorise, ce produit scalaire devient :
0

hX, YiIp ,In = trXY =

p
n X
X

xji yij = vec(X)0 vec(Y).

i=1 j=1

La norme associe ce produit scalaire (4) est appele norme trace :

Dcomposition en Valeurs Singulires (DVS)

= trXMX0 D,

= trXX0 = SSQ(X) =

kXkM,D

Il sagit, cette fois, de construire la dcomposition dune matrice X(n p)


rectangulaire relativement deux matrices symtriques et positives D(n n)
et M(p p).

kXkIp ,In

p
n X
X
(xji )2
i=1 j=1

T HORME 4. Une matrice X (n p) de rang r peut scrire :


X = U1/2 V0 =

r p
X

k uk vk ;

(SSQ signifie sum of squares).


(3)

k=1

La distance associe cette norme devient, dans le cas o D est une matrice
diagonale (D = diag(w1 , . . . , wn )), le critre usuel des moindres carrs :

U (n r) contient les vecteurs propres D-orthonorms (U0 DU = Ir ) de la


n
X
matrice D-symtrique positive XMX0 D associs aux r valeurs propres non
2
2
2
=
wi kxi yi kM .
d
(X,
Y)
=
kX

Yk
M,D
nulles k ranges par ordre dcroissant dans la matrice diagonale (r r) ;
i=1
V (p r) contient les vecteurs propres M-orthonorms (V0 MV = Ir ) de la
0
matrice M-symtrique positive X DXM associs aux mmes valeurs propres.
5.2 Approximation dune matrice
De plus,
1/2
1/2
0
U = XMV
et V = X DU
.
Les matrices X, M et D sont dfinies comme ci-dessus ; X est suppose
de rang r. On cherche la matrice Zq , de rang q infrieur r, qui soit la plus
5 Optimisation
proche possible de X.

5.1

Norme dune matrice

Lespace vectoriel E de dimension p (resp. F de dimension n) est muni


de sa base canonique et dune mtrique de matrice M (resp. D). Soit X une

T HORME 5. La solution du problme :


n
o
2
min kX ZkM,D ; Z Mn,p , rang(Z) = q < r

Page 103 sur 104

06/14

(5)

Rappels et complments dalgbre linaire

est donne par la somme des q premiers termes de la dcomposition en valeurs


singulires (3) de X :
Zq =

q
X
p
0
0
k uk vk = Uq 1/2
q Vq .
k=1

Le minimum atteint est :


2

kX Zq kM,D =

r
X

k .

k=q+1

Les matrices Uq , q et Vq contiennent les q premiers vecteurs et valeurs


propres donns par la DVS de X ; Zq est appele approximation de rang q de
X.
cq
Ce thorme peut se reformuler dune manire quivalente. On note P
cq ) la projection M-orthogonale sur Eq = Im(Vq ) (resp. D(resp. Q
orthogonale sur Fq = Im(Uq )) :
cq
P
cq
Q

q
X
k=1
q
X

vk vk M = Vq Vq0 M
0

uk uk D = Uq U0q D,

k=1

Zq

cq X = XP
cq .
= Q

P ROPOSITION 6. Avec les notations prcdentes :


n

cq = arg max XP0 2
P
q M,D ;
Pq

cq
Q

Pq projection M-orthogonale de rang q < r} ,


n
2
arg max kQq XkM,D ;
Qq

Qq projection D-orthogonale de rang q < r} .


Page 104 sur 104

06/14