DE
S TATISTIQUE ET P ROBABILIT E S
Data mining I
Exploration Statistique
A LAIN BACCINI & P HILIPPE B ESSE
Avant-propos
Motivations du data mining
Le developpement des moyens informatiques et de calcul permet le stockage (bases de donnees),
le traitement et lanalyse densembles de donnees tr`es volumineux. Plus recemment, le perfectionnement des interfaces offrent aux utilisateurs, statisticiens ou non, des possibilites de mise en
uvre tr`es simples des outils logiciels. Cette e volution, ainsi que la popularisation de nouvelles
methodes algorithmiques (reseaux de neurones, support vector machine...) et outils graphiques,
conduit au developpement et a` la commercialisation de logiciels integrant un sous-ensemble de
methodes statistiques et algorithmiques sous la terminologie de Data Mining : la prospection ou
fouille de donnees. Cette approche, issue du marketing specialise dans la gestion de la relation
client (GRC) (client relation management ou CRM) trouve e galement des developpements et applications industrielles en controle de qualite ou meme dans certaines disciplines scientifiques d`es
lors que les ingenieurs et chercheurs sont confrontes a` un volume de donnees important. Besse
et col. (2001) presente une introduction detaillee de cette demarche et des relations quelle entretien avec les disciplines traditionnelles Statistique et Informatique. Laccroche publicitaire souvent
citee par les e diteurs de logiciels (SAS) est :
Comment trouver un diamant dans un tas de charbon sans se salir les mains.
Nous proposons devaluer et dexperimenter la realite de cette annonce qui sadresse a` un marche
en pleine expansion. Les entreprises sont en effet tr`es motivees pour tirer parti et amortir, par une
aide a` la decision quantifiee, les couts de stockage des teras octets que leur service informatique
semploie a` administrer.
Le contexte informationnel de la fouille de donnees est celui des data wharehouses. Un entrepot de donnees, dont la mise en place est assure par un gestionnaire de donnees (data manager)
est un ensemble de bases relationnelles extraites des donnees brutes de lentreprise et relatives a`
une problematique :
gestion des stocks (flux tendu), des ventes dun groupe afin de prevoir et anticiper au mieux
les tendances du marche,
suivi des fichiers clients dune banque, dune assurance, associes a` des donnees socioe conomiques (INSEE), a` lannuaire, en vue de la constitution dune segmentation (typologie) pour cibler des operations de marketing ou des attributions de credit. La gestion de
la relation client vise a` une individualisation ou personnalisation de la production et de la
communication afin devacuer la notion de client moyen.
recherche, specification puis ciblage de niches de marche les plus profitables (banque) ou
au contraire les plus risquees (assurance) ;
suivi en ligne des param`etres de production (tracabilite) en controle de qualite pour detecter
au plus vite lorigine dune defaillance ;
prospection textuelle (text mining) et veille technologique ;
3
4
web mining et comportement des internautes ;
...
Cet environnement se caracterise par
une informatique heterog`ene faisant intervenir des sites distants (Unix, Dos, NT, VM. . . )
a` travers le reseau de lentreprise (intranet) ou meme des acc`es exterieurs (internet). Des
contraintes defficacite, de fiabilite ou de securite conduisent a` repartir, stocker linformation
a` la source plutot qu`a la dupliquer systematiquement ou a` la centraliser.
Lincompatibilite logique des informations observees sur des e chantillons differents ne presentant
pas les memes strates, les memes codifications.
Des volumes et flux considerables de donnees issues de saisies automatisees et chiffres en
tera-octets.
Contrairement a` une demarche statistique traditionnelle (planification de lexperience), les
donnees analysees sont stochees a` dautres fins (comptabilite, controle de qualite...) et sont
donc prealables a` lanyle.
La necessite de ne pas exclure a priori un traitement exhaustif des donnees afin de ne pas
laisser e chapper, a` travers le crible dun sondage, des groupes de faibles effectifs mais a` fort
impact e conomique.
5
iv. Pour chacune des methodes considerees : mod`ele lineaire general (gaussien, binomial ou
poissonien), discrimination parametrique (lineaire ou quadratique) ou non parametrique,
k plus proches voisins, arbre, reseau de neurones (perceptron), support vecteur machine,
combinaison de mod`eles (bagging, boosting).
estimer le mod`ele pour une valeur donnee dun param`etre de complexite : nombre de variables, de voisins, de feuilles, de neurones, duree de lapprentissage, largeur de fenetre. . . ;
optimiser ce param`etre (sauf pour les combinaisons de mod`eles affranchies des probl`emes
de sur-apprentissage) en fonction de la technique destimation de lerreur retenue : e chantillon
de validation, validation croisee, approximation par penalisation de lerreur dajustement.
v. Comparaison des mod`eles optimaux obtenus (un par methode) par estimation de lerreur de
prevision sur lechantillon test ou, si la presence dun e chantillon test est impossible, sur
le crit`ere de penalisation de lerreur (Akake par exemple) sil en existe une version pour
chacune des methodes considerees.
vi. Iteration e ventuelle de la demarche precedente (valisation croisee), si lechantillon test est
trop reduit, depuis (iii). Partitions aleatoires successives de lechantillon pour moyenner sur
plusieurs cas lestimation finale de lerreur de prediction et sassurer de la robustesse du
mod`ele obtenu.
vii. Choix de la methode retenue en fonction de ses capacites de prediction, de sa robustesse
mais aussi, e ventuellement, de linterpretabillite du mod`ele obtenu.
Objectif
Lobjet de ce cours est dintroduire, sous une forme homog`ene et synthetique, les principales
techniques dexploration, de modelisation ou encore dapprentissage utilisees le plus couramment
en fouille de donnees et citees dans la section precedente. Il a fallu faire des choix dans lensemble des techniques proposees et leurs nombreux avatars. La forme et le contenu sont guides
par les besoins exprimes lors des stages realisees par les e tudiants du Master professionnel de
Statistique & Econometrie ou encore par les th`emes des collaborations industrielles du laboratoire de Statistique et Probabilites1 . Le lecteur peut se faire une idee du nombre tr`es important de
methodes et variantes concernees par lapprentissage supervisee ou non supervise en consultant
une bote a` outil Mathlab de classification2 . Remarquons que les principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab. . . ) ou gratuits (R), performants et simposant par des interfaces
tr`es conviviales (Enterprise Miner, Insightfull Miner, Clementine), contribuent largement a` la diffusion, voire la penetration, de methodes tr`es sophistiquees dans des milieux impermeables a` une
conceptualisation mathematique trop abstraite.
Le choix a e te fait de conserver et expliciter, dans la mesure du possible, les concepts originaux de chaque methode dans son cadre disciplinaire tout en tachant dhomogeneiser notations
et terminologies. Lobjectif principal est de faciliter la comprehension et linterpretation des techniques des principaux logiciels pour en faciliter une utilisation pertinente et reflechie. Un exemple
e lementaire de recherche dun score dappetance issu du marketing bancaire illustre les differents
points abordes. Traite avec les logiciels SAS, Splus ou R, il sert de fil rouge tout au long du
cours.
1
2
http ://www.lsp.ups-tlse.fr
http ://tiger.technion.ac.il/ eladyt/classification/
Chapitre 1
Introduction
1
Objectif
Toute e tude sophistiquee dun corpus de donnees doit e tre precedee dune e tude exploratoire a`
laide doutils, certes rudimentaires mais robustes, en privilegiant les representations graphiques.
Cest la seule facon de se familiariser avec des donnees et surtout de depister les sources de
probl`emes :
valeurs manquantes, erronees ou atypiques,
modalites trop rares,
distributions anormales (dissymetrie, multimodalite, e paisseur des queues),
incoherences, liaisons non lineaires.
...
Cest ensuite la recherche de pretraitements des donnees afin de les rendre conformes aux techniques de modelisation ou dapprentissage quil sera necessaire de mettre en uvre afin datteindre
les objectifs fixes :
transformation : logarithme, puissance, reduction, rangs. . . des variables,
codage en classe ou recodage de classes,
imputations ou non des donnees manquantes,
lissage, decompositions (ondelettes, fourier) de courbes,
reduction de dimension, classification et premier choix de variables,
classification ou typologie des observations.
Attention, le cote rudimentaire voire trivial de ces outils ne doit pas conduire a` les negliger au profit dune mise en uvre immediate de methodes beaucoup plus sophistiquees, donc beaucoup plus
sensibles aux probl`emes cites ci-dessus. Sils ne sont pas pris en compte, ils reapparatront alors
comme autant dartefacts susceptibles de denaturer voire de fausser toute tentative de modelisation.
Contenu
Cette partie se propose tout dabord dintroduire bri`evement les techniques permettant de
resumer les caracteristiques (tendance centrale, dispersion, bote a` moustaches, histogramme, estimation non parametrique) dune variable statistique ou les relations entre variables de meme type
quantitatif (coefficient de correlation, nuage de points, ou qualitatif (2 , Cramer, Tchuprow) ou de
types differents (rapport de correlation, diagrammes en botes parall`eles). Les notions presentees
sont illustrees sur un jeu de donnees typique dun score dappetance en marketing bancaire.
Chapitre 1. Introduction
Apr`es cette approche uni et bidimensionnelle, les techniques multidimensionnelles1 sont decrites
et illustrees. Elles diff`erent selon le type des variables considerees mais permettent toutes de
reduire la dimension afin de resumer un tableau (n p) de grande dimension et reveler ses caracteristiques. Lanalyse en composantes principales (ACP) pour les variables quantitatives, lanalyse des correspondances simples ou multiples (AFCM) pour les variables qualitatives. Lanalyse factorielle discriminante (AFD) permet de juger de la qualite de discrimination dun ensemble de variables quantitatives afin dexpliquer une typologie decrite par une variable qualitative. Lorsquune typologie est recherchee, les methodes de classification (hierarchiques ou par
reallocation dynamique) determinent une variable qualitative definissant une partition de lensemble des donnees. Dautres techniques sont plus specifiques, le positionnement multidimensionnel ou ACP sur tableau de distances est adapte a` des donnees particuli`eres mais permet e galement
de structurer un ensemble de variables trop important. Enfin, ce document se termine par une introduction a` letude exploratoire de donnees fonctionnelles illustrees par des exemples de series
climatiques.
Chapitre 2
Description statistique e lementaire
1
Exemple de donnees
Un meme ensemble de donnees bancaires1 va servir a` illustrer la plupart des outils et methodes
decrits dans ce document. En voici le descriptif sommaire.
Le service marketing dune banque dispose de fichiers decrivant ses clients et leurs comportements (mouvements, soldes des differents comptes). Deux types detudes sont habituellement
realisees sur des donnees bancaires ou meme plus generalement dans le tertiaire afin de personnaliser les relations avec les clients.
i. une classification ou segmentation de la client`ele permettant de determiner quelques classes
ou segments de comportements types.
ii. lestimation dun score en vue dun objectif particulier. Il sagit ici de prevoir linteret ou
lappetence dun client pour le produit bancaire carte Visa Premier. Cest une carte de paiement haut de gamme qui cherche a` renforcer le lien de proximite avec la banque en vue de
fideliser une client`ele aisee.
La liste des variables est issue dune base de donnees retracant lhistorique mensuel bancaire et
les caracteristiques de tous les clients. Un sondage a e te realise afin dalleger les traitements ainsi
quune premi`ere selection de variables. Les variables contenues dans le fichier sont explicitees
dans le tableau 2.1. Elles sont observees sur un e chantillon de 1425 clients.
Introduction
lobjectif des outils de Statistique descriptive e lementaire est de fournir des resumes synthetique
de series de valeurs, adaptes a` leur type (qualitatives ou quantitatives), et observees sur une population ou un e chantillon.
Dans le cas dune seule variable, Les notions les plus classiques sont celles de mediane,
quantile, moyenne, frequence, variance, e cart-type definies parall`element a` des representations
graphiques : diagramme en baton, histogramme, diagramme-bote, graphiques cumulatifs, diagrammes en colonnes, en barre ou en secteurs.
Dans le cas de deux variables, on sinteresse a` la correlation, au rapport de correlation ou encore a` la statistique dun test du 2 associe a` une table de contingence. Ces notions sont associees
a` differents graphiques comme le nuage de points (scatterplot), les diagrammes-botes parall`eles,
les diagrammes de profils ou encore en mosaque.
1
Merci a` Sophie Sarpy de Informatique Banque Populaire a` Balma pour la mise a` disposition de ces donnees.
10
relat
prcsp
quals
GxxGxxS
impnbs
rejets
opgnb
moyrv
tavep
endet
gaget
gagec
gagem
kvunb
qsmoy
qcred
dmvtp
boppn
facan
lgagt
vienb
viemt
uemnb
uemmts
xlgnb
xlgmt
ylvnb
ylvmt
nbelts
mtelts
nbcats
mtcats
nbbecs
mtbecs
rocnb
jntca
nptag
segv2s
itavc
havef
dnbjd1s
dnbjd2s
dnbjd3s
carvp
Libelle
Matricule (identifiant client)
Departement de residence
Point de vente
Sexe (qualitatif)
Age en annees
Situation familiale
(Fmar : marie, Fcel : celibataire, Fdiv :divorce,
Fuli :union libre, Fsep : separe de corps, Fveu :veuf)
Anciennete de relation en mois
Categorie socio-professionnelle (code num)
Code qualite client e value par la banque
plusieurs variables caracterisant les interdits
bancaires
Nombre dimpayes en cours
Montant total des rejets en francs
Nombre doperations par guichet dans le mois
Moyenne des mouvements nets crediteurs
des 3 mois en Kf
Total des avoirs e pargne monetaire en francs
Taux dendettement
Total des engagements en francs
Total des engagements court terme en francs
Total des engagements moyen terme en francs
Nombre de comptes a` vue
Moyenne des soldes moyens sur 3 mois
Moyenne des mouvements crediteurs en Kf
Age du dernier mouvement (en jours)
Nombre doperations a` M-1
Montant facture dans lannee en francs
Engagement long terme
Nombre de produits contrats vie
Montant des produits contrats vie en francs
Nombre de produits e pargne monetaire
Montant des produits depargne monetaire en francs
Nombre de produits depargne logement
Montant des produits depargne logement en francs
Nombre de comptes sur livret
Montant des comptes sur livret en francs
Nombre de produits depargne long terme
Montant des produits depargne long terme en francs
Nombre de produits e pargne a` terme
Montant des produits e pargne a` terme
Nombre de produits bons et certificats
Montant des produits bons et certificats en francs
Nombre de paiements par carte bancaire a` M-1
Nombre total de cartes
Nombre de cartes point argent
Segmentation version 2
Total des avoirs sur tous les comptes
Total des avoirs e pargne financi`ere en francs
Nombre de jours a` debit a` M
Nombre de jours a` debit a` M-1
Nombre de jours a` debit a` M-2
Possession de la carte VISA Premier
11
12
F IG . 2.2 Diagramme-bote illustrant la distribution de la variable cumulant les totaux des avoirs.
Celle-ci apparat comme tr`es dissymetrique et avec de nombreuses valeurs atypiques. Une transformation simpose.
classe correspondante.
Estimation fonctionnelle
La qualite de lestimation dune distribution par un histogramme depend beaucoup du decoupage
en classe. Malheureusement, plutot que de fournir des classes deffectifs e gaux et donc de mieux
repartir limprecision, les logiciels utilisent des classes damplitudes e gales et tracent donc des
histogrammes parfois peu representatifs. Ces 20 derni`eres annees, a` la suite du developpement
des moyens de calcul, sont apparues des methodes destimation dites fonctionnelles ou nonparametriques qui proposent destimer la distribution dune variable ou la relation entre deux variables par une fonction construite point par point (noyaux) ou dans une base de fonctions splines.
Ces estimations sont simples a` calculer (pour lordinateur) mais necessitent le choix dun param`etre dit de lissage. Les demonstrations du caract`ere optimal de ces estimations fonctionnelles,
liee a` loptimalite du choix de la valeur du param`etre de lissage, font appel a` des outils theoriques
plus sophistiquees sortant du cadre de ce cours (Eubank, 1988, Silverman, 1986).
Lestimation de la densite par la methode du noyau se met sous la forme generale :
n
1 X
K
gb (x) =
n
i=1
x xi
o`u est le param`etre de lissage optimisee par une procedure automatique qui minimise une approximation de lerreur quadratique moyenne integree (norme de lespace L2 ) ; K est une fonction
symetrique, positive, concave, appelee noyau dont la forme precise importe peu. Cest souvent la
fonction densite de la loi gaussienne :
1
K(t) = exp(t2 /2)
2
qui poss`ede de bonnes proprietes de regularite. Le principe consiste simplement a` associer a`
chaque observation un element de densite de la forme du noyau K et a` sommer tous ces
e lements. Un histogramme est une version particuli`ere destimation dans laquelle lelement de
densite est un petit rectangle dans la classe de lobservation.
13
3.2
Cas qualitatif
Par definition, les observations dune variable qualitative ne sont pas des valeurs numeriques,
mais des caracteristiques, appelees modalites. Lorsque ces modalites sont naturellement ordonnees
(par exemple, la mention au bac ou une classe dage), la variable est dite ordinale. Dans le cas
contraire (par exemple, la profession dans une population de personnes actives ou la situation
familiale) la variable est dite nominale.
Les representations graphiques que lon rencontre avec les variables qualitatives sont assez
nombreuses. Les trois plus courantes, qui sont aussi les plus appropriees, sont les diagrammes en
colonnes, en barre, en secteurs. Tous visent a` representer la repartition en effectif ou frequences
des individus dans les differentes classes ou modalites.
4.1
14
F IG . 2.4 Diagramme en barres et diagramme en colonne de la repartition des situations familiales. Certaines modalites trop rares et regroupees automatiquement dans la classe other devront
e tre recodees.
Nuage de points
Il sagit dun graphique tr`es commode pour representer les observations simultanees de deux
variables quantitatives. Il consiste a` considerer deux axes perpendiculaires, laxe horizontal representant
la variable X et laxe vertical la variable Y , puis a` representer chaque individu observe par les coordonnees des valeurs observees. Lensemble de ces points donne en general une idee assez bonne
de la variation conjointe des deux variables et est appele nuage. On notera quon rencontre parfois
la terminologie de diagramme de dispersion, traduction plus fid`ele de langlais scatter-plot.
Le choix des e chelles a` retenir pour realiser un nuage de points peut saverer delicat. Dune
facon generale, on distinguera le cas de variables homog`enes (representant la meme grandeur
et exprimees dans la meme unite) de celui des variables heterog`enes. Dans le premier cas, on
choisira la meme e chelle sur les deux axes (qui seront donc orthonormes) ; dans le second cas, il
est recommande soit de representer les variables centrees et reduites sur des axes orthonormes, soit
de choisir des e chelles telles que ce soit sensiblement ces variables l`a que lon represente (cest en
general cette seconde solution quutilisent, de facon automatique, les logiciels statistiques).
Indice de liaison
le coefficient de correlation lineaire est un indice rendant compte numeriquement de la mani`ere
dont les deux variables considerees varient simultanement. Il est defini a` partir de la covariance
qui generalise a` deux variables la notion de variance :
cov(X, Y ) =
n
X
wi [xi x][yi y]
i=1
n
X
= [
i=1
wi xi yi ] x y.
15
F IG . 2.5 Nuage de points illustrant labsence de liaison entre la variable a ge et celle cumulant le
total des e pargnes monetaires (correlation de 0,17).
La covariance est une forme bilineaire symetrique qui peut prendre toute valeur reelle et dont la
variance est la forme quadratique associee. Elle depend des unites de mesure dans lesquelles sont
exprimees les variables considerees ; en ce sens, ce nest pas un indice de liaison intrins`eque.
Cest la raison pour laquelle on definit le coefficient de correlation lineaire (parfois appele coefficient de Pearson ou de Bravais-Pearson), rapport entre la covariance et le produit des e carts-types :
corr(X, Y ) =
cov(X, Y )
.
X Y
Le coefficient de correlation est e gal a` la covariance des variables centrees et reduites resY y
pectivement associees a` X et Y : corr(X, Y ) = cov( Xx
equent, corr(X, Y ) est
X , Y ). Par cons
independant des unites de mesure de X et de Y . Le coefficient de correlation est symetrique et
prend ses valeurs entre -1 et +1.
Notons pour memoire la possibilite dutiliser dautres indicateurs de liaison entre variables
quantitatives. Construits sur les rangs (correlation de Spearman) ils sont plus robustes faces a` des
situations de non linearite ou des valeurs atypiques mais restent tr`es reducteurs.
4.2
Notations
Soit X la variable qualitative consideree, supposee a` r modalites notees
x1 , . . . , x` , . . . , xr
et soit Y la variable quantitative de moyenne y et de variance Y2 . Designant par lechantillon
considere, chaque modalite x` de X definit une sous-population (un sous-ensemble) ` de :
cest lensemble des individus, supposes pour simplifier de poids wi = 1/n et sur lesquels on a
observe x` ; on obtient ainsi
P une partition de en m classes dont nous noterons n1 , . . . , nm les
cardinaux (avec toujours m
u n = card()).
`=1 n` = n, o`
16
1 X
Y (i ) ;
n`
i `
`2 =
1 X
[Y (i ) y` ]2 .
n`
i `
Botes parall`eles
Une facon commode de representer les donnees dans le cas de letude simultanee dune
variable quantitative et dune variable qualitative consiste a` realiser des diagrammes-botes parall`eles ; il sagit, sur un meme graphique dote dune e chelle unique, de representer pour Y un
diagramme-bote pour chacune des sous-populations definies par X. La comparaison de ces botes
donne une idee assez claire de linfluence de X sur les valeurs de Y , cest-`a-dire de la liaison entre
les deux variables.
Formules de decomposition
Ces formules indiquent comment se decomposent la moyenne et la variance de Y sur la partition definie par X (cest-`a-dire comment secrivent ces caracteristiques en fonction de leurs valeurs
partielles) ; elles sont necessaires pour definir un indice de liaison entre les deux variables.
r
y =
Y2
1X
n` y ` ;
n
1
n
`=1
r
X
`=1
n` (y` y)2 +
1X
2
2
n` `2 = E
+ R
.
n
`=1
17
2 , est appel
Le premier terme de la decomposition de Y2 , note E
e variance expliquee (par la
2 , est appel
partition, cest-`a-dire par X) ou variance inter (between) ; le second terme, note R
e
variance residuelle ou variance intra (within).
Rapport de correlation
Il sagit dun indice de liaison entre les deux variables X et Y qui est defini par :
s
sY /X =
2
E
;
2
Y
4.3
Notations
On consid`ere dans ce paragraphe deux variables qualitatives observees simultanement sur n
individus. On suppose que la premi`ere, notee X, poss`ede r modalites notees x1 , . . . , x` , . . . , xr ,
et que la seconde, notee Y , poss`ede c modalites notees y1 , . . . , yh , . . . , yc .
Ces donnees sont presentees dans un tableau a` double entree, appele table de contingence,
dans lequel on dispose les modalites de X en lignes et celles de Y en colonnes. Ce tableau est
donc de dimension r c et a pour e lement generique le nombre n`h dobservations conjointes des
modalites x` de X et yh de Y ; les quantites n`h sont appelees les effectifs conjoints.
Une table de contingence se presente donc sous la forme suivante :
x1
..
.
x`
..
.
xr
sommes
y1
n11
..
.
n`1
..
.
nr1
n+1
yh
n1h
..
.
n`h
..
.
nrh
n+h
yc
n1c
..
.
n`c
..
.
nrc
n+c
sommes
n1+
..
.
n`+
..
.
nr+
n
on
analogue,
on
peut
d
e
finir
les
notions
de
fr
e
quences
conjointes et de
h=1 +h
frequences marginales.
Representations graphiques
On peut envisager, dans le cas de letude simultanee de deux variables qualitatives, dadapter
les graphiques presentes dans le cas unidimensionnel : on decoupe chaque partie (colonne, partie de barre ou secteur) representant une modalite de lune des variables selon les effectifs des
modalites de lautre. Mais, de facon generale, il est plus approprie de realiser des graphiques
representant des quantites tr`es utiles dans ce cas et que lon appelle les profils.
18
F IG . 2.7 Diagrammes en barres des profils lignes et colonnes de la table de contingence croisant le sexe et la possession de la carte Visa Premier. La superficie de chaque case est en plus
proportionnelle a` leffectif de la cellule associee.
Profils
On appelle `-`eme profil-ligne lensemble des frequences de la variable Y conditionnelles a`
la modalite x` de X (cest-`a-dire definies au sein de la sous-population ` de associee a` cette
modalite). Il sagit donc des quantites :
{
n`1
n`h
n`c
,...,
,...,
}.
n`+
n`+
n`+
n`h
nrh
n1h
,...,
,...,
}.
n+h
n+h
n+h
n`+ n+h
,
n
on dit quil nexiste aucune forme de liaison entre les deux variables considerees X et Y . Par suite,
la mesure de la liaison va se faire en e valuant lecart entre la situation observee et letat de non
liaison defini ci-dessus.
19
Khi-deux
Il est courant en statistique de comparer une table de contingence observee, deffectif conjoint
generique n`h , a` une table de contingence donnee a priori (et appelee standard), deffectif conjoint
generique s`h , en calculant la quantite
r X
c
X
(n`h s`h )2
`=1 h=1
s`h
De facon naturelle, pour mesurer la liaison sur une table de contingence, on utilise donc lindice
appele khi-deux (chi-square) et defini comme suit :
n n
" r c
#
r X
c (n`h `+ +h )2
X
X X n2
`h
n
2 =
=n
1 .
n`+ n+h
n`+ n+h
`=1 h=1
`=1 h=1
n
Le coefficient 2 est toujours positif ou nul et il est dautant plus grand que la liaison entre les
deux variables considerees est forte. Malheureusement, il depend aussi des dimensions r et c de la
table e tudiee, ainsi que de la taille n de lechantillon observe ; en particulier, il nest pas majore.
Cest la raison pour laquelle on a defini dautres indices, lies au khi-deux, et dont lobjectif est de
palier ces defauts.
Autres indicateurs
Nous en citerons trois.
2
Le phi-deux : 2 = n . Il ne depend plus de n, mais depend encore de r et de c.
Le coefficient T de Tschuprow :
s
2
.
T = p
(r 1)(c 1)
On peut verifier : 0 T 1 .
Le coefficient C de Cramer :
2
,
d1
avec : d = inf(r, c). On verifie maintenant : 0 T C 1 .
Enin, la p-value dun test dindependance (test du 2 ) est aussi utilisee pour comparerr des
liaisons entre variables.
C=
Lobjectif des prochains chapitres de ce cours est dexposer les techniques de la statistique
descriptive multidimensionnelle. Or, sans connatre ces techniques, il se trouve quil est possible
de debuter une exploration de donnees multidimensionnelles en adaptant simplement les methodes
dej`a e tudiees.
5.1
20
peut alors e tre dispose dans une matrice carree (p p) et symetrique, comportant les variances
sur la diagonale et les covariances a` lexterieur de la diagonale ; cette matrice, appelee matrice des
variances-covariances (ou encore matrice des covariances) sera notee S. Elle sera utilisee par la
suite, mais na pas dinterpretation concr`ete. Notons quil est possible de verifier que S est semi
definie positive.
De la meme mani`ere, on peut construire la matrice symetrique p p, comportant des 1 sur
toute la diagonale et, en dehors de la diagonale, les coefficients de correlation lineaire entre les
variables prises deux a` deux. Cette matrice est appelee matrice des correlations, elle est e galement
semi definie positive, et nous la noterons R. Elle est de lecture commode et indique quelle est la
structure de correlation des variables e tudiees.
5.2
Tableaux de nuages
5.3
Considerons maintenant le cas o`u lon e tudie simultanement plusieurs variables qualitatives
(p variables, p 3). La matrice des coefficients de Tschuprow est la matrice carree dordre p,
symetrique, comportant des 1 sur la diagonale et, en dehors de la diagonale, les coefficients de
Tschuprow entre les variables prises deux a` deux. Il sagit donc dune matrice du meme type que
la matrice des correlations (elle est dailleurs, elle aussi, semi definie positive), et son utilisation
pratique est analogue. Notons que lon peut, de la meme facon, utiliser les coefficients de Cramer
au lieu des coefficients de Tschuprow.
Probl`emes
Les quelques outils de ce chapitre permettent dej`a de se faire une premi`ere idee dun jeu de
donnees mais surtout, en prealable a` toute analyse, ils permettent de sassurer de la fiabilite des
donnees, de reperer des valeurs extremes atypiques, e ventuellement des erreurs de mesures ou de
saisie, des incoherences de codage ou dunite.
Les erreurs, lorsquelle sont decelees, conduisent naturellement et necessairement a` leur correction ou a` lelimination des donnees douteuses mais dautres probl`emes pouvant apparatre nont
pas toujours de solutions e videntes.
Le mitage de lensemble des donnees ou absence de certaines valeurs en fait partie. Faut-il
supprimer les individus incrimines ou les variables ? Faut-il completer, par une modelisation
et prevision partielles, les valeurs manquantes ? Les solutions dependent du taux de valeurs manquantes, de leur repartition (sont-elles aleatoires) et du niveau de tolerance des
methodes qui vont e tre utilisees.
La presence de valeurs atypiques peut influencer sev`erement des estimations de methodes
peu robustes car basees sur le carre dune distance. Ces valeurs sont-elles des erreurs ? Sinon
faut-il les conserver en transformant les variables ou en adoptant des methodes robustes
6. Probl`emes
21
F IG . 2.8 La simple transformation (log(50 + x)), de la variable cumulants les avoirs, resout
bien les probl`emes poses par lallure log-normale de sa distribution avec son cort`ege de valeurs
atypiques.
basees sur des e carts absolus ?
Meme sans hypoth`ese explicite de normalite des distributions, il est preferable davoir a` faire
a` des distributions relativement symetriques. Une transformation des variables par une fonction monotone (log, puissance) est hautement recommandee afin dameliorer la symetrie de
leur distribution ou encore pour lineariser (nuage de points) la nature dune liaison.
22
Chapitre 3
Analyse en Composantes Principales
1
introduction
23
24
2
2.1
Considerons les notes (de 0 a` 20) obtenues par 9 e l`eves dans 4 disciplines (mathematiques,
physique, francais, anglais) :
jean
alan
anni
moni
didi
andr
pier
brig
evel
MATH
6.00
8.00
6.00
14.50
14.00
11.00
5.50
13.00
9.00
PHYS
6.00
8.00
7.00
14.50
14.00
10.00
7.00
12.50
9.50
FRAN
5.00
8.00
11.00
15.50
12.00
5.50
14.00
8.50
12.50
ANGL
5.50
8.00
9.50
15.00
12.50
7.00
11.50
9.50
12.00
Nous savons comment analyser separement chacune de ces 4 variables, soit en faisant un
graphique, soit en calculant des resumes numeriques. Nous savons e galement quon peut regarder
les liaisons entre 2 variables (par exemple mathematiques et francais), soit en faisant un graphique
du type nuage de points, soit en calculant leur coefficient de correlation lineaire, voire en realisant
la regression de lune sur lautre.
Mais comment faire une e tude simultanee des 4 variables, ne serait-ce quen realisant un graphique ? La difficulte vient de ce que les individus (les e l`eves) ne sont plus representes dans un
plan, espace de dimension 2, mais dans un espace de dimension 4 (chacun e tant caracterise par
les 4 notes quil a obtenues). Lobjectif de lAnalyse en Composantes Principales est de revenir a`
un espace de dimension reduite (par exemple, ici, 2) en deformant le moins possible la realite. Il
sagit donc dobtenir le resume le plus pertinent des donnees initiales.
2.2
Resultats preliminaires
Moyenne
9.67
9.83
10.22
10.06
Ecart-type
3.37
2.99
3.47
2.81
Minimum
5.50
6.00
5.00
5.50
Maximum
14.50
14.50
15.50
15.00
Notons au passage la grande homogeneite des 4 variables considerees : meme ordre de grandeur pour les moyennes, les e carts-types, les minima et les maxima.
Le tableau suivant est la matrice des correlations. Elle donne les coefficients de correlation
lineaire des variables prises deux a` deux. Cest une succession danalyses bivariees, constituant
un premier pas vers lanalyse multivariee.
25
Coefficients de corr
elation
MATH
PHYS
FRAN
ANGL
MATH
PHYS
FRAN
ANGL
1.00
0.98
0.23
0.51
0.98
1.00
0.40
0.65
0.23
0.40
1.00
0.95
0.51
0.65
0.95
1.00
Remarquons que toutes les correlations lineaires sont positives (ce qui signifie que toutes
les variables varient, en moyenne, dans le meme sens), certaines e tant tr`es fortes (0.98 et 0.95),
dautres moyennes (0.65 et 0.51), dautres enfin plutot faibles (0.40 et 0.23).
2.3
Resultats generaux
MATH
PHYS
FRAN
ANGL
MATH
PHYS
FRAN
ANGL
11.39
9.92
2.66
4.82
9.92
8.94
4.12
5.48
2.66
4.12
12.06
9.29
4.82
5.48
9.29
7.91
Les valeurs propres donnees ci-dessous sont celles de la matrice des variances-covariances.
Valeurs propres ; variances expliqu
ees
FACTEUR
1
2
3
4
VAL. PR.
28.23
12.03
0.03
0.01
----40.30
PCT. VAR.
0.70
0.30
0.00
0.00
---1.00
PCT. CUM.
0.70
1.00
1.00
1.00
Interpretation
Chaque ligne du tableau ci-dessus correspond a` une variable virtuelle (voil`a les facteurs) dont
la colonne VAL . PR . (valeur propre) fournit la variance (en fait, chaque valeur propre represente la
variance du facteur correspondant). La colonne PCT. VAR, ou pourcentage de variance, correspond
26
au pourcentage de variance de chaque ligne par rapport au total. La colonne PCT. CUM . represente
le cumul de ces pourcentages.
Additionnons maintenant les variances des 4 variables initiales (diagonale de la matrice des
variances-covariances) : 11.39 + 8.94 + 12.06 + 7.91 = 40.30. La dispersion totale des individus
consideres, en dimension 4, est ainsi e gale a` 40.30.
Additionnons par ailleurs les 4 valeurs propres obtenues : 28.23+12.03+0.03+0.01 = 40.30.
Le nuage de points en dimension 4 est toujours le meme et sa dispersion globale na pas change.
Il sagit dun simple changement de base dans un espace vectoriel. Cest la repartition de cette
dispersion, selon les nouvelles variables que sont les facteurs, ou composantes principales, qui se
trouve modifiee : les 2 premiers facteurs restituent a` eux seuls la quasi-totalite de la dispersion du
nuage, ce qui permet de negliger les 2 autres.
Par consequent, les graphiques en dimension 2 presentes ci-dessous resument presque parfaitement la configuration reelle des donnees qui se trouvent en dimension 4 : lobjectif (resume
pertinent des donnee en petite dimension) est donc atteint.
2.4
Le resultat fondamental concernant les variables est le tableau des correlations variablesfacteurs. Il sagit des coefficients de correlation lineaire entre les variables initiales et les facteurs.
Ce sont ces correlations qui vont permettre de donner un sens aux facteurs (de les interpreter).
Corr
elations
FACTEURS
MATH
PHYS
FRAN
ANGL
-->
variables-facteurs
F1
F2
F3
F4
0.81
0.90
0.75
0.91
-0.58
-0.43
0.66
0.40
0.01
-0.03
-0.02
0.05
-0.02
0.02
-0.01
0.01
Les deux premi`eres colonnes de ce tableau permettent, tout dabord, de realiser le graphique
des variables (version SAS) donne ci-dessous.
Mais, ces deux colonnes permettent e galement de donner une signification aux facteurs (donc
aux axes des graphiques).
On notera que les deux derni`eres colonnes ne seront pas utilisees puisquon ne retient que deux
dimensions pour interpreter lanalyse.
Interpretation
Ainsi, on voit que le premier facteur est correle positivement, et assez fortement, avec chacune
des 4 variables initiales : plus un e l`eve obtient de bonnes notes dans chacune des 4 disciplines,
plus il a un score e leve sur laxe 1 ; reciproquement, plus ses notes sont mauvaises, plus son score
est negatif. En ce qui concerne laxe 2, il oppose, dune part, le francais et langlais (correlations
positives), dautre part, les mathematiques et la physique (correlations negatives). Il sagit donc
dun axe dopposition entre disciplines litteraires et disciplines scientifiques, surtout marque par
lopposition entre le francais et les mathematiques. Cette interpretation peut e tre precisee avec les
graphiques et tableaux relatifs aux individus que nous presentons maintenant.
27
0.6
0.2
Axe 2
0.2
MATH
PHYS
0.6
ANGL
FRAN
0.2
0.2
0.6
1.0
Axe 1
2.5
jean
alan
anni
moni
didi
andr
pier
brig
evel
POIDS
FACT1
FACT2
CONTG
CONT1
CONT2
COSCA1
COSCA2
0.11
0.11
0.11
0.11
0.11
0.11
0.11
0.11
0.11
-8.61
-3.88
-3.21
9.85
6.41
-3.03
-1.03
1.95
1.55
-1.41
-0.50
3.47
0.60
-2.05
-4.92
6.38
-4.20
2.63
20.99
4.22
6.17
26.86
12.48
9.22
11.51
5.93
2.63
29.19
5.92
4.06
38.19
16.15
3.62
0.41
1.50
0.95
1.83
0.23
11.11
0.33
3.87
22.37
37.56
16.29
6.41
0.97
0.98
0.46
1.00
0.91
0.28
0.03
0.18
0.25
0.03
0.02
0.54
0.00
0.09
0.72
0.97
0.82
0.73
On notera que chaque individu represente 1 e lement sur 9, do`u un poids (une ponderation) de
1/9 = 0.11, ce qui est fourni par la premi`ere colonne du tableau ci-dessus.
Les 2 colonnes suivantes fournissent les coordonnees des individus (les e l`eves) sur les deux
premiers axes (les facteurs) et ont donc permis de realiser le graphique des individus. Ce dernier
permet de preciser la signification des axes, donc des facteurs.
Interpretation
On peut ainsi voir que laxe 1 represente le resultat densemble des e l`eves (si on prend leur
score ou coordonnee sur laxe 1, on obtient le meme classement que si on prend leur moyenne
generale). Par ailleurs, lel`eve le plus haut sur le graphique, celui qui a la coordonnee la plus
e levee sur laxe 2, est Pierre dont les resultats sont les plus contrastes en faveur des disciplines
litteraires (14 et 11.5 contre 7 et 5.5). Cest exactement le contraire pour Andre qui obtient la
moyenne dans les disciplines scientifiques (11 et 10) mais des resultats tr`es faibles dans les disci-
28
jean
didi
1 0
alan
moni
anni evel
pier
Axe 2
andr brig
1 0
Axe 1
1X 1 2
V ar(C ) =
(ci )
9
1
i=1
(il faut noter que, dans une A.C.P., les variables e tant centrees, il en va de meme pour les facteurs ;
ainsi, la moyenne de C 1 est nulle et napparat pas dans la formule de la variance). La coordonnee
de Jean (le premier individu du fichier) sur laxe 1 vaut c11 = 8.61 ; sa contribution est donc :
1
2
9 (8.61)
28.23
100 = 29.19 %.
` lui seul, cet individu represente pr`es de 30 % de la variance : il est preponderant (au meme titre
A
que Monique) dans la definition de laxe 1 ; cela provient du fait quil a le resultat le plus faible,
Monique ayant, a` loppose, le resultat le meilleur.
Enfin, les 2 derni`eres colonnes du tableau sont des cosinus carres qui fournissent la (* qualite
de la representation *) de chaque individu sur chaque axe. Ces quantites sadditionnent axe par
29
3
3.1
i = 1, . . . , n : wi > 0 et
n
X
wi = 1 ;
i=1
i = 1, . . . , n : xji
1
..
.
i
..
.
n
X1
Xj
Xp
x11
..
.
x1i
..
.
x1n
xj1
..
.
xji
..
.
xjn
xp1
..
.
xpi
..
.
xpn
` chaque individu i est associe le vecteur xi contenant la i-`eme ligne de X mise en colonne.
A
Cest un e lement dun espace vectoriel note E de dimension p ; nous choisissons IRp muni
de la base canonique E et dune metrique de matrice M lui conferant une structure despace
euclidien : E est isomorphe a` (IRp , E, M); E est alors appele espace des individus.
` chaque variable X j est associe le vecteur xj contenant la j-`eme colonne centree (la
A
moyenne de la colonne est retranchee a` toute la colonne) de X. Cest un e lement dun
espace vectoriel note F de dimension n ; nous choisissons IRn muni de la base canonique
F et dune metrique de matrice D diagonale des poids lui conferant une structure despace
euclidien : F est isomorphe a` (IRn , F, D) avec D = diag(w1 , . . . , wn ); F est alors appele
espace des variables.
30
3.2
Lutilisation de la metrique des poids dans lespace des variables F donne un sens tr`es particulier aux notions usuelles definies sur les espaces euclidiens. Ce paragraphe est la cle permettant
de fournir les interpretations en termes statistiques des proprietes et resultats mathematiques.
Moyenne empirique de X j :
Barycentre des individus :
Matrice des donnees centrees :
Ecart-type de X j :
Covariance de X j et X k :
Matrice des covariances :
Correlation de X j et X k :
xj
x
X
j
0
xj Dxk
S
hxj ,xk iD
kxj kD kxk kD
=
=
=
=
=
=
0
Xej , 1n D = ej X0 D1n .
X0 D1n .
X 1n x0 .
0
(xj Dxj )1/2 =
xj
D .
j k
x ,x D.
Pn
0
0
i=1 wi (xi x)(xi x) = X DX.
= cos D (xj , xk ).
Attention : Par souci de simplicite des notations, on designe toujours par xj les colonnes de la
matrice centree X. On consid`ere donc que des vecteurs variables sont toujours centres.
Ainsi, lorsque les variables sont centrees et representees par des vecteurs de F :
la longueur dun vecteur represente un e cart-type,
le cosinus dun angle entre deux vecteurs represente une correlation.
3.3
La methode
Mod`ele
Les notations sont celles du paragraphe precedent :
X designe le tableau des donnees issues de lobservation de p variables quantitatives X j
sur n individus i de poids wi ,
E est lespace des individus muni de la base canonique et de la metrique de matrice M,
F est lespace des variables muni de la base canonique et de la metrique des poids D =
diag(w1 , . . . , wn ).
4. Mod`ele
31
4.1
Estimation
P ROPOSITION 3.1. Lestimation des param`etres de (3.1) est fournie par lACP de (X, M, D)
cest-`a-dire par la decomposition en valeurs singuli`eres de (X, M, D) :
cq =
Z
q
X
1/2
k uk vk = Uq 1/2 Vq0 .
k=1
Preuve
Sans hypoth`ese sur la distribution de lerreur, une estimation par les moindres carres conduit a` resoudre
le probl`eme :
min
( n
X
Eq ,zi
)
wi kxi
2
z i kM
; dim(Eq ) = q, zi z Eq
(3.2)
i=1
Soit X = X 1n x0 la matrice centree et Z la matrice (n p) dont les lignes sont les vecteurs (zi z)0 .
n
X
wi kxi zi kM =
i=1
n
X
wi kxi x + z zi kM + kx zkM ;
i=1
(3.3)
32
Les uk sont les vecteurs propres D-orthonormes de la matrice XMX D associes aux valeurs propres k rangees par ordre decroissant.
Les vk , appeles vecteurs principaux, sont les vecteurs propres M-orthonormes de la ma0
trice X DXM = SM associes aux memes valeurs propres ; ils engendrent des s.e.v. de
dimension 1 appeles axes principaux.
Les estimations sont donc donnees par :
b
z
cq
Z
x,
q
X
0
cq 0 ,
1/2 uk vk = Uq 1/2 Vq0 = XP
k=1
cq
o`u P
cq =
E
c2 est
E
zbi
vect{v1 , . . . , vq },
appele plan principal,
cq xi + x.
P
Remarques
i. Les solutions sont embotees pour q = 1, . . . , p :
E1 = vect{v1 } E2 = vect{v1 , v2 } E3 = vect{v1 , v2 , v3 } . . .
ii. Les espaces principaux sont uniques sauf, e ventuellement, dans le cas de valeurs propres
multiples.
iii. Si les variables ne sont pas homog`enes (unites de mesure differentes, variances disparates),
elles sont prealablement reduites :
e = X1/2 o`u = diag ( 2 , . . . , 2 ), avec 2 = Var (X j ) ;
X
1
p
j
e est alors la matrice R = 1/2 S1/2 des correlations.
S
Sous lhypoth`ese que la distribution de lerreur est gaussienne, une estimation par maximum
de vraisemblance conduit a` la meme solution.
4.2
Definition e quivalente
On consid`ere p variable statistiques centrees X 1 , . . . , X p . Une combinaison lineaire de coefficients fj de ces variables,
p
X
c=
fj xj = Xf ,
j=1
definit une nouvelle variable centree C qui, a` tout individu i, associe la mesure
C(i) = (xi x)0 f .
P ROPOSITION 3.2. Soient p variables quantitatives centrees X 1 , . . . , X p observees sur n individus de poids wi ; lACP de (X, M, D) est aussi la recherche des q combinaisons lineaires
normees des X j , non correlees et dont la somme des variances soit maximale.
5. Representations graphiques
33
Les vecteurs f k = Mvk sont les facteurs principaux. Ils permettent de definir les combinaisons lineaires des X j optimales au sens ci-dessus.
Les vecteurs ck = Xf k sont les composantes principales.
Les variables C k associees sont centrees, non correlees et de variance k ; ce sont les variables principales ;
0
= vk MSMv` = ` vk Mv` = ` k` .
Les f k sont les vecteurs propres M1 -orthonormes de la matrice MS.
La matrice
C = XF = XMV = U1/2
est la matrice des composantes principales.
Les axes definis par les vecteurs D-orthonormes uk sont appeles axes factoriels.
5
5.1
Representations graphiques
Les individus
Les graphiques obtenus permettent de representer au mieux les distances euclidiennes interindividus mesurees par la metrique M.
Projection
Chaque individu i represente par xi est approche par sa projection M-orthogonale zbi q sur le
cq engendre par les q premiers vecteurs principaux {v1 , . . . , vq }. En notant ei un
sous-espace E
vecteur de la base canonique de E, la coordonnee de lindividu i sur vk est donnee par :
D
xi x, vk
E
M
cq sont
P ROPOSITION 3.3. Les coordonnees de la projection M-orthogonale de xi x sur E
les q premiers e lement de la i-`eme ligne de la matrice C des composantes principales.
Mesures de qualite
La qualite globale des representations est mesuree par la part de dispersion expliquee :
Pq
cq
k
trSMP
rq =
= Pk=1
.
p
trSM
k=1 k
Remarque. La dispersion dun nuage de points unidimensionnel par rapport a` sa moyenne se
mesure par la variance. Dans le cas multidimensionnel, la dispersion du nuage N par rapport a`
son barycentre x se mesure par linertie, generalisation de la variance :
Ig (N ) =
n
X
i=1
2
0
wi kxi xk2M =
X
M,D = tr (X DXM) = tr (SM).
34
A
x
e
2
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
-8
-10
10
20
Axe 1
2
c
Pq (xi x)
kxi xk2M
Pq
(ck )2
= Ppk=1 ki 2 .
k=1 (ci )
Pour e viter de consulter un tableau qui risque detre volumineux (n lignes), les e tiquettes de
chaque individu sont affichees sur les graphiques avec des caract`eres dont la taille est fonction de
la qualite. Un individu tr`es mal represente est a` la limite de la lisibilite.
Contributions
Les contributions de chaque individu a` linertie de leur nuage
P
wi pk=1 (cki )2
wi kxi xk2M
= Pp
i =
,
trSM
k=1 k
ainsi qu`a la variance dune variable principale
ik =
wi (cki )2
,
k
permettent de deceler les observations les plus influentes et, e ventuellement, aberrantes. Ces points
apparaissent visiblement lors du trace des diagrammes-botes parall`eles des composantes principales qui e vitent ainsi une lecture fastidieuse de ce tableau des contributions. En effet, ils se singularisent aussi comme outliers hors de la bote (au del`a des moustaches) correspondant a` une
direction principale. Les individus correspondants, consideres comme individus supplementaires,
peuvent e tre e limines lors dune nouvelle analyse.
Individus supplementaires
Il sagit de representer, par rapport aux axes principaux dune analyse, des individus qui nont
pas participe aux calculs de ces axes. Soit s un tel vecteur, il doit e tre centre, e ventuellement reduit,
5. Representations graphiques
35
4
3
2
A
x
e
0
-1
-2
-3
-3
-2
-1
Axe 1
F IG . 3.4 Carte Visa : premier plan de lACP dune selection de variables. La discrimination des individus poss`edant (1) ou non (0) la carte Visa premier nest pas tr`es claire sur cette
representation.
36
puis projete sur le sous-espace de representation. Les coordonnees sont fournies par :
D
E
0
0
vk , Vq Vq0 M(s x)
= vk MVq Vq0 M(s x) = ek Vq0 M(s x).
M
Les coordonnees dun individu supplementaire dans la base des vecteurs principaux sont donc :
Vq0 M(s x).
5.2
Les variables
Les graphiques obtenus permettent de representer au mieux les correlations entre les variables (cosinus des angles) et, si celles-ci ne sont pas reduites, leurs variances (longueurs).
Projection
cq xj sur le sous-espace Fq
Une variable X j est representee par la projection D-orthogonale Q
engendre par les q premiers axes factoriels. La coordonnee de xj sur uk est :
D
E
p
1
1
0
0
0 0
xj , uk
= xj Duk = xj DXMvk = ej X DXMvk = k vjk .
D
k
k
P ROPOSITION 3.4. Les coordonnees de la projection D-orthogonale de xj sur le sous-espace
Fq sont les q premiers e lements de la j-`eme ligne de la matrice V1/2 .
Mesure de qualite
La qualite de la representation de chaque xj est donnee par le cosinus carre de langle quil
forme avec sa projection :
c j
2
Pq
j 2
h
i2
Qq x
j c j
D
k=1 k (vk )
.
cos (x , Qq x ) =
= Pp
j 2
kxj k2D
k=1 k (vk )
Correlations variablesfacteurs
Ces indicateurs aident a` linterpretation des axes factoriels en exprimant les correlations entre
variables principales et initiales.
j k
x ,u D
k k
j
k
j k
j
k
cor(X , C ) = cos (x , c ) = cos (x , u ) =
=
v ;
kxj kD
j j
ce sont les e lements de la matrice 1/2 V1/2 .
Cercle des correlations
j
ej = j1 xj ,
x
e
D = 1, les x
ej sont sur la sph`ere unite
Dans le cas de variables reduites x
Sn de F . Lintersection Sn F2 est un cercle centre sur lorigine et de rayon 1 appele cercle des
ej et xj sont colineaires, celle de x
ej e tant a` linterieur du cercle :
correlations. Les projections de x
c j
c2 xj ) 1.
e
= cos (xj , Q
Q2 x
D
c2 x
ej
Ainsi, plus Q
5. Representations graphiques
A
x
e
37
1.0
1.0
0.5
0.5
A
x
e
0.0
0.0
3
-0.5
-0.5
-1.0
-1.0
0.5
1.0
Axe 1
0.5
1.0
Axe 2
1.0
0.5
A
x
e
0.0
2
-0.5
-1.0
-1.0 -0.5 0.0
0.5
1.0
Axe 1
F IG . 3.6 Carte Visa : la representation des variables dans le premier plan de lACP fournit une
interpretation classique (stocks versus flux) de ce type de donnees.
38
5.3
Pour q = 2, la quantite zbi j en est une approximation limitee aux deux premiers termes.
Cette remarque permet dinterpreter deux autres representations graphiques en ACP projetant
simultanement individus et variables.
i. la representation isometrique ligne utilise les matrices C et V ; elle permet dinterpreter les
distances entre individus ainsi que les produits scalaires entre un individu et une variable
qui sont, dans le premier plan principal, des approximations des valeurs observees X j (i ) ;
ii. la representation isometrique colonne utilise les matrices U et V1/2 ; elle permet dinterpreter les angles entre vecteurs variables (correlations) et les produits scalaires comme
precedemment.
Remarques
i. Dans le cas frequent o`u M = Ip et o`u les variables sont reduites, le point representant X j , en
superposition dans lespace des individus se confond avec un pseudo individu supplementaire
qui prendrait la valeur 1 (ecart-type) pour la variable j et 0 pour les autres.
ii. En pratique, ces differents types de representations (simultanees ou non) ne diff`erent que
par un changement dechelle sur les axes ; elles sont tr`es voisines et suscitent souvent les
memes interpretations.
Choix de dimension
La qualite des estimations auxquelles conduit lACP depend, de facon e vidente, du choix de
q, cest-`a-dire du nombre de composantes retenues pour reconstituer les donnees, ou encore de la
dimension du sous-espace de representation.
De nombreux crit`eres de choix pour q ont e te proposes dans la litterature. Nous presentons ici
ceux, les plus courants, bases sur une heuristique et un reposant sur une quantification de la stabilite du sous-espace de representation. Dautres crit`eres, non explicites, sinspirent des pratiques
statistiques decisionnelles ; sous lhypoth`ese que lerreur admet une distribution gaussienne, on
peut exhiber les lois asymptotiques des valeurs propres et donc construire des tests de nullite
ou degalite de ces derni`eres. Malheureusement, outre la necessaire hypoth`ese de normalite, ceci
conduit a` une procedure de tests embotes dont le niveau global est incontrolable. Leur utilisation
reste donc heuristique.
6.1
Part dinertie
La qualite globale des representations est mesuree par la part dinertie expliquee :
Pq
k
rq = Ppk=1 .
k=1 k
6. Choix de dimension
39
PCTVAR
1.0
0.8
0.6
0.4
0.2
0.0
0
1
0
1
1
1
2
K
F IG . 3.7 Temperatures : e boulis des valeurs propres.
La valeur de q est choisie de sorte que cette part dinertie expliquee rq soit superieure a` une valeur
seuil fixee a priori par lutilisateur. Cest souvent le seul crit`ere employe.
6.2
R`egle de Kaiser
On consid`ere que, si tous les e lements de Y sont independants, les composantes principales
sont toutes de variances e gales (egales a` 1 dans le cas de lACP reduite). On ne conserve alors
que les valeurs propres superieures a` leur moyenne car seules jugees plus informatives que les
variables initiales ; dans le cas dune ACP reduite, ne sont donc retenues que celles plus grandes
que 1. Ce crit`ere, utilise implicitement par SAS/ASSIST, a tendance a` surestimer le nombre de
composantes pertinentes.
6.3
Eboulis
des valeurs propres
Cest le graphique (figures 6.3 et 6.3) presentant la decroissance des valeurs propres. Le
principe consiste a` rechercher, sil existe, un coude (changement de signe dans la suite des
differences dordre 2) dans le graphe et de ne conserver que les valeurs propres jusqu`a ce coude.
Intuitivement, plus lecart (q q+1 ) est significativement grand, par exemple superieur a` (q1
cq .
q ), et plus on peut e tre assure de la stabilite de E
6.4
Un graphique (figure 6.4 et 6.4) presentant, en parall`ele, les botes-`a-moustaches des variables principales illustre bien leurs qualites : stabilite lorsquune grande bote est associee a`
de petites moustaches, instabilite en presence dune petite bote, de grandes moustaches et de
points isoles. Intuitivement, on conserve les premi`eres grandes botes. Les points isoles ou outliers designent les points a` forte contribution, ou potentiellement influents, dans une direction
principale. Ils necessitent une e tude clinique : une autre analyse dans laquelle ils sont declares
supplementaires (poids nuls) afin devaluer leur impact sur lorientation des axes.
6.5
Stabilite du sous-espace
La presentation de lACP, comme resultat de lestimation dun mod`ele, offre une autre approche au probl`eme du choix de dimension. La qualite des estimations est e valuee de facon habituelle en statistique par un risque moyen quadratique definissant un crit`ere de stabilite du sous-
40
PCTVAR
1.0
0.8
0.6
0.4
0.2
0.0
0
CC
20
10
-10
0
9 10 11 12
K
F IG . 3.9 Temperatures : composantes en botes.
CC
5
4
3
2
1
0
-1
-2
-3
0
7. Interpretation
41
espace de representation. Il est defini comme lesperance dune distance entre le mod`ele vrai
et lestimation qui en est faite. Besse (1992) propose detudier la qualite de lestimation du souscq en consid`erant la fonction perte :
espace de representation E
2
cq
cq ,
cq ) = 1
Lq = Q(Eq , E
= q trPq P
Pq P
2
M,D
o`u Q mesure la distance entre deux sous-espaces par la distance usuelle entre les matrices de
projection qui leur sont associees. Cest aussi la somme des carres des coefficients de correlation
canonique entre les ensembles de composantes ou de variables principales qui engendrent respeccq .
tivement Eq et son estimation E
Un risque moyen quadratique est alors defini en prenant lesperance de la fonction perte :
cq ).
Rq = EQ(Eq , E
(3.4)
Sans hypoth`ese sur la distribution de lerreur, seules des techniques de re-echantillonnage (bootstrap, jackknife) permettent de fournir une estimation de ce risque moyen quadratique. Leur emploi
est justifie, car le risque est invariant par permutation des observations, mais couteux en temps de
calcul. On se pose donc la question de savoir pour quelles valeurs de q les representations graphiques sont fiables, cest-`a-dire stables pour des fluctuations de lechantillon. Besse (1992) propose dutiliser une approximation de lestimateur par jackknife ; elle fournit, directement a` partir
des resultats de lA.C.P. (valeurs propres et composantes principales), une estimation satisfaisante
du risque :
2
d
\
R
JKq = RPq + O((n 1) ).
d
R
Pq est une approximation analytique de lestimateur jackknife qui a pour expression :
q
p
1 Pn
k 2 j 2
X
X
1
i=1 (ci ) (ci )
n
d
R
=
Pq
n1
(j k )2
(3.5)
k=1 j=q+1
kSk22
.
inf {(k k+1 ); k = 1, . . . , q}
La figure 3.11 montrent la stabilite du sous-espace de representation en fonction de la dimension q pour lA.C.P. des donnees de temperatures. Comme souvent, le premier axe est tr`es stable
tandis que le premier plan reste fiable. Au del`a, les axes e tant tr`es sensibles a` toute perturbation
des donnees, ils peuvent e tre associes a` du bruit. Ces resultats sont coherents avec les deux crit`eres
graphiques precedents mais souvent, en pratique, le crit`ere de stabilite conduit a` un choix de dimension plus explicite.
Interpretation
Les macros SAS decrites en exemple, de meme que la plupart des logiciels, proposent, ou
autorisent, ledition des differents indicateurs (contributions, qualites, correlations) et graphiques
definis dans les paragraphes precedents.
0.0
0.5
1.0
1.5
2.0
2.5
3.0
42
10
11
12
Chapitre 4
Analyse Factorielle Discriminante
1
1.1
Introduction
Donnees
wi ,
i`
il vient
D = T0 DT = diag(w1 , . . . , wm ).
1.2
Objectifs
44
Remarque. Lorsque le nombre et les caracteristiques des classes sont connues, il sagit dune
discrimination ; sinon, on parle de classification ou encore, avec des hypoth`eses sur les distributions, de reconnaissance de melanges.
1.3
Notations
g1 0
1 X
1
G = D T0 DX = ... o`u g` =
wi xi ,
w`
0
i`
gm
et Xe la matrice (n p) dont la ligne i est le barycentre g` de la classe ` a` laquelle appartient
lindividu i :
Xe = TG = PG ;
1
Sr = Xr DXr =
m X
X
wi (xi g` )(xi g` )0 ,
`=1 i`
Se = G DG = X e DX e =
m
X
`=1
2
2.1
Definition
Mod`ele
Dans lespace des individus, le principe consiste a` projeter les individus dans une direction
` cette fin, Il faut privilegier la variance interclasse
permettant de mettre en e vidence les groupes. A
au detriment de la variance intraclasse consideree comme due au bruit.
3. Realisation de lAFD
45
En ACP, pour chaque effet zi a` estimer, on ne dispose que dune observation xi ; dans le cas
de lAFD on consid`ere que les e lements P
dune meme classe ` sont les observations repetees n`
fois du meme effet z` pondere par w` = i` wi . Le mod`ele devient donc :
{xi ; i = 1, . . . , n}, n vecteurs
independants de E,
E(i ) = 0, var(i ) = ,
`, i ` , xi = z` + i avec
reguli`ere et inconnue,
Aq , sous-espace affine de de dimension q de E tel que
`, z` Aq , (q < min(p, m 1)).
(4.1)
P
Remarque. Soit z = m
ele entrane que z Aq . Soit Eq le sous-espace de
`=1 w` z` . Le mod`
dimension q de E tel que Aq = z + Eq . Les param`etres a` estimer sont Eq et {z` ; ` = 1, . . . , m} ;
w` est un param`etre de nuisance qui ne sera pas considere.
2.2
Estimation
Lestimation par les moindres carres secrit ainsi :
min
m X
X
Eq ,z`
`=1 i`
Comme on a
m X
X
wi kxi
z` k2M
`=1 i`
m X
X
`=1 i`
wi kxi
g` k2M
m
X
w` kg` z` k2M ,
`=1
`=1
La covariance 2 du mod`ele (4.1) e tant inconnue, il faut lestimee. Ce mod`ele stipule que
lensemble des observations dune meme classe l suit une loi (inconnue) de moyenne ze ll et
de variance . Dans ce cas particulier, la matrice de covariances intraclasse ou matrice des covariances residuelles empiriques Sr fournit donc une estimation optimale de la metrique de
reference :
b 1 = S1
M=
r
.
P ROPOSITION 4.2. Lestimation des param`etres Eq et z` du mod`ele 4.1 est obtenue par lACP
de (G, S1
r , D). Cest lAnalyse Factorielle Discriminante (AFD) de (X|T, D) .
Realisation de lAFD
Les expressions matricielles definissant les representations graphiques et les aides a` linterpretation decoulent de celles de lACP.
46
3.1
Matrice a` diagonaliser
` lanalyse spectrale de la matrice positive S1
LACP de (G, S1
etrique :
r , D) conduit a
r -sym
1
G 0 D GS1
r = Se Sr .
Comme S1
eguli`ere, cette matrice est de meme rang que Se et donc de meme rang que G
r est r
qui est de dimension (m p). Les donnees e tant centrees lors de lanalyse, le rang de la matrice
a` diagonaliser est
h = rang(Se S1
r ) inf(m 1, p),
qui vaut en general m 1 cest-`a-dire le nombre de classes moins un.
On note 1 h > 0 les valeurs propres de Se S1
et v1 , . . . , vh les vecteurs
r
1
propresSr -orthonormes associes. On pose
= diag(1 , . . . , h ) et V = [v1 , . . . , vh ].
Les vecteurs vk sont appeles vecteurs discriminants et les sous-espaces vectoriels de dimension 1
quils engendrent dans IRp les axes discriminants.
3.2
C = GS1
r V =D
Les individus initiaux sont projetes comme des individus supplementaires dans le syst`eme des
axes discriminants. Comme en ACP, on peut calculer des cosinus carres pour preciser la qualite de
representation de chaque individu.
Il est utile de differencier graphiquement la classe de chaque individu afin de pouvoir apprecier
visuellement la qualite de la discrimination.
3.3
Lespace des variables est (IRm , b. c., D). Chaque variable X j est represente par un vecteur
dont les coordonnees dans le syst`eme des axes factoriels est une ligne de la matrice V1/2 .
3.4
Interpretations
Les interpretations usuelles : la norme est un e cart-type, un cosinus dangle est un coefficient
de correlation, doivent e tre faites en termes decarts-types et de correlations expliquees par la
partition.
La representation des variables est utilisee pour interpretee les axes en fonction des variables
1/2
initiales conjointement avec la matrice des correlations expliquees variablesfacteurs : 1
.
e V
j
1
La matrice e e tant la matrice diagonale des e carts-types expliques e cest-`a-dire des racines
carrees des e lements diagonaux de la matrice Se .
Le point pratique essentiel est de savoir si la representation des individus-barycentres et des
individus initiaux permet de faire une bonne discrimination entre les classes definies par la variable
4. Variantes de lAFD
47
T . Si ce nest pas le cas, lAFD ne sert a` rien, les X j nexpliquent pas T . Dans le cas favorable,
le graphique des individus permet dinterpreter la discrimination en fonction des axes et, celui des
variables, les axes en fonction des variables initiales. La synth`ese des deux permet linterpretation
de T selon les X j .
4
4.1
Variantes de lAFD
Individus de memes poids
LAFD peut e tre definie de differentes facon. Dans la litterature anglo-saxonne, et donc dans
la version standard dAFD du logiciel SAS (procedure candisc), ce sont les estimations sans
biais des matrices de variances intra (within) et inter (between) qui sont considerees dans le
cas dindividus de memes poids 1/n.
Dans ce cas particulier,
D=
1
1
In et D = diag(n1 , . . . , nm ) o`u n` = card(` )
n
n
(S)kj =
1X j
(xi xj )(xki xk ),
n
i=1
m
X
(Se )kj =
1
n
(Sr )kj =
1XX j
(xi g`j )(xki g`k ).
n
n` (g`j xj )(g`k xk ),
`=1
m
`=1 i`
Du point de vue de le Statistique inferentielle, on sait que les quantites calculees ci-dessus ont
respectivement (n 1), (m 1) et (n m) degres de liberte. En consequence, ce point de vue
est obtenu en remplacant dans les calculs
S
par
Se
par
Sr
par
n
S,
n1
n
Se = B =
Se ,
m1
n
Sr = W =
Sr .
nm
S =
Se S1
r
=
=
vecteurs propres :
nm
1
m1 Se Sr ,
nm
m1 ,
q
n
nm V,
V 1/2
correlations variables-facteurs :
1/2 =
1
e V
nm
n C,
1/2
n
,
m1 V
1/2
1
.
e V
Ainsi, les representations graphiques sont identiques a` un facteur dechelle pr`es tandis que les
parts de variance expliquee et les correlations variables-facteurs sont inchangees.
48
4.2
Metrique de Mahalanobis
LAFD est souvent introduite dans la litterature francophone comme un cas particulier dAnalyse Canonique entre un ensemble de p variables quantitatives et un ensemble de m variables indicatrices des modalites de T . La proposition suivante e tablit les relations entre les deux approches :
Se S1 ,
(I + )1 ,
V(I + )1/2 ,
C(I + )1/2 ,
V1/2 ,
1/2
1
.
e V
Les representations graphiques des individus (voir ci-dessus) ne diff`erent alors que dune homothetie et conduisent a` des interpretations identiques, les correlations variables-facteurs ainsi que
les representations des variables sont inchangees.
Exemples
Ce chapitre est illustree par une comparaison des sorties graphiques issues dune ACP et dune
AFD. Les donnees decrivent trois classes dinsectes sur lesquels ont e te realisees 6 mesures anatomiques. On cherche a` savoir si ces mesures permettent de retrouver la typologie de ces insectes.
Ce jeu de donnees scolaire conduit a` une bien meilleure discrimination que ce que lon peut
obtenir dans une situation concr`ete.
Cest ce qui se passe avec les donnees bancaires. La discrimination obtenue nest pas tr`es
nette, une meilleure le sera en considerant une selection de variables plus adaptee. Dautre part, la
situation est ici tr`es particuli`ere car la variable a` expliquer nayant que deux modalites, la dimension du sous-espace est reduite a` un. Une deuxi`eme dimension est generee de facon aleatoire afin
de rendre plus lisible la representation des individus.
5. Exemples
49
A
x
e
-1
-2
-3
-4
-4
-3
-2
-1
Axe 1
50
5
4
3
2
A
x
e
0
-1
-2
-3
-4
-8
-7
-6
-5
-4
-3
-2
-1
Axe 1
5. Exemples
51
PSEUDY
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
-2
-1
0
CARVPR
2
CAN1
0
F IG . 4.3 Carte Visa : premier plan factoriel de lAFD. Laxe 2 est issu dun tirage aleatoire,
laxe 1 ne fournit pas une discrimination tr`es marquee. Cela remet en cause la popssibilite de
discrimination lineaire des deuc classes.
52
Chapitre 5
Analyse Factorielle des
Correspondances
1
1.1
Introduction
Donnees
On consid`ere dans ce chapitre deux variables qualitatives observees simultanement sur n individus affectes de poids identiques 1/n. On suppose que la premi`ere variable, notee X, poss`ede
r modalites notees x1 , . . . , x` , . . . , xr , et que la seconde, notee Y , poss`ede c modalites notees
y1 , . . . , y h , . . . , y c .
La table de contingence associee a` ces observations, de dimension r c, est notee T ; son
e lement generique est n`h , effectif conjoint. Elle se presente sous la forme suivante :
x1
..
.
x`
..
.
xr
sommes
1.2
y1
n11
..
.
n`1
..
.
nr1
n+1
yh
n1h
..
.
n`h
..
.
nrh
n+h
yc
n1c
..
.
n`c
..
.
nrc
n+c
sommes
n1+
..
.
n`+
..
.
nr+
n
Notations
Pc
Pr
Les quantites {n`+ =
. . . , r} et {n+h =
h=1
`=1 n`h ; h = 1, . . . , c} sont
Pnr`h ; ` = 1, P
les effectifs marginaux verifiant `=1 n`+ = ch=1 n+h = n. De facon analogue, on definit les
notions de frequences conjointes (f`h = n`h /n) et de frequences marginales. Ces derni`eres sont
rangees dans les vecteurs :
gr = [f1+ , . . . , fr+ ]0 ,
et gc = [f+1 , . . . , f+c ]0 .
Elles permettent de definir les matrices :
Dr = diag(f1+ , . . . , fr+ ),
et Dc = diag(f+1 , . . . , f+c ).
53
54
n1h
n`h
nrh
,...,
,...,
},
n+h
n+h
n+h
1.3
1
TD1
c .
n
D E FINITION 5.1. On dit que deux variables X et Y sont non liees relativement a` T si et
seulement si :
n`+ n+h
(`, h) {1, . . . , r} {1, . . . , c} : n`h =
.
n
Il est e quivalent de dire que tous les profils-lignes sont e gaux, ou encore que tous les profilscolonnes sont e gaux (voir chapitre 2).
Cette notion est coherente avec celle dindependance en probabilites. En effet, soit =
{1, . . . , n} lensemble des individus observes et (, P(), P ) lespace probabilise associe o`u
P est lequiprobabilite ; MX = {x1 , . . . , xr } et MY = {y1 , . . . , yc } designent les ensembles
e et Ye les variables aleatoires
de modalites, ou valeurs prises par les variables X et Y . On note X
associees aux 2 variables statistiques X et Y :
e : (, P(), P )
X
7
(MX , P(MX )),
e
Y : (, P(), P )
7
(MY , P(MY )) ;
e Ye et le couple
PX , PY et PXY designent respectivement les probabilites images definies par X,
e
e
(X, Y ) sur (MX , P(MX )), (MY , P(MY )) et (MX MY , P(MX ) P(MY )) ; ce sont les
e et Ye sont independantes
probabilites empiriques. Alors, X et Y sont non liees si et seulement si X
en probabilite (la verification est immediate).
On suppose maintenant quil existe une liaison entre X et Y que lon souhaite e tudier. La
representation graphique des profils-lignes ou des profils-colonnes, au moyen de diagrammes en
barres parall`eles, ainsi que le calcul de coefficients de liaison (Cramer ou Tschuprow) donnent une
premi`ere idee de la variation conjointe des deux variables (voir chapitre 2). Le test du 2 permet
de plus de sassurer du caract`ere significatif de cette liaison. Il est construit de la mani`ere suivante :
e et Ye sont independantes en probabilites ;
lhypoth`ese nulle est H0 : X
e et Ye ne sont pas independantes.
lhypoth`ese alternative est H1 : les variables X
La statistique de test est alors
2
n`+ n+h 2
n
;
n`+ n+h
n
r X
c
X
n`h
`=1 h=1
2. Double ACP
55
elle suit asymptotiquement (pour les grandes valeurs de n), et si lhypoth`ese H0 est vraie, une loi
de 2 a` (r 1)(c1) degres de liberte. On rejette donc H0 (et lon conclut au caract`ere significatif
de la liaison) si 2 depasse une valeur particuli`ere (valeur ayant une probabilite faible et fixee a
priori en general 0,05 d e tre depassee par une loi de 2 a` (r 1)(c 1) degres de liberte).
1.4
Objectifs
Pour preciser la liaison existant entre les variables X et Y , on souhaite definir un mod`ele
statistique susceptible de fournir des param`etres dont la representation graphique (de type biplot) illustrera les correspondances entre les modalites de ces 2 variables. Cette approche sera
developpee au paragraphe 3.
Une autre approche, tr`es courante dans la litterature francophone, consiste a` definir lAnalyse
Factorielle des Correspondances (AFC) comme e tant le resultat dune double Analyse en Composantes Principales
lACP des profilslignes,
lACP des profilscolonnes,
relativement a` la metrique dite du 2 . Cette approche est presentee au paragraphe 2.
Remarque. :
i. Toute structure dordre existant e ventuellement sur les modalites de X ou de Y est ignoree
par lAFC
ii. Tout individu presente une modalite et une seule de chaque variable.
iii. Chaque modalite doit avoir e te observee au moins une fois ; sinon, elle est supprimee.
2
2.1
Double ACP
Metriques du 2
ka` ai k2D1 =
c
c
X
1
(a` aih )2 ,
f+h h
h=1
et de meme pour les modalites de Y . La metrique du 2 introduit les inverses des frequences
marginales des modalites de Y comme ponderations des e carts entre e lements de deux profils
relatifs a` X (et reciproquement) ; elle attribue donc plus de poids aux e carts correspondants a` des
modalites de faible effectif (rares) pour Y .
2.2
56
2.3
V = AU1/2 ,
U = BV1/2 ;
est la matrice diagonale des valeurs propres (exceptee 0 = 0) communes aux deux ACP
57
0 1
1/2
1/2
1/2
Cc = B0 D1
= D1
= D1
,
r U = B Dr BV
c ABV
c V
1
1/2
Cr = A0 D1
.
c V = Dr U
On e crit dabord que chaque frequence f`h de T correspond a` lobservation dune probabilite
theorique p`h ; on modelise donc la table de contingence par cette distribution de probabilites. On
precise ensuite le mod`ele en explicitant lecriture de p`h . Differents mod`eles classiques peuvent
e tre consideres.
3.1
Le mod`ele loglineaire
Il consiste a` e crire :
ln(p`h ) = + ` + h + `h
avec des contraintes le rendant identifiable. Ce mod`ele, tr`es classique, ne sera pas developpe ici.
On pourra se reporter, par exemple, a` Bishop et al. (1975).
3.2
Le mod`ele dassociation
Il est encore appele RC-mod`ele, ou mod`ele de Goodman (1991) :
!
q
X
p`h = ` h exp
k `k hk .
k=1
Ce mod`ele, muni des contraintes necessaires, permet de structurer les interactions et de faire des
representations graphiques des lignes et des colonnes de T au moyen des param`etres k et hk .
Ces param`etres peuvent e tre estimes par maximum de vraisemblance ou par moindres carres.
3.3
Le mod`ele de correlation
On e crit ici :
q
X
p
k uk` vhk ,
(5.1)
k=1
uk` =
`=1
0
c
X
vhk = 0,
h=1
0
j
k
1 j
uk D1
r u = v Dc v
= kj .
58
Remarque. :
i. Le mod`ele (5.1) ci-dessus est e quivalent au mod`ele considere par Goodman (1991) :
p`h = p`+ p+h
1+
q
X
p
!
k `k hk
(5.2)
k=1
P
ii. La quantite qk=1 k uk` vhk exprime lecart a` lindependance pour la cellule consideree.
iii. Le mod`ele suppose que cet e cart se decompose dans un sousespace de dimension q <
min(c 1, r 1).
iv. Les estimations des param`etres p`+ , p+h , k , uk , vk peuvent e tre realisees par maximum de
vraisemblance 1 ou par moindres carres. Dans le contexte de la statistique descriptive, qui
est celui de ce cours, il est naturel de retenir cette derni`ere solution.
3.4
Crit`ere
Considerons les espaces IRc et IRr munis de leur base canonique et de leur metrique du 2
respectives et notons P le tableau des probabilites theoriques definies selon le mod`ele (5.1). Le
crit`ere des moindres carres secrit alors :
2
1
min
T P
1 1 .
P
n
Dr Dc
(5.3)
Estimation
P ROPOSITION 5.4. Lestimation des param`etres de (5.1) en resolvant (5.3) est fournie par la
1
D.V.S. de ( n1 T, D1
` lordre q. Les probabilites marginales p`+ et p+h sont estimees par
c , Dr ) a
f`+ et f+h tandis que les vecteurs uk (resp. vk ) sont vecteurs propres de la matrice BA (resp.
AB) associes aux valeurs propres k .
On obtient ainsi, dune autre facon, lAFC de la table de contingence T.
1
Preuve Elle se construit a` partir de la D.V.S. de ( n1 T, D1
c , Dr ) :
1 h
t =
n `
min(r1,c1)
p
k uk` vhk ,
k=0
On suppose alors que les n p`h sont les param`etres de lois de Poisson independantes conditionnellement a` leur
somme qui est fixee et e gale a` n.
2
Matrice reelle, carree, a` termes positifs, dont la somme des termes de chaque ligne (ou chaque colonne) vaut 1.
4. Representations graphiques
59
q
X
p
0
k uk vk
k=1
et les proprietes dorthonormalite des vecteurs propres assurent que les contraintes du mod`ele sont verifiees.
2
4
4.1
Representations graphiques
Biplot
La decomposition de la matrice n1 T se transforme encore en :
f`h f`+ f+h
=
f`+ f+h
min(r1,c1)
k=0
uk` vhk
.
f`+ f+h
En se limitant au rang q, on obtient donc, pour chaque cellule (`, h) de la table T, une approximation de son e cart relatif a` lindependance comme produit scalaire des deux vecteurs
uk` 1/4
v k 1/4
k et h k ,
f`+
f+h
termes generiques respectifs des matrices
1/4
1/4
D1
et D1
,
r U
c V
qui sont encore les estimations des vecteurs ` et h du mod`ele 5.2. Leur representation (par
exemple avec q = 2) illustre alors la correspondance entre les deux modalites x` et yh : lorsque
deux modalites, e loignees de lorigine, sont voisines (resp. opposees), leur produit scalaire est de
valeur absolue importante ; leur cellule conjointe contribue alors fortement et de mani`ere positive
(resp. negative) a` la dependance entre les deux variables.
LAFC apparat ainsi comme la meilleure reconstitution des frequences f`h , ou encore la
meilleure representation des e carts relatifs a` lindependance. La representation simultanee des
modalites de X et de Y se trouve ainsi pleinement justifiee.
4.2
Double ACP
Chacune des deux ACP realisee permet une representation des individus (modalites) approchant, au mieux, les distances du 2 entre les profilslignes dune part, les profilscolonnes dautre
part. Les coordonnees sont fournies cette fois par les matrices (de composantes principales)
1/2
1/2
Cr = D1
et Cc = D1
.
r U
c V
60
4.3
Representations barycentriques
on voit que dans la seconde des representations cidessus, chaque modalite x` de X est representee
par un vecteur qui est barycentre de lensemble des vecteurs associes aux modalites de Y , chacun
deux ayant pour poids lelement correspondant du li`eme profilligne. L`a encore, la representation
simultanee sen trouve parfaitement justifiee. Malheureusement, dans la pratique, les representations
barycentriques sont souvent illisibles ; elles sont, de ce fait, tr`es peu utilisees.
4.4
Autre representation
La pratique de lAFC montre que linterpretation des graphiques est toujours la meme, quelle
que soit la representation simultanee choisie parmi les 3 cidessus.
On peut ainsi envisager dutiliser, pour une representation simultanee des modalites de X et
de Y , les coordonnees fournies respectivement par les lignes des matrices
1
D1
r U et Dc V.
Linterpretation du graphique sera toujours la meme et les matrices cidessus, outre leur
simplicite, presentent lavantage de conduire a une representation graphique qui reste invariante
lorsque lon utilise la technique dAnalyse Factorielle des Correspondances Multiples (voir chapitre suivant) sur les donnees considerees ici.
4.5
Aides a` linterpretation
Les qualites de representation dans la dimension choisie et les contributions des modalites de
X ou de Y se deduisent aisement de celles de lACP Ces quantites sont utilisees a` la fois pour
choisir la dimension de lAFC et pour interpreter ses resultats dans la dimension choisie.
Mesure de la qualite globale
Pour une dimension donnee q (1 q d = inf(r 1, c 1)), la qualite globale des
representations graphiques en dimension q se mesure par le rapport entre la somme des q premi`eres
valeurs propres de lAFC et leur somme compl`ete de 1 a` d.
P
Comptetenue de la propriete dk=1 k = 2 (voir en 6.1), la qualite de la representation dans
la ki`eme dimension secrit
nk
.
2
On parle encore de part du khideux expliquee par la ki`eme dimension (voir les sorties du logiciel
SAS).
5. Exemple
61
Exemple
Lexemple des donnees bancaires se prete mal a` une analyse des correspondances, aucun
couple de variable qualitative ne conduit a` des representations interessantes. La table de contingence e tudiee decrit la repartition des exploitations agricoles de la region MidiPyrenees dans les
differents departements en fonction de leur taille. Elle croise la variable qualitative departement,
a` 8 modalites, avec la variable taille de lexploitation, quantitative decoupee en 6 classes. Les
donnees, ainsi que les resultats numeriques obtenus avec la procedure corresp de SAS/STAT,
sont fournis en annexe.
La figure 5 presente le premier plan factoriel utilisant les coordonnees obtenues par defaut,
cest`adire celles de la double ACP.
6
6.1
Complements
Proprietes
Formule de reconstitution des donnees. On appelle ainsi lapproximation dordre q (cest
a` dire fournie par lAFC en dimension q) de la table des frequences initiales ( n1 T) :
q
X
p
k uk` vhk .
k=1
62
0.3
SINF1
h.g.
S1_5
arie
0.2
A
x
e
0.1
S_100
S50_99
gers
0.0
h.p.
S20_50
t.g.
S10_20
lot
tarn
-0.1
aver
S5_10
-0.2
-0.5
-0.3
-0.1
0.1
Axe
0.3
0.5
0.7
F IG . 5.1 Repartition des exploitations agricoles par taille et par departement. Premier plan de
lAFC.
Les valeurs propres verifient :
d
X
k = 2 .
k=1
d
X
k = 1 +
k=0
2
= 1 + 2 ;
n
do`u le resultat.
6.2
Invariance
Les tables de contingence T et T, IR+ , admettent la meme AFC (evident).
Propriete dequivalence distributionnelle : si deux lignes de T, ` et i, ont des effectifs
proportionnels, alors les representations de x` et xi sont confondues (leurs profils sont identiques) et le regroupement de x` et xi en une seule modalite (en additionnant les effectifs)
laisse inchangees les representations graphiques (meme chose pour les colonnes de T).
Cette propriete est une consequence de la metrique du 2 .
6.3
Choix de la dimension q
Le choix de la dimension pose les memes probl`emes quen ACP De nombreuses techniques
empiriques ont e te proposees (essentiellement : part dinertie expliquee, e boulis des valeurs propres).
Il existe e galement une approche probabiliste qui peut donner des indications interessantes. Nous
la detaillons cidessous.
Posons
q
nc
`h = nf`+ f+h + n
q
X
p
k uk` vhk ,
k=1
6. Complements
63
estimation dordre q de leffectif conjoint de la cellule (`, h). Alors, sous certaines conditions
(echantillonnage, n grand, mod`ele multinomial . . . ), on peut montrer que
Kq =
r X
c
q 2
X
(n`h nc
)
`h
`=1 h=1
q
nc
`h
'n
d
X
k=q+1
suit approximativement une loi de 2 a` (rq 1)(cq 1) degres de liberte. On peut donc retenir
pour valeur de q la plus petite dimension pour laquelle Kq est inferieure a` la valeur limite de cette
loi. Le choix q = 0 correspond a` la situation o`u les variables sont proche de lindependance en
probabilites ; les frequences conjointes sont alors bien approchees par les produits des frequences
marginales.
64
Chapitre 6
Analyse des Correspondances Multiples
Cette methode est une generalisation de lAnalyse Factorielle des Correspondances, permettant de decrire les relations entre p (p > 2) variables qualitatives simultanement observees sur
n individus. Elle est aussi souvent utilisee pour la construction de scores comme prealable a` une
methode de classification (nuees dynamiques) necessitant des donnees quantitatives.
1
1.1
1 si X(i) = Xk ,
0 sinon,
c
X
xki
= 1, i et
n
X
xki = nk .
i=1
k=1
Considerons P
maintenant p variables qualitatives X 1 , . . . , X p . On note cj le nombre de modaj
lites de X , c = pj=1 cj et Xj la matrice des indicatrices de X j .
On appelle alors tableau disjonctif complet la matrice X, n c, obtenue par concatenation des
matrices Xj :
X = [X1 | |Xp ].
X verifie :
c
X
k=1
xki = p, i et
n X
c
X
xki = np.
i=1 k=1
Dautre part, la somme des e lements dune colonne de X est e gale a` leffectif marginal de la
modalite de la variable X j correspondant a` cette colonne.
65
66
1.2
Tableau de Burt
On observe toujours p variables qualitatives sur un ensemble de n individus. On appelle tableau de Burt la matrice B, c c, definie par :
B = X0 X.
On peut e crire B = [Bjl ] (j = 1, . . . , p ; l = 1, . . . , p) ; chaque bloc Bjl , de dimension cj cl , est
defini par :
Bjl = X0j Xl .
Si j 6= l, Bjl est la table de contingence obtenue par croisement des variables X j en lignes et X l
en colonnes. Si j = l, le bloc diagonal Bjj est luimeme une matrice diagonale verifiant :
Bjj = diag (nj1 , . . . , njcj ).
La matrice B est symetrique, deffectifs marginaux njl p et deffectif total np2 .
1.3
2
2.1
T = X = [X1 |X2 ] ;
1
Dr =
In ;
n
1 Dr 0
1
Dc =
= ;
0 Dc
2
2
1 0 1 1 0
T Dr = X ;
A =
2
2n
1
1
1
T Dc = X1 .
B =
n
2n
On consid`ere ici lAFC comme une double ACP : celle des profilslignes A, puis celle des
profilscolonnes B.
2.2
67
Les profilslignes, provenant de T, sont associes aux n individus observes. Leur ACP conduit
ainsi a` une representation graphique des individus, inconnue en AFC classique.
P ROPOSITION 6.1. LACP des profilslignes issue de lAFC realisee sur le tableau disjonc1
tif complet associe a` 2 variables qualitatives conduit a` lanalyse spectrale de la matrice Dc
symetrique et positive :
1 Ir B
AB =
.
2 A Ic
Les r + c valeurs propres de A B secrivent
k =
o`u les k sont les valeurs propres de la matrice AB (donc celles de lAFC classique de X 1 et
X 2 ).
1
U
V
;
1
[X1 Cr + X2 Cc ] 1/2 ,
2
2.3
Les profilscolonnes sont associes aux r + c modalites des variables. Leur ACP conduit donc
a` une representation graphique de ces modalites dont on verra quelle est tr`es voisine de celle
fournie par une AFC classique.
68
P ROPOSITION 6.2. LACP des profilscolonnes issue de lAFC realisee sur le tableau disjonc1
tif complet associe a` 2 variables conduit a` lanalyse spectrale de la matrice Dr symetrique et
positive :
1
0
1 0
BA =
X1 D1
r X1 + X2 Dc X2 .
2n
Les r + c valeurs propres non nulles de B A sont les k .
1
1
Cr M1/2 .
n
1+ k
2k ,
De plus, cette approche permet aussi de realiser une representation graphique des individus
` un facteur pr`es, chaque indiavec les coordonnees contenues dans les lignes de la matrice Cr . A
vidu apparat comme le barycentre des 2 modalites quil a presentees. Dans le cas o`u n est grand,
le graphique des individus a neanmoins peu dinteret ; seule sa forme generale peut en avoir un.
Remarque. Si, dans lAFC classique, on choisit dutiliser, pour la representation simultanee
des modalites de X 1 et de X 2 , les lignes des matrices
1/2
1/2
Cr = D1
et Cc = D1
r U = Cr
c V = Cc
(voir chapitre precedent, soussection 4.4), alors on obtient par AFC du tableau disjonctif complet
la matrice
Cr
Cc = Cc M1/2 =
;
Cc
il y a invariance de la representation des modalites lorsquon passe dune methode a` lautre. Pour
les individus, on obtient
1
Cr = [X1 Cr + X2 Cc ] M1/2
2
(le commentaire est alors le meme quavec Cr ).
Dans cette section, on sinteresse aux resultats fournis par lAFC realisee sur le tableau de
Burt B = X0 X, (r + c) (r + c), relatif aux 2 variables X 1 et X 2 ; B est encore considere comme
une table de contingence. La matrice B e tant symetrique, les profilslignes et les profilscolonnes
sont identiques ; il suffit donc de considerer une seule ACP
Les notations des matrices usuelles de lAFC sont maintenant reutilisees surmontees dun
tilde. On obtient ainsi :
69
nDr
T
;
T0 nDc
1
fr = D
fc = 1 Dr 0
D
= = Dc ;
0 Dc
2
2
e = B
e = 1 Ir B = A B.
A
2 A Ic
e = B=
T
orthonormes
e =V
e =V= 1 U .
U
2 V
f
f
f
Cr (= Cc ) = Cr M = Cc =
.
Cc
Ainsi, si lon utilise ce mode de representation graphique, les trois approches de lAFC que
nous avons presentees conduisent a` la meme representation simultanee des modalites des 2
variables : il y a donc invariance de cette representation.
Dans les deux cas dAFC consideres dans ce chapitre (sur tableau disjonctif complet et
sur tableau de Burt) on trouve, par construction, des valeurs propres non nulles sans signification statistique. En consequence, les crit`eres de qualite sexprimant comme une part
dinertie expliquee nont plus de signification.
LAFC sur tableau de Burt ne prend en compte que linformation contenue dans B qui ne
consid`ere que les croisements de variables prises deux a` deux. En consequence, les interactions de niveau plus e leve sont ignorees par cette approche, a` moins de proceder a` des
recodages de variables comme lexplique lexemple presente dans la section 5.
70
4
4.1
1
diag (nj1 , . . . , njcj ) et = diag (D1 . . . Dp ) ( est carree dordre c et diagonale).
n
4.2
Comme dans le cas p = 2, on reprend les notations de lAFC classique en les surlignant. On
obtient ainsi :
T = X;
1
Dr =
In ;
n
1
Dc =
;
p
1 0
A =
X ;
p
1
B =
X1 .
n
ACP des profilslignes
P ROPOSITION 6.5. LACP des profilslignes issue de lAFC realisee sur le tableau disjonctif
1
complet de p variables qualitatives conduit a` lanalyse spectrale de la matrice Dc symetrique
et positive :
1
AB =
B1 .
np
Il y a m (m c p) valeurs propres notees k , (0 < k < 1) rangees dans la matrice
diagonale M.
1
V1
V = ... ;
Vp
71
p
X
Xj D1
j Vj .
j=1
Comme dans le cas p = 2, la matrice des composantes principales permet de realiser une
representation graphique des individus dans laquelle chacun apparat, a` un facteur pr`es, comme le
barycentre des p modalites quil a presentees.
Remarque. La generalisation au cas p > 2 restreint les proprietes. Ainsi, les vecteurs des blocs
Vj ne sont pas les vecteurs propres D1
es dune matrice connue.
j orthonorm
ACP des profilscolonnes
P ROPOSITION 6.6. LACP des profilscolonnes issue de lAFC realisee sur le tableau disjonc1
tif complet de p variables conduit a` lanalyse spectrale de la matrice Dr symetrique et positive :
p
BA =
1
1 X
0
X1 X0 =
Xj D1
j Xj .
np
np
j=1
C1
Cc = ... .
Cp
Chaque bloc Cj , de dimension cj m, fournit en lignes les coordonnees des modalites de la
variable X j permettant la representation graphique simultanee.
4.3
Le tableau de Burt B = X0 X, carre dordre c, e tant symetrique, les profilslignes et les profils
colonnes sont identiques ; on ne consid`ere donc ici quune seule ACP
En utilisant encore le tilde dans ce cas, les matrices usuelles de lAFC deviennent :
e = B;
T
fr = D
fc = 1 = Dc ;
D
p
1
e = B
e =
A
B1 = A B.
np
72
P ROPOSITION 6.7. LACP des profilslignes (ou des profilscolonnes) issue de lAFC realisee
sur le tableau de Burt associe a` p variables qualitatives conduit a` lanalyse spectrale de la mafc 1 symetrique et positive :
trice D
eB
e = AB 2.
A
fc
Elle admet pour matrice de vecteurs propres D
e =V
e = V.
orthonormes U
C1
= ... M1/2 .
Cp
fr = C
fc = Cc M1/2
C
4.4
Variables illustratives
Soit X 0 une variable qualitative, a` c0 modalites, observee sur les memes n individus que les
et netant pas intervenue dans lAFCM Soit T0j la table de contingence c0 cj croisant les
variables X 0 en lignes et X j en colonnes. Lobjectif est maintenant de representer les modalites
de cette variable supplementaire X 0 dans le graphique de lAFCM realisee sur X 1 , . . . , X p . Pour
cela, on consid`ere les matrices :
Xj
B0 = [T01 | . . . |T0p ] ;
1
D0 =
diag (n01 , . . . , n0c0 ) ;
n
1 1
A0 =
D B0 .
np 0
Les coordonnees des modalites de la variable supplementaires X 0 sur les axes factoriels sont
alors fournies dans les lignes de la matrice
fc
C0 = A0 D
4.5
e = pA0 1 V.
V
Interpretation
Les representations graphiques sont interpretees de mani`ere analogue a` ce qui est fait dans
lAFC de deux variables, bien que la representation simultanee des modalites de toutes les variables ne soit pas, en toute rigueur, reellement justifiee.
Les principes suivants sont donc appliques :
on interpr`ete globalement les proximites et les oppositions entre les modalites des differentes
variables, comme en AFC, en privilegiant les modalites suffisamment e loignees du centre
du graphique (attention aux modalites a` faible effectif !) ;
5. Exemple
73
les rapports de valeurs propres ne sont pas interpretables comme indicateurs de qualite globale ; on peut neanmoins regarder la decroissance des premi`eres valeurs propres pour choisir
la dimension ;
les coefficients de qualite de chaque modalite ne peuvent pas e tre interpretes ; seules les
contributions des modalites a` linertie selon les axes sont interpretees, selon le meme principe quen AFC
Exemple
LAFCM ne donne pas non plus de resultats interessants sur les donnees bancaires.
5.1
Les donnees
le centre de diagnostic,
la tranche dage,
le degre dinflammation chronique,
lapparence relative (benigne ou maligne).
Lobjectif de cette e tude est une analyse descriptive de cette table en recherchant a` mettre en
e vidence les facteurs de dec`es.
5.2
Analyse brute
On se reportera a` la figure 5.1. La variable survie, qui joue en quelques sortes le role de variable
a` expliquer, est tr`es proche de laxe 2 et semble liee a` chacune des autres variables.
5.3
Pour essayer de mettre en e vidence deventuelles interactions entre variables, les donnees sont
reconsiderees de la facon suivante :
ge sont croisees, pour construire une variable c x a
ge, a` 9
les variables centre et a
modalites ;
les variables inflam et appar sont e galement croisees pour definir la variable histol,
a` 4 modalites.
Une nouvelle analyse est alors realisee en considerant comme actives les deux variables nouvellement cree es, ainsi que la variable survie, et comme illustratives les variables initiales :
centre,
age, inflam, appar. Les resultats sont donnes dans la figure 5.3.
74
A
x
e
2
1.0
A>70
0.9
0.8
0.7
0.6
0.5
0.4
0.3
Cbos
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
-0.6
-0.7
-1
Snon
Igra
Tmal
Cgla
A>-<
Ipet
Soui
A<50
Tben
Ctok
0
1
Axe 1
5. Exemple
75
2
X TH>g7- m
Igra
1
XT>Hg-b
Tmal
XG<5
XG>7
C g l aH pS -n mo n
Ctok
A
x
e
XT<5
0
A<50
S o u iA > - <
X GX>B-< 5
A>70
Ipet
Tben
Hp-b
Cbos
-1
XB>-
XB>7
-2
-2
-1
Axe 1
76
Centre
Tokyo
Age
< 50
50 69
> 70
Boston
< 50
50 69
> 70
Glamorgan
< 50
50 69
> 70
Survie
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
non
oui
Histologie
Inflammation minime Grande inflammation
Maligne
Benigne
Maligne Benigne
9
7
4
3
26
68
25
9
9
9
11
2
20
46
18
5
2
3
1
0
1
6
5
1
6
7
6
0
11
24
4
0
8
20
3
2
18
58
10
3
9
18
3
0
15
26
1
1
16
7
3
0
16
20
8
1
14
12
3
0
27
39
10
4
3
7
3
0
12
11
4
1
Chapitre 7
Positionnement multidimensionnel
1
Introduction
Considerons n individus. Contrairement aux chapitres precedents, on ne connat pas les observations de p variables sur ces n individus mais les 1/2n(n 1) valeurs dun indice (de distance,
similarite ou dissimilarite) observees ou construites pour chacun des couples dindividus. Ces informations sont contenues dans une matrice (n n) D. Lobjectif du positionnement multidimensionnel (multidimensional scaling ou MDS ou ACP dun tableau de distances) est de construire, a`
partir de cette matrice, une representation euclidienne des individus dans un espace de dimension
reduite q qui approche au mieux les indices observes.
Exemple : Considerons un tableau avec, en ligne, les individus dun groupe et en colonne les
pays de la C.E. La valeur 1 est mise dans une case lorsque lindividu de la ligne a passe au moins
une nuit dans le pays concerne. Il est alors facile de construire une matrice de similarite avec
un indice qui compte le nombre de 1 apparaissant dans les memes colonnes de tous les couples
dindividus. Lobjectif est ensuite dobtenir une representation graphique rapprochant les individus
ayant visite les memes pays.
Les preuves des propositions sont omises dans cet expose succinct, elles sont a` chercher dans
la bibliographie. Voir par exemple Mardia et col. (1979).
2
2.1
Distance, similarites
Definitions
D E FINITION 7.1.
Une matrice (n n) D est appelee matrice de distance si elle est symetrique et si :
djj = 0 et (j, k), j 6= k, dkj 0.
Une matrice (n n) C est appelee matrice de similarite si elle est symetrique et si
(j, k), ckj cjj .
Une matrice de similarite se transforme en matrice de distance par :
dkj = (cjj + ckk 2ckj )1/2 .
77
78
D E FINITION 7.2. Une matrice de distance est dite euclidienne sil existe une configuration de
vecteurs {x1 , . . . , xn } dans un espace euclidien E de sorte que
2
dkj = hxj xk , xj xk i .
2
3.1
Variables quantitatives
On note X et Y deux variables statistiques dont les observations sur les memes n individus
sont rangees dans les vecteurs centres x et y de lespace euclidien F muni de la metrique des
poids D. On verifie facilement :
cov(X, Y ) = x0 Dy
= kxkD
x0 Dy
cor(X, Y ) =
.
kxkD kykD
X
79
P ROPOSITION 7.4. La distance entre variables quantitatives d2 (X, Y ) est encore le carre de
la distance kPx Py kD entre les projecteurs D-orthogonaux sur les directions engendrees par
les vecteurs x et y.
Demonstration. Un projecteur de rang 1 secrit :Px = xx0 1/(kxk2D )D,
kPx Py k2D = tr(Px Py )0 D(Px Py ) = kPx k2D + kPy k2D 2trPx 0 DPy .
Comme un projecteur est de norme son rang cest-`a-dire ici 1 et que :
trPx 0 DPy = tr
xx0
x0 Dy
yy0
x0 Dy
= cor2 (X, Y )
D
D
=
2
2
kxk
kyk
kxk
kyk
kxkD kykD
D
D
D
D
3.2
Variables qualitatives
3.3
La meme demarche sadapte a` letude dune liaison entre une variable quantitative X, son
projecteur associe Px et une variable qualitative Y representee par le projecteur PY . On montre
alors (cf. Saporta 1976)
P ROPOSITION 7.6. Dans le cas dune variable quantitative X et dune variable qualitative Y ,
kPx PY k2D = 2(1 Rc2 (X, Y ))
o`u Rc designe le rapport de correlation.
Le rapport de correlation (Cf. T1) est, dans ce cas, lindice de similarite qui conduit a` la construction dune distance euclidienne entre variables de types differents.
On aboutit ainsi a` une certaine generalisation de la notion de similarite entre variables conduisant, quelque soit le type des variables, a` des distances euclidiennes. Neanmoins, en pratique, il
napparat pas simple de comparer, sur la meme e chelle entre 0 et 1, des liaisons entre variables
de types differents. Les coefficients de correlations se repartissent plus communement sur toute
lechelle alors que les indices de Tschuprow sont souvent confines sur des petites valeurs.
80
4.1
Proprietes
La solution est decrite dans les theor`emes (Mardia 1979) ci-dessous :
5. Exemple
81
2
bres
hend
laba
lour
1
ando
A
x
e
toul
perp
mont
mars
-1
nice
n a n t r e ns nt m a
cher
ange
poit
lema caen
limo tour
leha
roue
orle
bour
boul
pari
clem
amie cala
lill
troy reim
brux
g r le yn o n
dijo
b o r dr o y a
gene
cham
besa
nanc
m e lt uz x e
bmaulleh s t r a
-2
-3
-2
-1
Axe 1
F IG . 7.1 Positionnement de 47 villes a` partir de la matrice de leurs distances kilometriques.
a` considerer la matrice des produits scalaires HYM(HY)0 = XMX0 qui am`ene aux memes
Exemple
Cet exemple sinteresse aux distances kilometriques par route (Source : IGN) entre 47 grandes
villes en France et dans les pays limitrophes. Toutes ces valeurs sont rangees dans le triangle
inferieur dune matrice carree avec des 0 sur la diagonale. La structure du reseau routier fait que
cette matrice de distance nest pas euclidienne, mais, comme le montre le graphique issu dun
positionnement multidimensionnel, lapproximation euclidienne en est tr`es proche.
82
AGER
LGAGTL
1
A
x
e
ENDETL
G A GG EA TG LE M L
0 V I E M T LH A V E F L
ITAVCL
X LTGAMVTELP L
-1
MQOCYRREVDLL
BOPPNL
GAGECL
DNBJDL
OPGNBL
YLVMTL
DMVTPL
-2
-2
-1
Axe 1
F IG . 7.2 Positionnement, conformement aux carres de leurs correlations, des variables quantitatives observees sur les donnees bancaires.
83
16 14
12 10
Number of Clusters
F IG . 7.3 Classification (varclus) des variables quantitatives observees sur les donnees bancaires.
rotation oblique. Il proc`ede par classification hierarchique descendante de lensemble des variables
et realise a` chaque e tape les traitements suivants :
selection du sous-groupe de variable dont lACP conduit a` la plus faible part de variance
expliquee par le premier axe ou (en option) la plus forte du 2`eme axe,
rotation des deux premiers axes de lACP pour les rapprocher des variables et segmentation
des variables en deux groupes par affectation a` laxe avec lequel elles sont le plus correlees.
Lalgorithme sarrete lorsque la dimension dans chaque groupe est jugee e tre e gale a` 1. Par defaut,
lorsque dans chaque groupe, une seule valeur propre est plus grande que 1.
84
Chapitre 8
Classification
1
Introduction
1.1
Les donnees
Comme dans le cas du chapitre precedent (MDS), les donnees peuvent se presenter sous
differentes formes ; elles concernent n individus supposes affectes, pour simplifier, du meme
poids :
i. un tableau de distances (ou dissimilarites, ou mesure de dissemblance), (n n) entre les
individus pris deux a` deux ;
ii. les observations de p variables quantitatives sur ces n individus ;
iii. les observations, toujours sur ces n individus, de variables qualitatives ou dun melange de
variables quantitatives et qualitatives.
Dune facon ou dune autre, il sagit, dans chaque cas, de se ramener au tableau des distances
deux a` deux entre les individus (cest-`a-dire au premier cas). Le choix dune matrice de produit
scalaire permet de prendre en compte simplement un ensemble de variables quantitatives tandis
que le troisi`eme cas necessite plus de developpements, objets de la section suivante.
1.2
Objectif
1.3
Les methodes
85
86
Chapitre 8. Classification
par la formule :
1 X
k
n k
k = 0Kk (1) (K k)
K!
K
Il nest donc pas question de chercher a` optimiser le crit`ere sur toutes les partitions possibles.
Les methodes se limitent a` lexecution dun algorithme iteratif convergeant vers une bonne
partition qui correspond en general a` un optimum local. Meme si le besoin de classer des objets
est tr`es ancien, seule la generalisation des outils informatiques en a permis lautomatisation dans
les annees 70. Celeux et col. (1989) decrivent en detail ces algorithmes.
Differents choix sont laisses a` linitiative de lutilisateur :
une mesure deloignement (dissemblance, dissimilarite ou distance) entre individus ;
le crit`ere dhomogeneite des classes a` optimiser : il est, dans le cas de variables quantitatives,
generalement defini a` partir de la traces dune matrice de variances-covariances ; soit les
variances et covariances interclasses (la trace correspond alors a` linertie de la partition),
soit les variances et covariances intraclasse ;
la methode : la classification ascendante hierarchique ou celle par reallocation dynamique
sont les plus utilisees, seules ou combinees,
le nombre de classes ; cest un point delicat.
Enfin, differents outils recherchent une interpretation ou des caracterisations des classes obtenues.
Les principes algorithmiques de ces methodes sont relativement e lementaires.
Classification ascendante hierarchique ou CAH
Il sagit de regrouper iterativement les individus, en commencant par le bas (les deux plus
proches) et en construisant progressivement un arbre ou dendrogramme, regroupant finalement
tous les individus en une seule classe, a` la racine (cf. figure 3.4 qui reprend les donnees e lementaires
du chapitre precedent). Ceci suppose de savoir calculer, a` chaque e tape ou regroupement, la distance entre un individu et un groupe ou la distance entre deux groupes. Ceci necessite donc, pour
lutilisateur de cette methode, de faire un choix supplementaire : comment definir la distance
entre deux groupes connaissant celles de tous les couples dindividus entre ces deux groupes.
Differents choix, appeles saut en francais et linkage en anglais, sont detailles plus loin. Le nombre
de classes est determine a posteriori, a` la vue du dendrogramme ou dun graphique representant
la decroissance de la hauteur de chaque saut, ou e cart de distance, opere a` chaque regroupement.
Reallocation dynamique
Dans ce cas, le nombre de classes, k, est fixe a priori. Ayant initialise k centres de classes
par tirage aleatoire, tous les individus sont affectes a` la classe dont le centre est le plus proche
au sens de la distance choisie (en principe, euclidienne pour cette methode). Dans une deuxi`eme
e tape, lalgorithme calcule des barycentres de ces classes qui deviennent les nouveaux centres. Le
procede (affectation de chaque individu a` un centre, determination des centres) est itere jusqu`a
convergence vers un minimum (local) ou un nombre diterations maximum fixe.
Classification mixte
La CAH necessite imperativement la construction dun tableau de distances n n et son
stockage en memoire ; le nombre maximum dindividus traites peut sen trouver limite. Ce nest
pas le cas dans lalgorithme de reallocation, do`u linteret possible dune approche mixte pour, a`
la fois, classer de grands volumes de donnees et selectionner le nombre de classes par CAH.
2. Mesures deloignement
87
Mesures deloignement
2.1
symetrie ;
1
s(i, j), (i, j) ;
S
2.2
symetrie ;
1
d(i, j), (i, j)
D
2.3
Indice de distance
Un indice de distance est, par definition, un indice de dissemblance qui verifie de plus la
propriete :
d(i, j) = 0 = i = j.
Cette propriete e vite des incoherences pouvant apparatre entre dissemblances, par exemple :
k : d(i, k) 6= d(j, k),
88
2.4
Chapitre 8. Classification
Distance
Une distance sur est, par definition, un indice de distance verifiant en plus la propriete
dinegalite triangulaire. Autrement dit, une distance d est une application de dans IR+
verifiant :
d(i, j) = d(j, i), (i, j) ;
d(i, i) = 0 i = j ;
d(i, j) d(i, k) + d(j, k), (i, j, k) 3 .
Si est fini, la distance peut e tre normee.
2.5
Distance euclidienne
Dans le cas o`u est un espace vectoriel muni dun produit scalaire, donc dune norme, la
distance definie a` partir de cette norme est appelee distance euclidienne :
d(i, j) = < i j, i j >1/2 = ki jk.
La condition pour quune matrice donnee de distances entre e lements dun espace vectoriel
soit issue dune distance euclidienne est explicitee dans le chapitre precedent. Toute distance nest
pas necessairement euclidienne ; voir, par exemple, celle construite sur la valeur absolue.
2.6
Utilisation pratique
Concr`etement, il peut arriver que les donnees a` traiter soient directement sous la forme dune
matrice dun indice de ressemblance ou de dissemblance. Il est alors facile de la transformer en
une matrice de dissemblances normees avant daborder une classification.
Nous precisons ci-dessous les autres cas.
Donnees quantitatives
Lorsque les p variables sont toutes quantitatives, il est necessaire de definir une matrice M de
produit scalaire sur lespace IRP . Le choix M = Ip , matrice identite, est un choix e lementaire et
courant ; mais il est vivement conseille de reduire les variables de variances heterog`enes, comme
en ACP, ce qui revient a` considerer, comme matrice de produit scalaire, la matrice diagonale
composee des inverses des e carts-types :
M = 1 = diag (
1
1
).
1
p
La metrique dite de Mahalanobis (inverse de la matrice des variances-covariances) peut aussi e tre
utilisee pour attenuer la structure de correlation.
Donnees qualitatives
Dans le cas tr`es particulier o`u toutes les variables sont binaires (presence, absence de caracteristiques), de nombreux indices de ressemblances ont e te proposes dans la litterature. Ils sont
bases sur les quantites suivantes definis pour deux individus i et j distincts :
aij = nombre de caract`eres communs a` i et j sur les p consideres,
bij = nombre de caract`eres possedes par i mais pas par j,
cij = nombre de caract`eres possedes par j mais pas par i,
89
d22
n X X j` 1
=
p
ik j .
p
n`
j=1
`=1
o`u mj est le nombre de modalites de la variable qualitative Y j , nj` est leffectif de la `i`eme moj`
dalite de Y j et ik
vaut 1 si les individus i et k presentent une discordance pour la `i`eme modalite
j
de la variables Y et 0 sinon. Limportance donnee a` une discordance est dautant plus importante
que les modalites considerees sont rares. Le coefficient n/p peut e tre omis.
Melange quantitatif, qualitatif
Differentes strategies sont envisageables dependant de limportance relative des nombres de
variables qualitatives et quantitatives.
Rendre tout qualitatif . Les variables quantitatives sont rendues qualitatives par decoupage en
classes. Les classes dune meme variable sont generalement recherchees deffectifs sensiblement e gaux : bornes des classes e gales a` des quantiles. La metrique a` utiliser est alors
celle du 2 decrite ci-dessus.
Rendre tout quantitatif a` laide dune AFCM. Une AFCM est calculee sur les seules variables
qualitatives ou sur lensemble des variables apr`es decoupage en classes des variables quantitatives. LAFCM calculee par AFC du tableau disjonctif complet produit des scores (cf.
chapitre 6) qui sont les composantes principales de lACP des profils-lignes. Dans le cas
dune AFCM partielle des seules variables qualitatives, les variables quantitatives restantes
doivent e tre necessairement reduites. Ces scores sont ensuite utilises commes coordonnees
quantitatives des individus en vue dune classification.
2.7
En resume
Une fois ces preliminaires accomplis, nous nous retrouvons donc avec
soit un tableau de mesures quantitatives n p associe a` une matrice de produit scalaire p p
(en general Ip ) definissant une metrique euclidienne,
soit directement un tableau n n de dissemblances ou distances entre individus.
Attention, si n est grand, la deuxi`eme solution peut se heurter rapidement a` des probl`emes de
stockage en memoire pour lexecution des algorithmes.
90
3.1
Chapitre 8. Classification
Principe
Linitialisation de cet algorithme consiste, sil nest dej`a donne, a` calculer un tableau de distances (ou de dissemblances) entre les individus a` classer. Lalgorithme demarre alors de la partition triviale des n singletons (chaque individu constitue une classe) et cherche, a` chaque e tape, a`
constituer des classes par agregation des deux e lements les plus proches de la partition de letape
precedente. Lalgorithme sarrete avec lobtention dune seule classe. Les regroupements successifs sont representes sous la forme dun arbre binaire ou dendrogramme.
3.2
` chaque e tape de lalgorithme, il est necessaire de mettre a` jour le tableau des distances (ou
A
des dissemblances). Apr`es chaque regroupement, de deux individus ou de deux classes ou dun
individu a` une classe, les distances entre ce nouvel objet et les autres sont calculees et viennent
remplacer, dans la matrice, les dissemblances des objets qui viennent detre agreges. Differentes
approches sont possibles a` ce niveau correspondant a` differentes CAH.
Notons A et B deux groupes ou e lements dune partition donnee, wA et wB leurs ponderations,
et di,j la distance entre deux individus quelconques i et j.
Le probl`eme est de definir d(A, B) la distance entre deux e lements dune partition de .
Cas dune dissemblance
Les strategies ci-dessous saccomodent dun simple indice de dissemblance defini entre les
individus. Elles sappliquent e galement a` des indices plus structures (distance) mais nen utilisent
pas toutes les proprietes.
d(A, B) =
d(A, B) =
iA,jB
d(A, B) =
1
card(A)card(B)
dij
iA,jB
3.3
Algorithme
91
3.4
Graphes
Ce chapitre est illustre par letude de donnees decrivant le traffic sur 50 lignes de chemin de fer
pour les mois de mars, juillet aout et octobre. On sinteresse plus partivuli`erement aux profils de
ces traffics. En effet, les donnees e tant des effectifs de voyageurs, pour e viter une classification triviale basee sur le traffic absolu de chaque ligne, on utilise la metrique du 2 entre profils lignes des
donnees considerees comme une table de contingence. La classification est donc construite a` partir
` lissue de lexecution, la classification ascendante
de la matrice de ces distances entre lignes. A
hierarchique fournit deux graphiques :
un graphique aide au choix du nombre de classes (cf. figure3.4). Il represente, a` rebours,
la decroissance en fonction du nombre de classes de la distance entre les agregations de
classes. Dans le cas du saut de Ward, il sagit des e carts observes par le rapport de la variance
inter sur la variance totale (R2 partiel). La presence dune rupture importante dans cette
decroissante aide au choix du nombre de classes comme dans le cas du choix de dimension
en ACP avec leboulis des valeurs propres. Dans ce cas, il faut lire le graphe de droite
a` gauche et sarreter avanr le premier saut juger significatif. Lindice de Ward est le plus
generalement utilise, cela revient a` couper larbre avant une perte, juger trop importante, de
la variance inter classe.
le dendrogramme (cf. figure3.4) est une representation graphique, sous forme darbre binaire, des agregations successives jusqu`a la reunion en une seule classe de tous les individus. La hauteur dune branche est proportionnel a` lindice de dissemblance ou distance
entre les deux objets regroupes. Dans le cas du saut de Ward, cest la perte de variance
inter-classe.
Une fois un nombre de classes selectionne (ici 4) a` laide du premier graphique, une coupure
de larbre (deuxi`eme graphique) fournit, dans chaque sous-arbre, la repartition des individus en
classes. Ces classes sont ensuite representees dans les axes dune analyse factorielle, en general
une ACP, mais qui peut e tre un MDS lorsque les donnees initiales sont un tableau de distances
ou encore, dans le cas present, une AFCM. Cette representation (fig. 3.4) est indispensable pour
se faire une bonne idee intuitive de la qualilte de separation des classes. La meme demarche
appliquee aux donnees constituees de la matrice des distances kilometriques entre villes conduit a`
une classification en 5 classes representees dans les coordonnees du MDS (figure 3.4).
Il est a` noter que ces exemples sont relativement simples et bien structures. Dans ce cas,
modifier le crit`ere de saut ne change pas grand chose. Mais, attention, il est facile de verifier
experimentalement quune classification ascendante est un objet tr`es sensible. En effet, il suffit de
modifier une distance dans le tableau, par exemple de reduire sensiblement la distance de Grenoble
a` Brest, pour que la classification (nombre de classes, organisation) devienne tr`es sensible au choix
du crit`ere de saut. En revanche, la structure des donnees fait que la representation factorielle de
lACP du tableau de distance (MDS) soit plus robuste a` ce type derreur de mesure.
92
Chapitre 8. Classification
Semi-Partial R-Squared
0.12
0.11
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
2
Number of Clusters
F IG . 8.1 Traffic : Decroissance de la variance inter classes a` chaque regroupemet dans le cas
du saut de Ward.
Principes
Differents types dalgorithmes ont e te definis autour du meme principe de reallocation dynamique des individus a` des centres de classes, eux-memes recalcules a` chaque iteration. Ces
algorithmes requi`erent une representation vectorielle des individus dans IRp muni dune metrique
generalement euclidienne. Une adaptation de cet algorithme, PAM (pour Partitioning clustering
of the data into k clusters Around Medods ; Kaufman & Rousseeuw, 1990), en est une version
robuste, e galement adaptee a` une matrice de dissimilarites. Ce dernier algorithme est en revanche
limite au niveau du nombre dobservations (200).
Il est important de noter que, contrairement a` la methode hierarchique precedente, le nombre
de classes k doit e tre determine a priori.
Ces methodes sont iteratives : apr`es une initialisation des centres consistant, le plus souvent,
a` tirer aleatoirement k individus, lalgorithme rep`ete deux operations juqu`a la convergence dun
crit`ere :
i. Chaque individu est affecte a` la classe dont le centre est le plus proche.
ii. Calcul des k centres des classes ainsi constituees.
4.2
Principale methode
93
Cluster
1
35
36
47
38
3
34
49
4
19
45
44
2
33
14
16
41
42
40
13
29
46
21
32
26
18
24
12
6
39
7
8
5
20
30
11
50
37
9
10
15
27
48
22
17
31
23
25
28
43
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
Semi-Partial R-Squared
F IG . 8.2 Traffic : Exemple dun dendrogramme issu de la classification de donnees fictives par
CAH et saut de Ward.
94
Chapitre 8. Classification
Dim2
0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.8
-0.6
Cluster
-0.4
1
-0.2
Dim1
2
0.0
0.2
3
0.4
0.6
4
95
hend
bres
400
lour
laba
nant rennstma
bord roya
toul
200
ando
limo
cher
poit ange
lema caen
tour
clem
cp2
perp
bour
pari
troy
lyon
dijo
gren
nice
gene
cham
400
200
mont
mars
600
400
besa
200
boul
amie
cala
lill
reim
brux
mulh
bale
800
leha
roue
orle
nanc
metz
luxe
stra
200
400
cp1
F IG . 8.4 Villes : Representation des classes (couleurs) obtenues par CAH dans les coordonnees
du MDS.
96
Chapitre 8. Classification
Initialisation Tirer au hasard ou selectionner, pour des raisons exterieures a` la
methode, k points dans lespace des individus, en general k individus de lensemble, appeles centres ou noyaux.
It
erer les deux e tapes suivantes jusqu`a ce que le crit`ere de variance interclasse ne
croisse plus de mani`ere significative, cest-`a-dire jusqu`a la stabilisation des classes.
i. Allouer chaque individu au centre, cest-`a-dire a` une classe, le plus proche au sens de
la metrique euclidienne choisie ; on obtient ainsi, a` chaque e tape, une classification
en k classes ou moins si finalement une des classes devient vide.
ii. Calculer le centre de gravite de chaque classe : il devient le nouveau noyau ; si une
classe sest videe, on peut e ventuellement retirer aleatoirement un noyau complementaire.
4.3
Proprietes
Convergence Le crit`ere (la variance interclasse) est majore par la variance totale. Il est simple
de montrer quil ne peut que crotre a` chaque e tape de lalgorithme, ce qui en assure la
convergence. Il est e quivalent de maximiser la variance interclasse ou de minimiser la variance intraclasse. Cette derni`ere est alors decroissante et minoree par 0. Concr`etement, une
dizaine diterations suffit generalement pour atteindre la convergence.
Optimum local La solution obtenue est un optimum local, cest-`a-dire que la repartition en classes
depend du choix initial des noyaux. Plusieurs execution de lalgorithme permettent de sassurer de la presence de formes fortes cest-`a-dire de classes ou portions de classes presentes
de mani`ere stable dans la majorite des partitions obtenues.
4.4
Variantes
kmeans
Il sagit dune modification de lalgorithme precedent proposee par Mac Queen (1967). Les
noyaux des classes, ici les barycentres des classes concernees, sont recalcules a` chaque allocation dun individu a` une classe. Lalgorithme est ainsi plus efficace, mais il depend de lodre des
individus dans le fichier.
Nuees dynamiques
La variante proposee par Diday (1971) consiste a` remplace chaque centre de classe par un
noyau constitue delements representatifs de cette classe. Cele permet de corriger linfluence
deventuelles valeurs extr`emes sur le calcul du barycentre.
Partitionning around medods
Cet algorithme, propose par Kaufman & Rousseeuw (1990), permet de classifier des donnees
de facon plus robuste cest-`a-dire moins sensible a` des valeurs atypiques. Il permet e galement de
traiter des matrices de dissimilarites. Les resultats sont fournis dans la figure 4.4, pour lequel le
nombre de classe est fixe a priori a` 5 comme le sugg`ere la CAH, mais pour lesquels les classes
obtenues sont sensiblement differentes.
Combinaison
Chaque methode precedente peut e tre plus ou moins adaptee a` la situation rencontree. La
classification hierarchique, qui construit necessairement la matrice des distances, naccepte quun
5. Combinaison
97
hend
bres
400
lour
laba
nant rennstma
bord roya
toul
200
ando
limo
cher
poit ange
lema caen
tour
clem
cp2
perp
bour
pari
troy
lyon
dijo
gren
nice
gene
cham
400
200
mont
mars
600
400
besa
200
boul
amie
cala
lill
reim
brux
mulh
bale
800
leha
roue
orle
nanc
metz
luxe
stra
200
400
cp1
F IG . 8.5 Villes : Representation des classes (couleurs) obtenues par PAM dans les coordonnees
du MDS.
98
Chapitre 8. Classification
nombre limite dindividus ; de son cote, la reallocation dynamique necessite de fixer a priori le
nombre de classes. La strategie suivante, adaptee aux grands ensembles de donnees, permet de
contourner ces difficultes.
i. Executer une methode de reallocation dynamique en demandant un grand nombre de classes,
de lordre de 10% de n.
ii. Sur les barycentres des classes precedentes, executer une classification hierarchique puis
determiner un nombre optimal k de classes.
iii. Executer une methode de reallocation dynamique sur tout lensemble en fixant a` k le nombre
de classes. Pour initialiser lalgorithme, il est habituel de choisir pour noyaux les barycentres
(calcules en ponderant par les effectifs de classes) des classes de letape precedente.
Interpretation
Dans tous les cas, le resultat fourni est une variable qualitative T dont les modalites precisent
la classe retenue pour chaque individu. Il est alors important de caracteriser chaque classe a` partir
des variables initiales afin den synthetiser les proprietes.
Les outils e lementaires de statistiques descriptive bidimensionnelle sont, dans un premier
temps adaptes a` cet objectif. Statistiques (moyenne, e cart-type...) par classe, diagrammes botes,
rapports de correlations, pour les variables quantitatives, profils, tests dindependance, pour les
variables qualitatives, permettent de determiner les variables les plus liees a` la classification obtenue.
Dautres methodes sont ensuite traditionnellement enchanees : ACP, MDS avec representation
des classes et de leur enveloppe convexe, pour apprecier la qualite de la classification, AFD et/ou
arbre de classification afin daider a` linterpretation de chacune des classes de la typologie par les
variables initiales, AFCM dans le cas de variables qualitatives.
Chapitre 9
Exploration de donnees fonctionnelles
1
Introduction
Ce chapitre est une introduction a` letude exploratoire densembles de donnees dans lesquels
les n individus ou observations ne sont plus considerees comme de simples vecteurs de IRp mais
sont des courbes ou plus generalement des fonctions. Ces fonctions dependent dun indice, traditionnellement le temps t, e voluant dans un intervalle que lon supposera e tre, sans perte de
generalite, un intervalle T = [a, b] de IR. En pratique, ces fonctions sont observees en des instants
de discretisation qui peuvent e tre e quirepartis ou non, identiques ou non, pour chaque courbe. La
figure 9.1 donne un exemple type representant des cumuls mensuels de precipitations.
Depuis une vingtaine dannees, ce type de donnees se rencontre de plus en plus frequemment
avec lautomatisation et linformatisation des procedures de mesure : telemetrie, spectrographie. . . En
consequence, la litterature consacree a` letude de donnees fonctionnelles sest considerablement
developpee. Ce chapitre ne sinteresse qu`a un objectif dexploration ou de reduction de la dimension. Laspect modelisation ou apprentissage est developpe dans le deuxi`eme volet1 .
Historiquement, les premiers travaux peuvent e tre attribues a` des meteorologues ou encore des
chimistes qui furent les premiers a` e tre confrontes a` ce type de donnees ou encore a` des techniques
de traitement du signal associant Analyse en Composantes Principales (ACP) et decomposition de
Karhunen-Loeve. En France, Deville (1974) introduisit une ACP de courbe ou analyse harmonique
et Dauxois et Pousse (1976) propos`erent un cadre synthetique generalisant lanalyse des donnees
multidimensionnelles aux variables aleatoires hilbertiennes qui constituent le cadre theorique a`
lexploration statistique de courbes. Differents developpements impliquant des outils dinterpolation ou de lissage (splines) ont permis dadapter finement lACP a` ce contexte (Besse et Ramsay,
1986 ; Besse et col. 1997) tandis que Ramsay et Silverman (1997) fournissent une bibliographie
detaillee.
Ladaptation de methodes statistiques a` des donnees fonctionnelles requiert un arsenal mathematique
pouvant paratre sophistique voire rebutant. Certains de ces outils theoriques ne sont indispensables que pour aborder les aspects asymptotiques2 . Une introduction e lementaire est proposee en
annexe B. Mais, en pratique, les donnees sont de toute facon discretisees et les calculs realises matriciellement dans des espaces de dimension finie. Dautres outils, essentiellement issus de lanalyse numerique, sont alors indispensables pour rendre leur caract`ere fonctionnel aux observations
1
99
50
100
150
100
10
15
20
Evitant
les developpements trop theoriques, nous insistons dans ce chapitre sur la mise en
uvre matricielle dune ACP de courbes supposees reguli`eres mais observees bruitees. Dans ce
cas, lACP rejoint lobjectif de la regression non parametrique en proposant une estimation simultanee de plusieurs courbes. Elle doit incorporer des outils danalyse numerique adaptes pour
definir des approximations de ces courbes. Les fonctions splines dinterpolation et de lissage remplissent bien ce role mais dautres techniques, comme la decomposition en ondelettes, auraient pu
e tre utilisees notamment si les fonctions que lon cherche a` estimer presentent des singularites.
Pour simplifier la presentation de la methodologie proposee, nous supposons dans ce chapitre que toutes les courbes sont observees selon le meme plan de discretisation cest-`a-dire aux
101
memes instants. Dans le cas contraire, une adaptation a e te proposee par Besse et coll. (1997) afin,
e galement, de pouvoir prendre en compte des donnees manquantes. Celle-ci repose sur lutilisation dune approximation par splines hybrides associant B-splines et splines de lissage. Tous les
programmes3 utilises dans les exemples sont e crits en Splus (1997).
Nous nous interessons dans cette section a` la description et a` lestimation des realisations de
trajectoires zi dun processus Z ou, cest e quivalent, dune variable aleatoire prenant ses valeurs
dans un espace hilbertien. Nous considerons que la variable aleatoire X constitue lobservation
bruitee des trajectoires, supposees reguli`eres, de la variable aleatoire Z. La figure 9.1 donne un
exemple illustratif de telles donnees.
Chacune des n realisations ou trajectoires zi , est donc supposee observee pour un nombre p
dinstants de discretisation t1 , . . . , tp de lintervalle T , les memes pour chaque trajectoire. Cette
mesure introduit des erreurs aleatoires independantes et identiquement distribuees de variance 2 .
La situation correspond donc a` n repetitions supposees independantes dun mod`ele de regression
non-parametrique (B.4) :
xj = z(tj ) + j ; E(j ) = 0, E(j k ) = 2 k, j, k = 1, ..., p
a t1 < t2 < ... < tp b
auquel il faut ajouter lhypoth`ese dindependance entre les differentes realisations de Z et le bruit :
IE(i z0i0 ) = 0.
` ce niveau, il serait possible de considerer lestimation des n trajectoires de Z comme n
A
probl`emes classiques destimation non parametrique de fonctions de regression. Neanmoins, intuitivement et cest verifie par des simulations (Besse et coll. 1997), il est important de tenir compte
du fait quil sagit de lestimation simultanee de n realisations dun meme processus et donc de
tenir compte de la structure de covariance quil est possible destimer. Cest realise en introduisant une contrainte supplementaire issue de lhypoth`ese que la variable Z e volue dans un sousensemble de dimension finie de lespace de Sobolev W 2 (T ) (fonctions continues admettant une
derivee dans L2 ). Ceci revient encore a` e crire que ses trajectoires sexpriment comme combinaisons lineaires dun nombre reduit q de composantes. Ces composantes e tant par ailleurs reguli`eres
du fait de la premi`ere hypoth`ese.
2.1
Mod`ele et estimation
Les observations de chacune des trajectoires sont rangees dans des vecteurs xi de IRp et Aq
designe un sous-espace affine de IRp de dimension q < p. La situation impliquee par lestimation
simultanee de n regressions non parametriques sous une double contrainte de regularite et de
dimension se resume par le mod`ele suivant :
IE(i ) = 0 et IE(i i ) = 2 I,
inconnue, ( > 0)
xi = zi + i ;
avec
(9.1)
xi independant de i0 , i0 = 1, . . . , n,
i = 1, . . . , n
102
zi ,Aq
( n
X
wi kzi
xi k2I
` kzi k2M
)
; z Aq , dimAq = q
(9.2)
i=1
P
Notons par x = ni=1 wi xi la moyenne des coordonnees et par X la matrice des observations
centrees cest-`a-dire dans un contexte detudes climatiques, la matrice des anomalies (xi x) des
observations par rapport a` la moyenne annuelle ; S designe la matrice de covariance empirique :
0
S = X DX.
P ROPOSITION 9.1. La solution du probl`eme(9.2) est donnee par :
1/2 b
1/2
b
zi = A ` P
q A` xi + A` x , i = 1, . . . , n.
1/2
A` SA` .
associes aux q plus grandes valeurs propres.
Les estimations lisses des trajectoires sobtiennent alors par interpolation spline des valeurs contenues dans le vecteur zbi .
Pn
Demonstration. Notons zi le vecteur de IRp contenant les valeurs de zi et z = i=1 wi zi . On definit
la matrice centree Z (n p) dont les vecteurs lignes (zi z0 ) sont contraints a` appartenir au sous-espace
vectoriel Eq = Aq z. Cette contrainte est e quivalente a` imposer a` la matrice Z detre au plus de rang q.
Le crit`ere a` minimiser se decompose de la facon suivante :
n
X
2
2
wi kzi xi kI + ` kzi kM
i=1
n
X
i=1
n
X
+ `
i=1
Les deux derniers termes de cette expression conduisent a` estimer z par lissage spline de la moyenne
empirique :
bq = b
bq .
b
z = A` x donc A
z+E
Les deux premiers termes nous am`enent ensuite a` resoudre :
n
o
2
2
min
Z X
I,D + ` kZkM,D ; rang(Z) = q, q < p
Z(np)
o`u kZkM,D = trZ0 DZM designe la norme euclidienne des matrices (n p).
(9.3)
103
M,D
M2 ,D
Seul le premier terme de cette e quation depend de Z. Par consequent, la solution est la meilleure ape Elle est obtenue par la decomposition en valeurs singuli`eres (DVS)
proximation de rang q de la matrice X.
de XA` relativement aux metriques A1
` et D :
cq = U
e qL
e 1/2 V
e0,
Z
q
q
(
o`u
0
e =U
eL
e
XA` X DU
0
e =V
eL
e
A` X DXV
et
et
e 0 DU
e = I,
U
1
0
e A V
e = I.
V
`
1/2
Cette decomposition en valeurs singuli`eres generalisee est aussi deduite de celle de XA`
I et D :
1/2
XA` = UL1/2 V0
(
1/2 1/2 0
XA` A` X DU = UL et U0 DU = I,
o`u
1/2 0
1/2
A` X DXA` V = VL et V0 V = I.
relativement a`
e = L, U
e = U et V
e = A1/2 V.
On retrouve ensuite L
`
1/2
q
X
j=1
2.2
ej .
he
vj , A` xi iA1 v
(9.4)
Cette methode necessite de regler les valeurs de deux param`etres : la dimension q du sousespace ainsi que celle du param`etre de lissage `. Ce choix doit e tre realise conjointement car, en
pratique, la reduction de dimension op`ere e galement une sorte de lissage ou filtre passe-bas. En
effet, il est courant dobserver sur les derniers vecteurs propres les composantes les plus perturbees
de la fonction aleatoire. Cela sexplique simplement car dans le cas dun processus stationnaire
ou peu e loigne de la stationnarite, son operateur de covariance commute avec loperateur retard
et poss`ede donc les memes fonctions propres periodiques. LACP ressemble alors fortement a` une
decomposition en series de Fourier et cest pourquoi, dans les premiers travaux sur ce type de
donnees, Deville (1974) associait dej`a ACP et analyse harmonique.
Les deux param`etres : dimension et lissage, interf`erent donc lun sur lautre. Plus precisement,
la reduction de dimension permet de moins lisser a` laide des splines et donc de trouver une valeur
104
optimale de ` plus petite que celle qui serait obtenue avec le lissage seul. Cest une des raisons
qui fait que cette ACP fonctionnelle conduit a` de meilleures estimations des courbes quune succession de regression non parametrique pour laquelle chaque param`etre de lissage serait optimise
independamment par validation croisee.
Le meme crit`ere, aidant au choix de dimension (cf. chapitre 3 e quation 3.5) peut e tre utilise. Il
est base sur une approximation du risque moyen quadratique mesurant la qualite destimation du
sous-espace de representation Eq :
2
1
cq
cq
Rq = IE
Pq P
= q trPq P
2
Lapproximation par la theorie des perturbations de lestimation jackknife est donnee par :
p
q
1 Pn
2 2
X
X
1
i=1 cik cij
n
d
R
=
(9.5)
Pq
n1
(j k )2
k=1 j=k+1
1/2
3
3.1
Nous preferons illustrer cette section par un exemple de donnees reelles particuli`erement
bruitees. Il sagit des racines carrees des cumuls mensuels des precipitations de 26 villes en France
observees pendant 10 ans (ECOSTAT 1991). La transformation (racine) sav`ere necessaire afin de
stabiliser la variance comme dans le cadre dun processus de Poisson. Pour traiter un probl`eme
suffisamment complexe on sinteresse a` 265 courbes observees durant 2 annees consecutives.
Letude des donnees annuelles fournit le meme type de resultats mais avec une composante en
moins.
Une ACP classique calculee sur ces donnees fournit les resultats de la figure 9.2. Il sagit
donc des trois premiers vecteurs ou plutot fonctions propres qui, tr`es bruitees, sont difficiles a`
interpreter. Une ACP fonctionnelle incluant une contrainte de regularite controle par le param`etre
de lissage ` a ensuite e te calculee. Le choix simultane de la dimension et de ce param`etre de
lissage est guide par les resultats de la figure 9.3. Celle-ci represente levolution de la stabilite du
sous-espace de representation en fonction de la valeur du param`etre de lissage et pour differentes
d
dimensions. Cet indice R
e au comportement decarts entre valeurs propres est tr`es instable
P q li
donc delicat a` interpreter. Neanmoins, il apparat que pour de petites valeurs de ` (log(`) < 5),
seule la premi`ere composante associee a` une simple tendance est stable. Pour de plus grandes
valeurs (log(`) > 6), les donnees sont sur-lissees et beaucoup de composantes disparaissent. Le
comportement de RP 5 presentant un minimum conduit finalement a` retenir q = 5 et 1.
105
-0.6
-0.4
-0.2
0.0
0.2
0.4
1
2
3
10
15
20
q=1
q=2
q=3
q=4
q=5
q=6
q=7
0.0
0.2
RPq
0.4
0.6
F IG . 9.2 Les trois premi`eres fonctions propres de lACP classique (sans contrainte de regularite)
des donnees pluviometriques. Tr`es irreguli`eres, elles sont difficiles a` interpreter.
-10
-5
0
log(rho)
10
d
F IG . 9.3 Estimation de la stabilite R
P q du sous-espace de projection en fonction de log() et
pour differents choix de dimension.
0.0
0.5
106
-0.5
axes1
axes 2
axes 3
axes 4
axes 5
10
3.2
ACP de temperatures
Cette section est le resultat dune collaboration dAntoniadou et coll. 2000 developpee au sein
dun projet europeen. Les donnees e tudiees sont celles de la serie CET des moyennes mensuelles
des temperatures centrales en Angleterre qui debute en 1659. Cest la plus longue des series de
temperatures enregistrees disponibles pour des e tudes climatiques. Elle represente une moyenne
calculee sur plusieurs stations du centre de lAngleterre ce qui permet, entre autres, de suppleer a`
des valeurs manquantes. Une e tude preliminaire montre que cette serie fait apparatre une tendance
lineaire montrant un rechauffement de lordre de 0,5 C par si`ecle pour les moyennes des mois
dhiver mais seulement de 0,2 C pour les mois dete.
Les moyennes mensuelles de la temperature en Angleterre peuvent e tre considerees comme
lobservation dun processus aleatoire reel et representees par une serie chronologique. Ces donnees
peuvent e galement e tre considerees comme des observations discretisees dun processus aleatoire
(Xi )iZ a` valeurs dans un espace fonctionnel. Supposons que n trajectoires xi , i = 1, . . . , n du processus ont e te mesurees en p instants de discretisation {t1 , t2 , . . . , tp }. Ainsi, les donnees peuvent
e tre rangees dans une matrice X delements : xij = xi (tj ), i = 1, . . . , n, j = 1, . . . , p.
Lobjectif de letude e tait letude conjointe du processus de temperature conjointement avec
celui relatantle phenom`ene de balancier atmospherique (north atlantic oscillation) present dans
lAtlantique nord et dont linfluence est marquante sur le climat europeen. Un traitement prealable
a conduit a` centrer les series autour des moyennes climatiques afin deliminer la forte composante
saisonni`ere puis a` les lisser par la methode du noyau. Les param`etres de lissage ont e te optimises afin de maximiser la correlation lineaire des deux series lissees centrees. Seule letude des
temperatures est reprise ici.
20
10
0
10
20
30
107
30
f11
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
10
11
12
0.4
0.4
0.2
0.0
-0.4
2
10
11
12
-0.2
1
10
11
12
10
10
11
12
11
0.4
5
-0.2
4
0.4
3
-0.4
9
0.0
2
0.4
8
-0.4
1
-0.4 -0.2
-0.4
8
-0.2
7
12
0.2 0.4
5
0.2
3
-0.6
4
0.0
2
-0.2
11
-0.4
-0.4 -0.2
1
10
0.4
0.6
0.2
-0.2 0.0
4
0.4
0.2
2
-0.4
0.0
0.0
-0.4
1
0.2
12
0.0
-0.4
0.4
-0.4
2
0.2
-0.2
0.6
0.4
0.2
-0.2 0.0
1
0.0
0.25
0.15
1
0.4
0.2
0.0
-0.2
12
0.4
11
f12
0.2
10
f11
0.0
f10
-0.4
f9
0.2
f8
0.0
f7
-0.2
f6
0.2
f5
0.0
f4
0.35
-0.6
2
f3
-0.2
0.2
0.1
1
f2
0.3
0.4
f1
0.4
f12
0.2
f10
0.0
f9
0.2 0.4
f8
10
11
12
-0.2
f7
-0.6
f6
0.4
f5
0.2
f4
0.2 0.4
f3
-0.2
f2
-0.6
f1
10
11
12
10
11
12
F IG . 9.5 Eboulis
des valeurs et fonctions propres de lACP des tableaux des donnees brutes (`a
gauche) et lissees (`a droite) de temperature.
LACP des donnees brutes, qui apparaissent tr`es bruitees, ne presente que peu dinteret. La
decroissance des valeurs propres (cf. figure 9.5) est tr`es lente, seul le premier vecteur propre, un
peu trivial, semble fiable. Laxe associe (effet taille) distingue entre annees chaudes et annees
froides. Lorsque lACP est combinee a` un lissage, dautres axes apparaissent comme pertinents
dans la decomposition (figure 9.5). Compte tenu de la forme particuli`ere des vecteurs propres,
celle-ci ressemble beaucoup a` une decomposition en serie de Fourier. Cela signifie, quune fois
lissee, la serie centree se comporte approximativement comme un processus stationnaire a` accroissements independants avec decalage a` lorigine.
La representation des individus dans lACP des courbes de temperature mensuelle (figures 9.6
et 9.7) rev`ele la tendance dej`a signalee et amplement mediatisee : la majorite des 25 derni`eres
annees apparaissent parmi celles qui sont en moyenne plus chaudes (Axe 1). Le plan (2,3) de
cette meme ACP apporte des resultats plus originaux. Il attribue principalement ce rechauffement
moyen aux hivers. En effet, les 25 derni`eres annees se projettent dans le demi-plan associe a` des
hivers plus doux que la moyenne generale. Ce rechauffement general explique principalement par
des hivers moins rigoureux se confirme par letude dAntoniadou et coll. (2000) du comportement
des valeurs extremes.
108
-2
Axe 3
0
2
. . . . .. . . . . .
. . . .. . ... . .. .
. . . . .. ....... .. . . .. .. .. .
. ... . . ... ..... ... .. . .
.
.... . .. . .. .. . . ...
. . . . . ...... ... .............
.. .
... . .. .
.. . ... .. .. .. . . .. ... .
. . .. .
..
.
. . . . .. .. .
..
.
.
.
.
.
. .
. ... .. . . . ..
. .. . ..
.. . .. .... .
.... ... ... ... . .. ... .
. . .. ....... ...... ... .. .... ... .... .
..... ....... ... . .. .
. . .. . ..... ........ . .... . .
.
.
. ... .. . . ..
. . . .
-4
-6
-4
-2
Axe 2
0
2
-6
-4
-2 0
Axe 1
-4
-2
0
2
Axe 2
F IG . 9.6 Representation des individus sur les deux premiers plans de lACP des courbes annuelles lissees de temperature. La ligne brisee relie les 25 derni`eres annees.
1.0
Variables
v6
v5
0.0
v1 v4
v2v3
Axe 3
0.0
Axe 2
v6
-0.5
0.5
v11 v10
v9
v12
v8
v7
0.5
1.0
Variables
v9
v4
v5
v10
-0.5
v3
v2 v1
v12 v11
-1.0
-1.0
v7
v8
-1.0
-0.5
0.0
Axe 1
0.5
1.0
-1.0
-0.5
0.0
0.5
1.0
Axe 2
F IG . 9.7 Representation des variables (les mois) de lACP des courbes annuelles lissees de
temperature.
Chapitre 10
Analyse Canonique
1
Introduction
Lanalyse canonique (AC ou en anglais canonical correlation analysys) est une methode de
statistique descriptive multidimensionnelle qui presente des analogies a` la fois avec lanalyse en
composantes principales (ACP), pour la construction et linterpretation de graphiques, et avec
la regression lineaire, pour la nature des donnees. Lobjectif general de lanalyse canonique est
dexplorer les relations pouvant exister entre deux groupes de variables quantitatives observees
sur le meme ensemble dindividus. Letude des relations entre deux groupes de variables constitue
la principale particularite de lAC par rapport a` lACP. De ce point de vue, lAC est davantage
proche de la regression lineaire multiple (explication dune variable quantitative par un ensemble
dautres variables quantitatives), methode dont elle constitue, dailleurs, une generalisation (on
retrouve la regression lorsquun des deux groupes de lAC ne comporte quune seule variable).
En fait, lanalyse canonique est, sur le plan theorique, une methode centrale de la statistique
descriptive multidimensionnelle, dans la mesure o`u elle generalise diverses autres methodes et
peut aussi e tre consideree comme un cas particulier dACP de deux paquets de variables dans un
espace muni dune metrique particuli-re (inverse par blocs des matrices de variance covariance).
Outre la regression lineaire, lA.C. redonne en effet lanalyse factorielle discriminante lorsquun des deux groupes de variables est remplace par les indicatrices dune variable qualitative.
Elle redonne e galement lanalyse factorielle des correspondances lorsque chacun des deux groupes
est remplace par les indicatrices dune variable qualitative. Signalons e galement quil existe certaines generalisations de lAC a` plus de deux groupes de variables quantitatives et quelles permettent de retrouver lanalyse des correspondances multiples (en remplacant chaque groupe par
les indicatrices dune variable qualitative), ainsi que lACP (en ne mettant quune seule variable
quantitative dans chaque groupe). Nous ne nous interesserons ici qu`a lAC classique, entre deux
groupes de variables.
En depit de sa place centrale au sein des methodes de statistique multidimensionnelle, pendant
longtemps, lA.C. netait pas (ou tr`es peu) enseignee dans ces cursus, compte tenu du petit nombre
dapplications auxquelles elle donnait lieu. Les choses ont change, dabord vers le milieu des
annees 1990, avec le developpement de la regression P.L.S. (partial least squares), methode assez
voisine de lA.C., ensuite, plus recemment, avec lapparition des donnees dexpression genomique
(biopuces) combinees a` des variables biologiques, dans une situtation qui rel`eve typiquementde
lanalyse canonique.
109
110
2
2.1
La methode
Notations
Dans toute la suite de ce chapitre, on notera n le nombre dindividus consideres (autrement dit,
la taille de lechantillon observe), p le nombre de variables (quantitatives) du premier groupe et q
le nombre de variables (egalement quantitatives) du second groupe. On designera par X la matrice,
de dimension n p, contenant les observations relatives au premier groupe de variables et par Y
la matrice, de dimension n q, contenant celles relatives au second groupe. La j-i`eme colonne de
X (j = 1, . . . , p) contient les observations xji de la j-i`eme variable du premier groupe (notee X j )
sur les n individus consideres (i = 1, . . . , n). De meme, la k-i`eme colonne de Y (k = 1, . . . , q)
contient les observations yik de la k-i`eme variable du second groupe (notee Y k ).
Generalement, en A.C., on suppose n p, n q, X de rang p et Y de rang q. De plus,
sans perte de generalite, on suppose e galement p q (on designe donc par premier groupe celui
qui comporte le moins de variables). Compte tenu des particularites des donnees de biopuces, les
quatre premi`eres hypoth`eses ci-dessus pourront ne pas e tre verifiees dans certains exemples.
2.2
Comme en A.C.P., on peut considerer plusieurs espaces vectoriels reels associes aux observations.
Tout dabord, lespace des variables ; cest F = IRn , muni de la base canonique et dune
` chaque variable X j est associe un vecteur unique xj
certaine metrique, en general lidentite. A
de F dont les coordonnees sur la base canonique sont les xji (i = 1, . . . , n). De meme, a` chaque
variable Y k est associe un vecteur unique y k de F , de coordonnees les yik . On peut ainsi definir
dans F deux sous-espaces vectoriels : FX , engendre par les vecteurs xj (j = 1, . . . , p), en general
de dimension p, et FY , engendre par les vecteurs y k (k = 1, . . . , q), en general de dimension q.
Remarque. Il est courant de munir lespace vectoriel F de la metrique dite des poids, definie,
relativement a` la base canonique, par la matrice diag (p1 , . . . , pn ), o`u les pi (i = 1, . . . , n) sont des
poids (positifs et de somme e gale a` 1) associes aux individus observes. Lorsque tous ces poids sont
e gaux, ils valent necessairement n1 et la matrice definissant la metrique des poids vaut n1 In , o`u In
est la matrice identite dordre n. Dans ce cas, il est e quivalent dutiliser la metrique identite, ce que
nous ferons par la suite, dans la mesure o`u les individus seront systematiquement e quiponderes.
On peut ensuite considerer deux espaces vectoriels pour les individus, E1 = IRp et E2 = IRq ,
eux aussi munis de leur base canonique et dune certaine metrique. Dans E1 , chaque individu i est
represente par le vecteur xi , de coordonnees xji (j = 1, . . . , p) sur la base canonique. De meme,
dans E2 , lindividu i est represente par le vecteur yi , de coordonnees les yik .
En fait, cest surtout lespace F que nous consid`ererons par la suite, la definition de lA.C. y
e tant plus naturelle.
2.3
Principe de la methode
Le principe general de lA.C. est decrit ci-dessous, dans lespace des variables F .
Dans un premier temps, on cherche un couple de variables (V 1 , W 1 ), V 1 e tant une combinaison lineaire des variables X j (donc un e lement de FX ), normee, et W 1 une combinaison lineaire
des variables Y k (donc un e lement de FY ), normee, telles que V 1 et W 1 soient le plus correlees
possible.
Ensuite, on cherche le couple norme (V 2 , W 2 ), V 2 combinaison lineaire des X j non correlee
2. La methode
111
Remarque. Toute variable canonique V s0 est, par construction, non correlee (donc orthogonale)
avec les autres variables canoniques V s , s 6= s0 . On peut e galement montrer que V s0 est non
correlee avec W s , si s 6= s0 (la meme propriete est bien sur vraie pour toute variable W s0 avec
les variables V s , s 6= s0 ).
Remarque. Si necessaire, on peut completer le syst`eme des variables W s (s = 1, . . . , p) pour
obtenir une base orthonormee de FY dans laquelle les derni`eres variables W s (s = p + 1, . . . , q)
sont associees a` des coefficients de correlation canonique nuls (s = 0, pour s = p + 1, . . . , q).
2.5
Representations graphiques
Comme en A.C.P., les representations graphiques des resultats dune A.C. se font en dimension reduite (souvent 2 ou 3). Nous noterons d cette dimension, avec : 1 d p. Plusieurs
representations sont envisageables, a` la fois pour les variables et pour les individus.
112
2. La methode
113
Choix de la dimension
Comme dans toute methode factorielle, differents e lements doivent e tre pris en compte pour
le choix de la dimension d dans laquelle on realise les graphiques (et dans laquelle on interpr`ete
les resultats).
Tout dabord, il est clair que d doit e tre choisi petit, lobjectif general de la methode e tant
dobtenir des resultats pertinents dans une dimension reduite ; ainsi, le plus souvent, on
choisi d e gal a` 2 ou a` 3.
Plus lindice de dimension s augmente, plus la correlation canonique s diminue ; or, on
ne sinteresse pas aux correlations canoniques faibles, puisquon cherche a` expliciter les
relations entre les deux groupes de variables ; par consequent, les dimensions correspondant
a` des s faibles peuvent e tre negligees.
Le pourcentage que chaque valeur propre represente par rapport a` la somme, cest-`a-dire
par rapport a` la trace de la matrice diagonalisee, facilitent e galement le choix de d (voir la
remarque 5).
2.6
Introduction
Ouvrages et logiciels anglo-saxons de statistique presentent souvent lanalyse canonique parall`element a` la regression lineaire multivariee (regression dun ensemble de variables Y k sur un
autre ensemble de variables X j ). Cette approche est, en fait, assez naturelle, dans la mesure o`u les
donnees sont de meme nature dans les deux methodes et o`u lon cherche, dans lune comme dans
lautre, des relations lineaires entre variables.
Il convient toutefois de noter les deux differences fondamentales entre les deux metho-des :
contrairement a` ce quil se passe en A.C., les deux ensembles de variables X j et Y k ne sont pas
symetriques en regression, puisquil sagit dexpliquer les variables Y k au moyen des variables
X j ; dautre part, toujours en regression, on suppose la normalite des variables reponses Y k , alors
quaucune hypoth`ese de cette nature nest necessaire en A.C. Lavantage de cette hypoth`ese (lorsquelle est raisonnable) est de permettre de realiser des tests dans le mod`ele de regression.
Le mod`ele de regression multivariee
Le mod`ele de regression multivariee des variables Y k sur les variables X j secrit :
Y = XB + U ;
les matrices Y, n q et X, n p, sont celles introduites en A.C. ; B est la matrice p q des
param`etres inconnus, a` estimer ; U est la matrice n q des erreurs du mod`ele. Chaque ligne Ui de
U est un vecteur aleatoire de IRq suppose Nq (0, ), les Ui e tant independants ( est une matrice
inconnue, a` estimer, supposee constante en i).
Lestimation maximum de vraisemblance de B conduit a` la solution :
= (X0 X)1 X0 Y.
B
On appelle alors valeurs predites (de Y par le mod`ele) les quantites :
= XB
= PX Y ;
Y
dautre part, on appelle residus les quantites :
=YY
= P Y
U
X
114
soit encore du produit H(H+E)1 , les valeurs propres de ces deux matrices se deduisant les unes
des autres. Developpons le second produit matriciel :
H + E = Y0 PX Y + Y0 (In PX )Y = Y0 Y;
do`u :
H(H + E)1 = Y0 PX Y(Y0 Y)1 ,
matrice ayant les memes valeurs propres que
PX Y(Y0 Y)1 Y0 = PX PY ,
cest-`a-dire les s (s = 1, . . . , p), carres des correlations canoniques.
Remarque. On peut verifier (le resultat est classique) que les valeurs propres de la matrice
s
HE1 valent
. Ces valeurs propres sont fournies par le logiciel SAS, ainsi que les pour1 s
centages (et les pourcentages cumules) quelles representent par rapport a` leur somme, trace de la
matrice HE1 .
En interpretant ces pourcentages comme la part dinertie globale du nuage des individus restituee par les differents axes canoniques (ce quelles sont, par exemple, en analyse factorielle
discriminante), ces quantites facilitent le choix de la dimension d retenue pour les graphiques et
les interpretations.
Tests
Il existe plusieurs tests de significativite du mod`ele de regression multivariee, en general
e quivalents (au moins au niveau des decisions quils entranent). Ces tests sont les generali-sations
classiques du test de Fisher au cas multivarie (on les retrouve, par exemple, en analyse de variance
multivariee). Le logiciel SAS fournit les trois premiers ci-dessous, mais pas le quatri`eme. Il fournit
1
e galement le test de Roy, base sur la plus grande valeurs propre de la matrice HE1 , soit
,
1 1
mais ce test est a` deconseiller.
2. La methode
115
Le test de Wilks, adaptation du test du rapport des vraisemblances, est base sur la statistique
=
p
Y
(1 s ) =
s=1
p
Y
(1 2s ).
s=1
p
X
s .
s=1
T = trace HE
p
X
s=1
s
.
1 s
Y
1
K = [(n 1) (p + q + 1)] ln
(1 s ).
2
s=1
s=k+1
116
3
3.1
3.2
Traitements preliminaires
Nous donnons ci-dessous les statistiques e lementaires relatives aux deux groupes de variables.
Pour les correlations entre les variables de chaque groupe, on se reportera aux annexes A et B.
Variable
CAR1
BIEN
CYP3A11
CYP4A10
CYP4A14
AOX
THIOL
CYP2c29
S14
GSTpi2
Variable
Mean
40
40
40
40
40
40
40
40
40
40
220.85000
214.67500
518.15000
179.17500
171.37500
830.55000
644.05000
1062.0
328.65000
2266.0
60.76881
58.14191
294.13415
83.91873
112.53733
237.60385
277.55461
336.10239
216.91881
717.60913
Mean
Std Dev
135
105
170
89
99
452
206
371
132
965
Minimum
376
385
1327
399
658
1529
1260
1934
1350
3903
Maximum
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
40
0.76300
23.02600
6.74700
0.68700
4.41875
25.27325
4.42600
0.28400
0.30675
15.27750
0.37450
0.18525
0.77600
5.27925
0.18400
0.43700
2.88800
0.09100
1.78950
0.87175
5.91400
117
0.80057
3.57303
2.64016
0.28498
2.98497
7.33966
3.37585
0.13965
0.72116
8.76020
0.87840
0.20236
0.46167
4.45999
0.25213
0.66392
5.82863
0.17930
2.59001
0.85598
5.33487
0.22000
14.65000
1.68000
0.29000
1.59000
14.69000
1.53000
0
0
2.31000
0
0
0.11000
0.75000
0
0
0
0
0
0
0.28000
3.24000
29.72000
10.97000
1.50000
13.90000
41.23000
15.03000
0.65000
2.89000
40.02000
5.07000
0.83000
1.64000
15.76000
0.73000
2.52000
21.62000
0.64000
9.48000
2.58000
17.35000
Remarque. Comme indique dans la remarque 2, ces variables ont e te centrees et redui-tes avant
la realisation de lA.C.
3.3
Analyse canonique
Generalites
Les premiers resultats fournis par une A.C. sont les correlations croisees entre les deux groupes
de variables. Nous donnons ces correlations dans lannexe C.
Ensuite sont donnees les correlations canoniques reproduites ci-dessous.
Canonical Correlation
1
2
3
4
5
6
7
8
9
10
0.990983
0.978581
0.957249
0.891429
0.799633
0.794380
0.770976
0.635902
0.626384
0.325094
On notera que le plus petit groupe ne comportant que 10 variables, on ne peut determiner
que 10 correlations canoniques. Lobjectif principal de lA.C. e tant detudier les relations entre
variables des deux groupes, on peut noter ici quil existe effectivement des relations fortes entre
ces deux groupes, puisque les premiers coefficiens canoniques sont tr`es e leves. Compte tenu des
valeurs importantes des premiers coefficients, on peut raisonnablement se contenter de deux ou
trois dimensions pour e tudier les resultats fournis par la methode et nous avons choisi ici seulement
deux dimensions, compte tenu quil sagit essentiellement dune illustration.
118
Remarque. Les valeurs propres de la matrice HE1 et les pourcentages dinertie restitues par
les differentes dimensions sont les suivants :
Eigenvalues of Inv(E)*H
= CanRsq/(1-CanRsq)
1
2
3
4
5
6
7
8
9
10
Eigenvalue
Difference
Proportion
Cumulative
54.7032
22.5963
10.9512
3.8696
1.7732
1.7103
1.4655
0.6789
0.6457
0.1182
32.1069
11.6451
7.0816
2.0964
0.0629
0.2448
0.7866
0.0332
0.5275
0.5553
0.2294
0.1112
0.0393
0.0180
0.0174
0.0149
0.0069
0.0066
0.0012
0.5553
0.7847
0.8958
0.9351
0.9531
0.9705
0.9854
0.9922
0.9988
1.0000
Par ailleurs, les tests de Wilks, de significativite de chaque dimension, sont les suivants :
Test of H0: The canonical correlations in the
current row and all that follow are zero
1
2
3
4
5
6
7
8
9
10
Likelihood
Ratio
Approximate
F Value
Num DF
Den DF
Pr > F
0.00000023
0.00001272
0.00030012
0.00358677
0.01746624
0.04843824
0.13128287
0.32367928
0.54342420
0.89431401
2.19
1.63
1.25
0.96
0.82
0.78
0.69
0.53
0.47
0.18
210
180
152
126
102
80
60
42
26
12
104.61
100.74
95.57
89.05
81.12
71.72
60.78
48.23
34
18
<.0001
0.0035
0.1202
0.5890
0.8259
0.8542
0.9228
0.9807
0.9762
0.9980
119
0.2
1
1
1
0.0
1
3
3
33
0.2
22
5
52
4
5 4
5
4
3
5
1
1
4
4
3
15
3
0.4
Dim 2
2
5
0.4
0.2
0.0
0.2
Dim 1
F IG . 10.1 Nutrition : Representation des individus (souris) dans lespace des g`enes.
120
premi`eres variables canoniques, V 1 et V 2 (voir la Figure 2). Comme indique en 2.5, les coordonnees des variables initiales sont fournies par leur correlations avec les variables canoniques.
Certaines associations entre g`enes et acides gras, en particulier celles correspondant a` des
points e loignes de lorigine, sont interessantes a` noter.
121
1.0
C16.0
THIOL
C18.0
C20.3n.6
BIENAOX
0.0
C20.3n.9
C20.5n.3
C22.5n.3
GSTpi2
C20.3n.3
C18.3n.3
CYP2c29
C20.4n.6
C18.3n.6
C22.5n.6
C22.4n.6
C18.1n.7C16.1n.7
C14.0
C20.2n.6
C18.1n.9
0.5
S14
C20.1n.9
C16.1n.9
C18.2n.6
CAR1
1.0
Dimension 2
0.5
CYP3A11
CYP4A10CYP4A14
C22.6n.3
1.0
0.5
0.0
0.5
1.0
Dimension 1
F IG . 10.2 Nutrition : Representation des g`enes et des acides dans le sous-espace des g`enes.
122
Bibliography
Agresti, A. (1990). Categorical data analysis. Wiley.
Antoniadis, A., J. Berruyer, and R. Carmona (1992). Regression non lineaire et applications.
Economica.
Ardilly, P. (1994). Les techniques de sondage. Technip.
Berry, M. and L. Gordon (1997). Data Mining, techniques appliquees au marketing, a` la vente et
aux services clients. Masson.
Besse, P. (1992). Pca stability and choice of dimensionality. Statistics & Probability Letters 13,
405410.
Besse, P., H. Cardot, and F. Ferraty (1997). Simultaneous non-parametric regressions of unbalanced longitudinal data. Computational Statistics & Data Analysis 24, 255270.
Besse, P. and F. Ferraty (1995). A fixed effect curvilinear model. Computational Statistics 10,
339351.
Besse, P. and J. Ramsay (1986). Principal component analysis of sampled curves. Psychometrika 51, 285311.
Bourret, P., J. Reggia, and M. Samuelides (1991). Reseaux neuronaux. Teknea.
Breiman, L. (2001). Random forests. Machine Learning 45, 532.
Breiman, L., J. Friedman, R. Olshen, and C. Stone (1984). Classification and regression trees.
Wadsworth & Brooks.
Celeux, G. (1990). Analyse discriminante sur variables continues. INRIA.
Celeux, G., E. Diday, G. Govaert, Y. Lechevallier, and H. Ralambondrainy (1989). Classification
automatique des donnees. Dunod.
Celeux, G. and J.-P. Nakache (1994). Analyse discriminante sur variables qualitatives. Polytechnica.
Collett, D. (1991). Modelling binary data. Chapman & Hall.
Dobson, A. (1990). An introduction to generalized linear models. Chapman and Hall.
Droesbeke, J., B. Fichet, and P. Tassi (1992). Mod`eles pour lAnalyse des Donnees Multidimensionnelles. Economica.
Efron, B. (1982). The Jackknife, the Bootstrap and other Resampling Methods. SIAM.
Everitt, B. and G. Dunn (1991). Applied Multivariate Data Analysis. Edward Arnold.
Green, P. and B. Silverman (1994). Nonparametric Regression and Generalized Linear Models.
Chapman and Hall.
Jobson, J. (1991). Applied Multivariate Data Analysis, Volume I : Regression and experimental
design. Springer-Verlag.
123
124
BIBLIOGRAPHY
Jobson, J. (1992). Applied Multivariate Data Analysis, Volume II : Categorical and multivariate
methods. Springer-Verlag.
Jolliffe, I. (2002). Principal Component Analysis (2nd edition ed.). Springer-Verlag.
Kaufman, L. and J. Rousseeuw, P. (1990). Finding groups in data. Wiley.
Lef`ebure, R. and G. Venturi (1998). Le data Mining. Eyrolles.
Mardia, K., J. Kent, and J. Bibby (1979). Multivariate Analysis. Academic Press.
McCullagh, P. and J. Nelder (1983). Generalized Linear Models. Chapman & Hall.
Monfort, A. (1982). Cours de Statistique Mathematique. Economica.
Ramsay, J. and C. Dalzell (1991). Some tools for functional data analysis. Journal of the Royal
Statistical Society, B 53, 539572. with discussion.
Ramsay, J. and B. Silverman (1997). Functional Data Analysis. Springer-Verlag.
Saporta, G. (1990). Probabilites, Analyse des Donnees et Statistique. Technip.
SAS (1989). SAS/STAT Users Guide (fourth ed.), Volume 2. Sas Institute Inc. version 6.
SAS (1995). SAS/INSIGHT Users Guide (Third ed.). Sas Institute Inc. version 6.
Thiria, S., Y. Lechevallier, O. Gascuel, and S. Canu (1997). Statistique et methodes neuronales.
Dunod.
Tomassonne, R., S. Audrain, E. Lesquoy-de Turckheim, and C. Millier (1992). La regression,
nouveaux regards sur une ancienne methode statistique. Masson.
Wahba, G. (1990). Spline Models for Observational Data. SIAM.
Chapitre A
Outils algebriques
Ce chapitre se propose de rassembler des notations et rappels dalg`ebre lineaire ainsi que
quelques complements mathematiques du niveau du premier cycle des Universites.
Dans tout ce qui suit, E et F sont deux espaces vectoriels reels munis respectivement des
bases canoniques E = {ej ; j = 1, . . . , p} et F = {fi ; i = 1, . . . , n}. On note indifferemment
soit un vecteur de E ou de F , un endomorphisme de E, ou une application lineaire de E dans F ,
soit leurs representations matricielles dans les bases definies ci-dessus.
1
1.1
Matrices
Notations
La matrice dordre (n p) associee a` une application lineaire de E dans F est decrite par un
tableau :
1
a1 . . . aj1 . . . ap1
..
..
..
.
.
.
j
p
1
A=
ai . . . ai . . . ai .
..
..
..
.
.
.
a1n . . . ajn . . . apn
Types de matrices
Une matrice est dite :
vecteur-ligne (colonne) si n = 1 (p = 1),
vecteur-unite dordre p si elle vaut 1p = [1, . . . , 1]0 ,
scalaire si n = 1 et p = 1,
carree si n = p.
Une matrice carree est dite :
0 si i 6= j
j
j
identite (Ip ) si ai = i =
,
1 si i = j
125
126
1.2
(A ) = A ; (A + B) = A + B ; (AB) = B A ;
Produit scalaire e lementaire : a0 b =
Produit :
[AB]ji
Pn
i=1 ai bi
A11 A21
A12 A22
0
=
A11
0
A21
A12
0
A22
.
a0i bj
=
avec A(np) , B(pq) et AB(nq) , et pour des matrices par blocs :
1
1
1 1
A1 A21
B1 B21
A1 B1 + A21 B12 A11 B21 + A21 B22
=
A12 A22
B12 B22
A12 B11 + A22 B12 A12 B21 + A22 B22
1.3
La trace et le determinant sont des notions intrins`eques, qui ne dependent pas des bases de
representation choisies, mais uniquement de lapplication lineaire sous-jacente.
Trace
Par definition, si A est une matrice (p p),
trA =
p
X
ajj ,
j=1
trCC0
2. Espaces euclidiens
127
Determinant
On note |A| le determinant de la matrice carree A (p p). Il verifie :
|A| =
p
Y
j=1
p
|A| = |A|,
|AB| = |A||B|,
A B
0 C = |A||C|,
A11 A21
= |A11 ||A22 A12 (A11 )1 A21 |
A1 A2
2
(A.1)
(A.2)
A11
et
A22 .
(AB)1 = B1 A1 ,
|A1 | =
Definitions
Une matrice carree A est dite :
symetrique si A0 = A,
singuli`ere si |A| = 0,
reguli`ere si |A| =
6 0,
idempotente si AA = A,
definie-positive si, x IRp , x0 Ax 0, et si x0 Ax = 0 x = 0,
positive, ou semi-definie-positive, si, x IRp , x0 Ax 0,
orthogonale si AA0 = A0 A = I (A0 = A1 ).
Espaces euclidiens
E est un espace vectoriel reel de dimension p isomorphe a` IRp .
1
.
|A|
128
2.1
Sous-espaces
Un sous-ensemble Eq de E est un sous-espace vectoriel (s.e.v.) de E sil est non vide et
stable :
(x, y) Eq2 , IR, (x + y) Eq .
Le q-uple {x1 , . . . , xq } de E constitue un syst`eme lineairement independant si et seulement
si :
q
X
i xi = 0 1 = = q = 0.
i=1
2.2
rang(A)
dim(Im(A)),
rang(A0 ),
rang(A + B)
rang(A) + rang(B),
rang(AB)
min(rang(A), rang(B)),
rang(BAC)
rang(A)
Enfin, si B (p q) est de rang q(q < p) et A est carree (p p) de rang p, alors la matrice
B0 AB est de rang q.
2.3
Metrique euclidienne
Soit M une matrice carree (p p), symetrique, definie-positive ; M definit sur lespace E :
un produit scalaire : hx, yiM = x0 My,
1/2
une norme : kxkM = hx, xiM ,
une distance : dM (x, y) = kx ykM ,
hx,yiM
des angles : cos M (x, y) = kxk kyk
.
M
M
La matrice M e tant donnee, on dit que :
une matrice A est M-symetrique si (MA)0 = MA,
deux vecteurs x et y sont M-orthogonaux si hx, yiM = 0,
un vecteur x est M-norme si kxkM = 1,
une base Eq = {e1 , . . . , eq } est M-orthonormee si
(i, j), hei , ej iM = ij .
3. Elements propres
2.4
129
Projection
q
X
bj bj M.
i=1
bb0
1
M=
bb0 M.
b0 Mb
kbkM
Elements propres
Soit A une matrice carree (p p).
3.1
Definitions
Par definition, un vecteur v definit une direction propre associee a` une valeur propre si
lon a :
Av = v.
Si est une valeur propre de A, le noyau Ker(AI) est un s.e.v. de E, appele sous-espace
propre, dont la dimension est majore par lordre de multiplicite de . Comme cas particulier,
Ker(A) est le sous-espace propre associe, si elle existe, a` la valeur propre nulle.
Les valeurs propres dune matrice A sont les racines, avec leur multiplicite, du polynome
caracteristique :
|A I| = 0.
T H E OR E` ME A.1. Soit deux matrices A(n p) et B(p n) ; les valeurs propres non nulles
de AB et BA sont identiques avec le meme degre de multiplicite. Si u est vecteur propre de BA
associe a` la valeur propre differente de zero, alors v = Au est vecteur propre de la matrice
AB associe a` la meme valeur propre.
130
Les applications statistiques envisagees dans ce cours ne sinteressent qu`a des types particuliers de matrices.
T H E OR E` ME A.2. Une matrice A reelle symetrique admet p valeurs propres reelles. Ses vecteurs propres peuvent e tre choisis pour constituer une base orthonormee de E ; A se decompose
en :
p
X
0
0
A = VV =
k v k v k
k=1
[v1 , . . . , vp ]
o`u V =
= Ip et VV0 = M1 ) des vecteurs
propres associes aux valeurs propres k , rangees par ordre decroissant dans la matrice diagonale
.
[v1 , . . . , vp ] est une matrice M-orthogonale (V0 MV
Les decompositions ne sont pas uniques : pour une valeur propre simple (de multiplicite 1) le
vecteur propre norme est defini a` un signe pr`es, tandis que pour une valeur propre multiple, une
infinite de bases M-orthonormees peuvent e tre extraites du sous-espace propre unique associe.
Le rang de A est aussi le rang de la matrice associee et donc le nombre (repetees avec leurs
multiplicites) de valeurs propres non nulles.
Par definition, si A est positive, on note la racine carree de A :
A1/2 =
p
X
p
k vk vk M = V1/2 V0 M.
k=1
3.2
Proprietes
Si k 6=Pj ,
trA = pk=1 k ;
si A est reguli`ere,
si A est positive,
si A est definie-positive,
3.3
vk M Q
vj ;
|A| = pk=1 k ;
k, k 6= 0 ;
p 0 ;
p > 0 ;
Il sagit, cette fois, de construire la decomposition dune matrice X(n p) rectangulaire relativement a` deux matrices symetriques et positives D(n n) et M(p p).
T H E OR E` ME A.4. Une matrice X (n p) de rang r peut secrire :
X = U1/2 V0 =
r p
X
k uk vk ;
k=1
(A.3)
4. Optimisation
131
4
4.1
Optimisation
Norme dune matrice
(A.4)
h 0
i
0 0
Dans le cas particulier o`u M = Ip et D = In , et en notant vec(X) = x1 , . . . , xp la
matrice vectorisee, ce produit scalaire devient :
0
p
n X
X
i=1 j=1
= trXX0 = SSQ(X) =
p
n X
X
(xji )2
i=1 j=1
d (X, Y) = kX
Yk2M,D
n
X
wi kxi yi k2M .
i=1
4.2
Les matrices X, M et D sont definies comme ci-dessus ; X est supposee de rang r. On cherche
la matrice Zq , de rang q inferieur a` r, qui soit la plus proche possible de X.
T H E OR E` ME A.5. La solution du probl`eme :
n
o
2
min kX ZkM,D ; Z Mn,p , rang(Z) = q < r
Z
(A.5)
est donnee par la somme des q premiers termes de la decomposition en valeurs singuli`eres (A.3)
de X :
q
X
p
0
0
Zq =
k uk vk = Uq 1/2
q Vq .
k=1
132
r
X
k .
k=q+1
Les matrices Uq , q et Vq contiennent les q premiers vecteurs et valeurs propres donnes par
la DVS de X ; Zq est appelee approximation de rang q de X.
cq (resp. Q
cq ) la projection
Ce theor`eme peut se reformuler dune mani`ere e quivalente. On note P
M-orthogonale sur Eq = Im(Vq ) (resp. D-orthogonale sur Fq = Im(Uq )) :
cq =
P
q
X
vk vk M = Vq Vq0 M
k=1
cq =
Q
q
X
uk uk D = Uq U0q D,
k=1
cq X = XP
cq 0 .
Zq = Q
cq =
Q
Chapitre B
Cadre fonctionnel
Cette annexe fournit une introduction sommaire au cadre mathematique necessaire a` letude
de courbes. Un premier objectif est de definir les notations necessaires a` la manipulation de variables ou processus aleatoires a` valeurs dans un espace fonctionnel. Incontournables pour des
e tudes asymptotiques, ces notions peuvent e tre survolees en premi`ere lecture. Le deuxi`eme objectif est de definir des crit`eres de regularite dune fonction qui interviendront comme contraintes
dans les optimisations ou termes de penalisation. Ils sexprimeront pratiquement par lexplicitation
matricielle de normes ou semi-normes dans un espace euclidien de dimension finie.
0.3
On consid`ere une variable aleatoire Z a` valeurs dans lespace de Hilbert suppose separable H
muni de la tribu des boreliens. On note kxkH la norme dans cet espace. On suppose que Z est
du second ordre cest-`a-dire quelle verifie IE kZk2H < . Sous cette hypoth`ese, Z admet une
esperance dans H notee IE(Z) et un operateur de covariance compact admettant donc un spectre
discret.
Lexistence des moments de Z et leur definition sont fournies par le theor`eme de Riesz (H 0
designe le dual topologique de H) :
f H,
(u, v) H 0 H 0 ,
o`u (s, t) est la fonction de covariance du processus a` temps continu Z(t) desperance a(t) :
(s, t) = IE [(Z(t) a(t))(Z(s) a(s))] ,
(s, t) T T.
(B.2)
Nous serons e galement amenes a` considerer un processus a` temps discret (Zi )iZ suppose du
second ordre, auto-regressif dordre 1 et prenant ses valeurs dans un espace hilbertien : (Zi )iZ
133
134
est dit ARH(1). Notons loperateur de covariance et celui de covariance croisee du processus.
Le processus e tant suppose stationnaire, ces operateurs ne dependent pas de i et sont definis par :
= IE [(Z0 IE(Z0 )) (Z0 IE(Z0 ))] ,
= IE [(Z0 IE(Z0 )) (Z1 IE(Z1 ))] ,
= IE [(Z1 IE(Z1 )) (Z0 IE(Z0 ))]
o`u la fonction represente la moyenne du processus IE(Zi ).. Ils verifient :
(Zi ) = (E(Zi+1 |Zi , Zi1 , . . .) ),
=
et poss`edent un spectre discret.
0.4
Condition de regularite
Les differentes techniques proposees reposent sur la recherche de solutions reguli`eres ou lisses
au sens dun crit`ere faisant intervenir les normes des derivees successives. Ce crit`ere est couramment utilise pour la definition et la construction des fonctions splines, il se definit comme une
semi-norme dans un espace de Sobolev
W m = {z : z, z 0 , . . . , z (m1) absolument continues , z (m) L2 }.
Pour toute fonction z de W m , sa regularite est controlee par la semi-norme :
Z
2
m 2
kzkm = kD zkL2 (T ) = (z (m) (t))2 dt.
(B.3)
Ce crit`ere peut e tre generalise a` dautres semi-normes e quivalentes (Wahba 1990) en remplacant
loperateur Dm par tout operateur differentiel lineaire faisant au moins intervenir le meme ordre
m de derivation et conduisant ainsi a` la definition de familles plus generales de splines dites de
Tchebicheff.
0.5
Splines de lissage
Lestimation non-parametrique par lissage spline a donne lieu a` une importante litterature :
Wahba (1990), Green et Silverman (1994) en fournissent par exemple des presentations detaillees.
Placons-nous dans le cadre usuel du mod`ele de regression non parametrique :
xj = z(tj ) + j ; E(j ) = 0, E(j k ) = 2 k, j, k = 1, ..., p
a t1 < t2 < ... < tp b.
(B.4)
1 X
min
(z(tj ) x(tj ))2 ; kzk2m < c (c IR+ ) .
(B.5)
zW 2 p
j=1
135
min
p
1 X
zW 2 p
j=1
(B.6)
1
1
1
1
, qj,j =
, qj+1,j =
,
tj tj1
tj tj1 tj+1 tj
tj+1 tj
136
Une autre matrice de produit scalaire N est necessaire, il sagit de celle associant aux vecteurs
y1 et y2 issus dun meme schema de discretisation le produit scalaire dans lespace L2 (T ) entre
leur interpolant spline yb1 et yb2 :
Z
y10 Ny2 =
y1 (t)
y2 (t) dt.
(B.7)
T
Dune mani`ere generale cette matrice sobtient a` laide des noyaux reproduisants associes aux
fonctions splines (Besse et Ramsay 1986, Ramsay et Dalzell, 1991). Il est e galement possible
de lapprocher en utilisant une methode de quadrature. On peut considerer par exemple N =
diag(w1 , . . . , wp ) o`u w1 = (t2 t1 )/2, wj = (tj+1 tj1 )/2, j = 2, . . . , p 1 et wp =
(tp tp1 )/2. Le calcul est alors rapide, stable et generalement suffisamment precis.
Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction
Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemple de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.1
Cas quantitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.2
Cas qualitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
13
4.1
13
4.2
15
4.3
17
19
5.1
19
5.2
Tableaux de nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
5.3
20
Probl`emes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
6
3
23
introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
24
2.1
Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.2
Resultats preliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.3
Resultats generaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
137
`
TABLE DES MATIERES
138
7
4
2.4
26
2.5
27
29
3.1
Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.2
30
3.3
La methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
Mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
4.1
Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
4.2
Definition e quivalente . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
Representations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
5.1
Les individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
5.2
Les variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
5.3
38
Choix de dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
6.1
Part dinertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
6.2
39
6.3
R`egle de Kaiser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Eboulis
des valeurs propres . . . . . . . . . . . . . . . . . . . . . . . .
6.4
39
6.5
Stabilite du sous-espace . . . . . . . . . . . . . . . . . . . . . . . . . .
39
Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
39
43
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
1.1
Donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
1.2
Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
1.3
Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.1
Mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.2
Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
Realisation de lAFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
3.1
Matrice a` diagonaliser . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
3.2
46
3.3
46
3.4
Interpretations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
Variantes de lAFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.1
47
4.2
Metrique de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . .
48
`
TABLE DES MATIERES
5
5
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
53
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
1.1
Donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
1.2
Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
1.3
54
1.4
Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
Double ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
2.1
Metriques du
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
2.2
56
2.3
56
57
3.1
Le mod`ele loglineaire . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.2
Le mod`ele dassociation . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.3
Le mod`ele de correlation . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.4
58
Representations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
4.1
Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
4.2
Double ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.3
Representations barycentriques . . . . . . . . . . . . . . . . . . . . . .
60
4.4
Autre representation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.5
Aides a` linterpretation . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
6.1
Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
6.2
Invariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
6.3
Choix de la dimension q . . . . . . . . . . . . . . . . . . . . . . . . . .
63
139
65
65
1.1
65
1.2
Tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
1.3
66
66
2.1
Donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
2.2
67
2.3
67
`
TABLE DES MATIERES
140
3
68
70
4.1
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
4.2
70
4.3
71
4.4
Variables illustratives . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
4.5
Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
5.1
Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
5.2
Analyse brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
5.3
73
Positionnement multidimensionnel
77
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
Distance, similarites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
2.1
Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
78
3.1
Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
3.2
Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
3.3
79
80
4.1
Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
82
Classification
85
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
1.1
Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
1.2
Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
1.3
Les methodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
Mesures deloignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
2.1
87
2.2
87
2.3
Indice de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
2.4
Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
2.5
Distance euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
2.6
Utilisation pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
2.7
En resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
`
TABLE DES MATIERES
3
89
3.1
Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
3.2
90
3.3
Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
3.4
Graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
92
4.1
Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
4.2
Principale methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
4.3
Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
4.4
Variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
141
99
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
2.1
2.2
3.2
10 Analyse Canonique
109
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
La methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.1
Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.2
2.3
2.4
2.5
2.6
3.2
3.3
A Outils algebriques
1
125
Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
`
TABLE DES MATIERES
142
1.1
Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
1.2
1.3
Sous-espaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
2.2
2.3
2.4
Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.2
Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.3
Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.1
4.2
B Cadre fonctionnel
133
0.3
0.4
0.5