Vous êtes sur la page 1sur 66

ANALYSEDEDONNEES

V4.9

MarcMENOU
Mars2008

TABLEDESMATIERES
1INTRODUCTION

2ELMENTSFONDAMENTAUX

8
21RAPPELSSURLATHORIEDESENSEMBLES
22RAPPELSDEGOMTRIE
23RAPPELSSURLESMATRICES
24RAPPELSDESTATISTIQUEDESCRIPTIVE
26RAPPELSSURLATHORIEDEL'INFORMATION
27LESTABLEAUX
TABLEAUXINDIVIDUSXVARIABLESQUANTITATIVES
TABLEAUXLOGIQUESOUBOOLENSOUBINAIRES
TABLEAUXPRSENCEABSENCE
TABLEAUXDEDONNESORDINALESOUDEPRFRENCES
TABLEAUXDESRANGS
TABLEAUXHTROGNESOUMIXTES
28LESRELATIONSENTREVARIABLES

8
8
9
10
11
12
12
12
12
12
13
13
13

3MTHODES

13
4LESANALYSESFACTORIELLES
41L'ANALYSEENCOMPOSANTESPRINCIPALES(ACP)
42L'ANALYSEFACTORIELLEDESCORRESPONDANCES (AFC)
43L'ANALYSEDESCORRESPONDANCES MULTIPLESACM
44LANALYSEFACTORIELLEDESSIMILARITS(OUDEDISSIMILARITS)ETDESPRFRENCES
45L'ANALYSEDISCRIMINANTE(AFD)
46LANALYSEDESMESURESCONJOINTES
47L'ANALYSECANONIQUE
5LESMTHODESDECLASSIFICATION ,DETYPOLOGIE OUDETAXINOMIE
51L'ANALYSENONHIRARCHIQUE
52L'ANALYSEHIRARCHIQUE

15
15
26
30
32
36
42
43
46
47
54

LOGICIELS

59

BIBLIOGRAPHIE

60

M.MENOU/ANALYSEDEDONNEES

1Introduction
L'analysedesdonnesestunetechniquerelativementancienne
1930 (PEARSON, SPEARMAN, HOTELLING). Elle a connu cependant
desdveloppementsrcents19601970dufaitdel'expansionde
l'informatique.
L'informatiqueestimportantecarcettetechniquencessitele
brassagedebeaucoupdedonnesparbeaucoupdecalculspour
entirerdesreprsentationsgraphiques.Elleapporterapidit
etfiabilit.
L'analysedesdonnesestunetechniqued'analysestatistique
d'ensemblededonnes.Ellecherchedcriredestableauxet
enexhiberdesrelationspertinentes.Ellesedistinguede
lanalyseexploratoiredesdonnes.
La statistique est une technique qui permet la comprhension
de la ralit. Cest un moyen dinvestigation de la
complexit.

STATISTIQUE
REELCOMPLEXE

M.MENOU/ANALYSEDEDONNEES

REPRESENTATION
SIMPLIFIEE

Eneffet,commeleditP.VALERY"toutcequiestsimpleest
faux,toutcequinel'estpasestinutilisable".Ils'agiten
quelquesorted'"laguer"laralitenneretenantquecequi
estprimordial.Ilfautenparticulierrduirelesdimensions
de la ralit, cestdire ne pas considrer certaines
variables tout en cherchant conserver le maximum de sens.
Celarevienteffectueruneprojection.

Ces trois schmas reprsentent une chaise dessine dans le


plan. Ils permettent une plus ou moins bonne identification
selonlaxedeprojection.
Laralitpeuttreconsidrecommeunnuagedepointsn
dimensionsquenotrecerveauadumalsereprsenter.
La statistique est donc une mthode de traitement de
l'information.L'informationestcequipermetd'entreprendre
uneaction.Maispouragir,ilfautsavoir.Laconnaissance,

enrapportaveclesensemblesrels,serapportecequipour
unepopulationdonne,distinguesesindividus.Tell'Horace,
qui a cherch distancer les Curiaces, le pouvoir ne peut
s'exercer efficacement qu' l'encontre des individus isols.
Diviserpourmieuxrgnerestaussiunedevisebienconnue.Il
fautdoncchercherlaoulesvariablesquiopposentleplus,
qui sparent le plus, les individus. La variance est donc,
comme caractristique de dispersion, le critre de choix le
plus dsign des critres de connaissance. L'analyse des
donnes repose donc essentiellement sur les notions de
variances,decovariance,dedistances,degroupe,delienet
dehirarchie.
Lathoriedesensemblesfournitlecadreconceptueldebase
danslequelilconvientdeposerlaproblmatique.
L'analyse des donnes souhaite cependant se dmarquer des
techniquesstatistiquesetconomtriquesclassiques.
Elle cherche regarder les donnes pour ellesmmes en
oubliant les thories qui ont permis de les rassembler. Car
l'laboration d'un modle et l'observation projettent les
ides dj contenues dans le cerveau. Il n'est peru que ce
que l'on dsire essentiellement percevoir. Il faut comme la
crit KRISHNAMURTI: se librer du connu. Pour ce faire,
il faut considrer beaucoup de donnes afin dviter
larbitrairedeleurchoix.
Bienentendu,ilexisteunediffrenceentrelesobjectifset
lesralisationscarlesmoyenssontlimits.

M.MENOU/ANALYSEDEDONNEES

R.THOMrelvequeprdirenestpasexpliquer.Silesmodles
statistiques permettent la prvision, il sagit souvent de
mettre en vidence des liaisons quantitatives observables.
Celaconstatesimplement,celanexpliquerien.
L'analyse de donnes entend se dmarquer des statistiques
paramtriques. La statistique paramtrique effectue des
mesures quantitatives et utilise le thorme central limite
qui ramne la loi de LAPLACEGAUSS. La contestation par
l'approche non paramtrique cherche d'une part, se
dbarrasser de l'obligation de passer par la loi normale et
donc des contraintes sur la taille des chantillons, et
d'autre part, s'intresser aux donnes qualitatives.
L'analyse des donnes se distingue en rejetant l'aspect
infrentiel et insiste sur l'aspect descriptif d'un ensemble
considrcommecomplet.
L'analyse des donnes est un moyen de lutte contre
l'idologie.Iln'yadevritquestatistique,toutlereste
n'estquelittrature.Laforcedetouteidologieestqu'elle
reprsente la ralit, ce qui la rend crdible. Toute
idologie vhicule une part de ralit mais, simplifie par
les priori dj accepts. La ralit complexe est
difficilement intelligible pour l'homme. Elle est de plus
souvent inacceptable comme l'indique l'pisode de la caverne
de PLATON. Elle peut tre considre comme le font les
scientifiques par un nuage de points dans un ensemble de
dimensionimportante.Lesstatisticiensparcequiestappele

l'analyse de donnes dterminent, le plus souvent, des plans


de projections de cette ralit en deux dimensions. Ce type
d'instrumentportemalsonnomcarils'agitplusdesynthse
qued'analyse,puisqu'ils'agitdeprojeterdesrelations.Ils
simplifient la ralit, ils l'laguent mais en cherchant des
plansquiconserventlemaximumd'informations,devariances,
et ce par une mthode relativement rationnelle, relativement
indpendante de l'observateur. L'idologue effectue le mme
travail,maissansaucunsupportmathmatique,ilprojettesur
le plan qui correspond sa finalit. La subjectivit est
importante. Mais, il ne peut tre entirement contr puisque
c'est bien la ralit complexe qu'il projette. Finalement,
celarevientpondrerpriorichaqueobservationselondes
objectifs affectifs. Chaque idologie n'est en fait qu'une
dtermination, a priori et subjective, de hirarchie. La
diffrenceentrelesidologiesrsidedoncdanslechoixde
ce qui est essentiel et de ce qui parat secondaire. Elles
sont donc vraies dans la mesure o elles parlent d'objets
rels, fausses dans la mesure o il ne s'agit que de
hirarchies finalises. C'est pour cela qu'elles se
distinguentplusparlenonditqueparledit.Ellesdisent
touteslaralitqu'ellescherchentdcrire,ellestaisent
leurpondration.Silesstructuresrellessontembotesen
niveauxd'organisationcroissants,lesstructuresidologiques
constituesprogressivementneserecouvrentpascompltement.
Les idologies se compltent parfois et se contrarient
souvent.C'estunemarquedeleurirralisme.

M.MENOU/ANALYSEDEDONNEES

L'univers est un ensemble de structures. La connaissance de


l'environnement passe par la description et la comprhension
descausesetconsquencesdecesstructures.Sileslments
composant les structures sont visibles, en revanche, les
relationsquilientleslmentsnelesontpas.L'objectifde
ladmarchestatistiqueestdefaireapparatrecesliaisons.
Les deux types de relations fondamentales sont les relations
d'quivalenceetlesrelationsd'ordre.Ainsi,unepopulation
peutelletredcomposeenclasseshirarchises.

2Elmentsfondamentaux
21 rappels sur la thorie des ensembles
ensemble
appartenance
sousensemble
inclusion
runion
intersection
relationd'quivalence
relationd'ordre
partition

10
22 rappels de gomtrie
produitscalaire
Le produit scalaire de deux vecteurs est le produit de la
longueur de l'un par la projection de l'autre sur lui.
(u.v.Cos(u,v))
Leproduitscalaireestcommutatifetdistributif.
Silesvecteurssontorthogonauxleproduitscalaireestnul.
Silesvecteurssontcolinairesleproduitscalaireest(u.v)
Silesvecteursunitairessontorthogonauxleproduitscalaire
est gal la somme des produits des composantes
correspondantes.
projection
La projection d'un vecteur sur un axe est obtenue par le
produitscalaireduvecteurparlevecteurunitairedel'axe.
Celapermetlechangementdaxedecoordonnes.
distance
Danslespacedesvariables,unproduitscalaireparticulier,
etdoncunedistance,simpose.
1 n
x, y >= x i yi
n i =1
Ainsi,lecoefficientdecorrlationcorrespondaucosinusde
langleformparlesdeuxvariablescentres.
Lechoixdunedistanceesttoujoursarbitrairedanslespace
des individus, car il est possible dassocier chaque
variableuncoefficientdepondration.
mtrique

M.MENOU/ANALYSEDEDONNEES

11
23 rappels sur les matrices
trace
Latraced'unematriceestlasommedestermesdeladiagonale
principale.
valeurpropre
estvaleurpropredeA<=>Det(AI)=0
vecteurpropre
Vestvecteurpropredefsif(V)=V
matricediagonale
Une matrice diagonale est une matrice dont tous les termes
appartiennentladiagonaleprincipale.
diagonalisationdematrice

24 rappels de statistique descriptive


population
variable
variablequalitative
variablequantitative
passageduquantitatifauqualitatif
passageduqualitatifauquantitatif
moyenne
variance
La variance est un concept important car il indique si la
variablediscrimine(tale)lesindividus.Unegrandevariance
donnedel'informationsurlapopulationetdoncdupouvoir.

12

25rappelsdemcanique
centredegravit
Lecentredegravitd'unsolide,oubarycentre,correspond
lanotionstatistiquedemoyenne.
inertie
L'inertied'unsolidecorrespondlanotiondevariance.
Uncorpsad'autantplusd'inertiequ'ilfautd'nergiepour
lemettreenrotationautourd'unaxe.
(distance/axe)2xmasse=:(cart/moyenne)2xfrquence
Ainsi,l'inertieestminimumparrapportaucentredegravit,
commelavarianceestminimaleparrapportlamoyenne.
thormedeHUYGENS
Inertied'uncorps/O=inertie/G+mxOG2
Variance/x=variance/M+x(xM)2
Toutcorpsbiscornusecomportecommeunellipsode3axes
de symtrie. Autour du grand axe, l'inertie est minimale,
autourdupetit,l'inertieestmaximale.
Soitunnuagedenpointspesantsdansunespacededimension
3, il correspond un ellipsode d'inertie. Le centre de
gravit sert d'origine des coordonnes x,y,z. Soit X (n,3) la
matricedescoordonnes.V(3,3) =X'Xlamatriced'inertiedu
nuage. L'inertie totale est gale l'inertie explique par
l'axeetl'inertieautourdel'axe.Les3valeurspropresdeV
sont les inerties expliques par les 3 axes du nuage. Leur
sommeestgalelatracedeV,soitl'inertiedunuage.

M.MENOU/ANALYSEDEDONNEES

13
26 rappels sur la thorie de l'information

27 les tableaux
Lespopulationscomprennentdesindividusdistingusselonun
certainnombredevariables.Cesinformationssontrassembles
dansdestableauxdebasecroisantindividusetvariables.Ces
tableaux peuvent s'interprter de deux faons, un nuage
d'individus dans un ensemble de variables ou un nuage de
variablesdansunensembled'individus.
Tableauxindividusxvariablesquantitatives
Tableauxlogiquesouboolensoubinaires
Tableauxdisjonctifscomplet:individuxvariable
chaquemodalit,placeencolonne,correspondunevariable
indicatrice. Cest la juxtaposition de plusieurs tableaux
logiques.
XX est une matrice diagonale dont les lments sont les
effectifsdechaquemodalit.
Tableauxprsenceabsence
Tableauxdedonnesordinalesoudeprfrences
Individusxobjetsclasser.Unecasecorrespondunenote
variantde1aunombredobjetsclasser
Tableaudedistancesoudeproximits:individusxindividus
Il prsente les distances entre les individus. Ces tableaux
sontsymtriqueautourdeladiagonaleprincipale.
Tableauxdecontingence:variablexvariable
Ilcroiselesmodalitsdedeuxvariablesqualitatives

14

Tableaux de BURT: il croise les modalits de plus de 2


variablesqualitatives.Ilestsymtrique.
Tableauxdesrangs
Tableauxhtrognesoumixtes
Individus x variables Les variables sont de diffrentes
natures
Soit les variables sont dj des classements, soit pour les
variablesquantitativesonremplacelesvaleursparleurrang.

28 les relations entre variables


relationsentredeuxcaractresquantitatifs
Covariance
CoefficientdecorrlationlinairedeBRAVAISPEARSON
relationsentredeuxcaractresqualitatifs
Lekhideux
relationsentrecaractresquantitatifsetqualitatifs
Lerapportdecorrlationthorique
Lerapportdecorrlationempirique

3mthodes
Lesmthodesd'analysedesdonnespeuventseclasserendeux
grandescatgories:lesmthodesfactoriellesetlesmthodes
declassifications.
Ces deux catgories sont plus complmentaires que
concurrentes.
M.MENOU/ANALYSEDEDONNEES

15

Lesmthodesfactoriellespeuventavoirdeuxobjectifs:

Rduire,simplifier,synthtiser,onparlealorsdemthodes
descriptives. Toutes les variables sont considres
ensemble.

Si les variables sont mtriques: analyse en composantes


principales.
Si les variables sont nominales: analyse factorielle des
correspondances.
Silesvariablessontordinales:Analysedessimilarits.

Expliquer, identifier, on parle alors de mthodes


explicatives. Les variables se rpartissent en variables
endognes ( expliquer) et variables exognes
(explicatives).

Si les variables expliquer sont nominales: analyse


discriminante.
Si les variables expliquer sont mtriques : analyse de
rgressionmultiple,Analysedelavariance.
Si les variables expliquer sont ordinales: analyse des
mesuresconjointes.

16

4 Les analyses factorielles


41L'analyseencomposantesprincipales(ACP)
Techniquedebasedel'analysefactorielle,ellea t cre
par HOTELLING (1933). C'est la mthode utilise quand on ne
peutserameneruntableaudecontingence.

411Caractristique
L'analyse concerne un tableau individus x variables x ij (n
lignes,pcolonnes).
Les variables sont quantitatives, continues, corrles entre
ellesdeuxdeux.

412Objectif
Rduirelesdimensionsdutableauendterminantdenouvelles
variables(lescomposantesprincipales),moinsnombreuses(en
gnral deux ou trois), non corrles, mais comprenant plus
d'informations (variance maximale) chacune que les variables
initiales.
Ilsagitdexhiberlesrelationsentreindividusdufaitde
leurproximit,entrevariablesdufaitdeleurscorrlations
etentreindividusetvariables.Celapermetdidentifierdes
sousensembles d'individus afin de constituer une
classification.

M.MENOU/ANALYSEDEDONNEES

17

413Diffrentstypes
l'analyse en composantes principales centres, fonde sur la
matricedesvariancescovariancesempiriques
l'analyse en composantes principales normes. Cela revient
centrer et rduire les variables initiales. En dautres
termes, on utilise une mtrique diagonale des inverses des
variances. Lanalyse est fonde sur la matrice des
coefficientsdecorrlationlinaire.
l'analyse factorielle des rangs fonde sur la matrice des
coefficients de corrlation des rangs lorsque lon fait plus
confianceauxrangsquauxvaleurs
lanalyse factorielle sur tableau de distance ou de
dissimilarits

414Principe
Ondisposed'untableauquireprsenteunnuagedepointsden
individusdansunespace(devariables)dedimensionp.
On souhaite rduire l'espace des variables un plan
(dimension2).Celaconsisteprojeterlesnindividussurun
plan.
Or,laprojectionrduitlesdistances.Ceplandoitdonctre
dfinidefaontelle,quelesdistancesentrepointssoient
le mieux conserves. On cherche donc rendre maximum la
moyennedescarrsdesdistancesentrelesprojections.

18

415Mthode
Lamatricedesdonnes[X](n,p)est,selonlechoixdutype
d'analyse, le plus souvent, centre rduite. En effet, le
centrage et la rduction permettent de gommer les effets
taille et unit des expressions de variables. Les distances
entre des individus caractriss par des variables dunits
diffrentes nauraient pas de sens. Les longueurs des
variables (leurs normes) alors sont toutes gales 1.
Lextrmitdesvecteurssetrouvesurunesphre.Lecosinus
de langle form par 2 variables est gal au coefficient de
corrlationlinaireentrecesvariables.
Cettematriceestensuiteprmultiplieparsatransposede
faonobtenirunematrice[XX](p,p)devariancecovariance
(galement matrice des corrlations si les variables sont

M.MENOU/ANALYSEDEDONNEES

19

centres rduites). La somme des lments de la diagonale


principale (des variances), la trace par dfinition,
reprsente l'inertie du nuage de points. Si toutes les
variables sont rduites, leur variance commune est 1 et la
somme des variances est alors p. p reprsente linformation
totaledunuage.
Lamatriceestalorsdiagonalise.Leslignesetcolonnesde
cettematricecorrespondentdenouvellesvariablesappeles
composantes principales. Du fait de la diagonalisation, la
nouvelle diagonale principale comprend alors les p valeurs
propres i classes par ordre dcroissant. La trace est
conserveparcettetransformation,maislescovariancessont
annules car les composantes principales, concentrent toute
l'information.Lesvaleursproprescorrespondentauxvariances
descomposantesprincipales.
Var(Ci)=i
CespcomposantesprincipalesCi sexprimentcommecombinaison
linaire des anciennes variables. Elles sont telles que la
somme des carrs de leurs corrlations avec les anciennes
variablessoitmaximum.
Ci

oviestlevecteurpropreassocii

Des graphes sont alors dessins croisant les composantes

20
principales1et2(voire1et3et/ou2et3etc.),tantpour
les variables que pour les individus, sparment car
linterprtationnesuitpaslesmmesprincipes.Lesgraphes
desvariablescomprendlecercledescorrlations.

Cette transformation revient dterminer de nouveaux axes


orthogonaux,appelsfacteurs(oucomposantes),centrssurle
pointmoyen.Ilssontengendrsparlesvecteurspropres.Le
premieraxeestceluiquicorrespondlaplusgrandeinertie.
Lesecondestchoisiorthogonalementaupremieretquiexprime
laplusgrandeinertierestanteetainsidesuite.

416Interprtation
Lescomposantesprincipalesconstituentdenouvellesvariables
(correspondant de nouveaux concepts), qu'il s'agit
d'identifier. Ces variables sont non corrles entre elles.
Elles s'expriment comme des combinaisons linaires des
anciennes.

L'interprtationpasseparplusieurstapes:

. La matrice des corrlations des variables initiales permet


devoirsil'analysepeuttreglobalementpossible.Eneffet,
une des conditions de mise en uvre est que les variables
initialessoientcorrles,sinon,lenombrededimensionsne
peuttre rduit. On ne peut rsumer que ce qui est

M.MENOU/ANALYSEDEDONNEES

21

partiellementredondantetli.Ilfautdoncquunmaximumde
valeursdelamatricedescorrlationssoientprochesde1en
valeur absolue. Si toutes les corrlations sont positives
cest quil existe un facteur taille, les individus peuvent
treordonns.

.Laqualitglobaled'explication
Le pourcentage de variance explique par les axes factoriels
retenus est obtenu par la somme de leurs valeurs propres
diviseparlatrace.Cettevaleurmesurelaqualitglobale
delareprsentation.

i
x100
i

Lenombred'axesretenirdoittretel,quecepourcentage
cumul soit suprieur ou gal 75 %. Cette condition trs
arbitrairenapourobjectifquedattirerlattentionsurla
significativitdelanalyse.Engnral,3axesmaximumsont
retenus, car audel leur interprtation s'avre dlicate.
Pour une ACP centre rduite, il ne faut retenir que les
valeurs propres suprieures 1 (critre de KAISER). Ce
critre signifie que comme chaque variable initiale apporte
une information gale 1 (variance), on ne retient que les
composantes qui apportent au moins autant dinformation que
lesvariablesinitiales.
LecritreducoudedeCATTELLdtecteleralentissementdans
ladcroissancedesvaleurspropres.Enabscisse,onplaceles

22

numros de valeur propre et, en ordonne, le pourcentage


dinertie explique. Quand ce pourcentage devient peu
diffrententrelesvaleurspropres(aprslecoude)lesaxes
nesontplusimportants.
On peut aussi dcider de ne conserver que les axes qui
restituent une proportion dinertie suprieure k (entier
gal 2 ou 3) fois 100/p, o p reprsente le nombre de
variable observes. Un axe qui correspond un faible taux
dinertiepeutcependanttrepertinent.

.Lescorrlationsentrelesaxesfactorielsetlesvariables
initiales indiquent la qualit de reprsentation de la
variablesurl'axe.Lescoordonnesdesvariablessontgales
auxcorrlationsaveclesaxes.Plusunecorrlationentreune
variableetunaxeestforte,pluslavariableestprochede
laxe.
Ilnefautinterprterlesaxesqu'partirdesvariablesles
mieux reprsentes, cestdire celles dont la corrlation
est proche de 1 en valeur absolue. Autrement dit, les
variablesbienreprsentesdansleplansontprocheducercle
des corrlations. La proximit entre points variables n'est
exploitablequesicespointssontprochesdelacirconfrence
appelecercledescorrlations(centreOetrayon1).
La corrlation entre les variables de dpart et la r ime
composanteest:

1
r
C i

M.MENOU/ANALYSEDEDONNEES

23

ovrestlevecteurpropreassocilarimecomposante

Interprtationdesaxesfactorielsparlespointsvariables.

L'analyse consiste dterminer la signification des axes


factoriels.
Une ancienne variable a pour coordonnes le coefficient de
corrlationentrecettevariableetlacomposanteprincipale.
Les proximits des variables (bien reprsentes) avec les
axes,associesauxoppositionsentrevariablespermettentde
trouver la signification des nouvelles variables. Ces
proximitsindiquentleurscorrlations.
Cenestpasladistanceaucentrequilfautinterprtermais
lesanglesentrelesvariablesetaveclesaxes.Desvariables
qui forment un angle nul entre elles sont corrles, celles
quifontunangledroitnesontpascorrles,etcellesqui
prsententunangleplatsontcorrlesngativement.Plusune
variable est corrle avec un axe plus elle est proche de
celuici.
Lorsque les variables anciennes sont corrles positivement
entre elles, le premier axe dfinit gnralement un facteur
taille. Le deuxime axe diffrencie alors les individus de
taillesemblable,c'estunfacteurforme.

.Lescorrlationsentrelesaxesfactorielsetlesindividus
suiventlesmmesprincipes.Uneslection,desindividusles
mieux reprsents, doit tre effectue, pour contribuer
l'interprtation des axes. Les individus qui taient

24

caractriss par une valeur pour chaque variable dorigine


prennent maintenant une valeur pour chaque composante
(nouvelle variable). Pour visualiser la dispersion de ces
valeurs (les individus sont diffrents), on passe de la
dimension p la dimension 2 (ou 3 la rigueur). Cela
signifiequeloneffectueuneprojection.Ortouteprojection
dforme les distances qui se raccourcissent. Il ne faut
retenir que les distances qui ont t le mieux conserves.
Cettequalitponctuelledereprsentationestfournie,selon
les logiciels par : les contributions absolues, les
contributions relatives des points au facteur (CTR), les
cosinus carrs (pour viter les signes ngatifs) des
projections et la qualit de la reprsentation (QLTr). Le
cosinus carr est appel contribution relative du plan
lindividu.Plusunindividuestprocheduplanpluslangle
est faible plus le cosinus carr est proche de 1. Les
contributions absolues expriment limportance de chaque
individu dans la cration des axes par rapport aux autres
individus.

M.MENOU/ANALYSEDEDONNEES

25

La proximit sur le graphique peut correspondre des


individustrsdiffrentsparrapportauxvariablesinitiales.
On compare donc le carr de la norme ( de la distance
loriginedesaxes)initialceluiaprsprojection.
Laqualitdereprsentationdunindividuisurlaxerest
mesurepar:
r

Ci

o le dnominateur reprsente le carr de la distance de


lindividu au centre du nuage dans la base des anciennes
variables et le numrateur le carr de la distance de
lindividuiaucentredunuagesuivantlaxer.
Lindividuestbienreprsentsilenumrateurestimportant
parrapportaudnominateur.
Lacontribution(diteabsolue)delindividui lavariance
delaxeestdonneparlerapport:

1 r
C
n i


olednominateurreprsentelavarianceexpliqueparlaxe
r,etlenumrateurlapartdecettevarianceduelindividu
i.
Si ce rapport est important, cela signifie que lindividu i
joueunrleimportantdansladfinitiondelaxe.

.Interprtationdesaxesfactorielsparlespointsindividus.

26

Les proximits et les oppositions entre individus, par


l'analyse de leurs points communs, aident aussi la
comprhensiondesnouveauxaxes.Lesindividusprochesontdes
profilssemblables(rponsesvoisinesauxdiversesquestions).
Une analyse typologique peut prciser ces regroupements. Les
individusplacsaucentredugraphiquedoiventtreanalyss
commemoyens.

417Limites
Lanalyseestsensibleauxindividustrsdiffrents.Pourne
pas trop falsifier lanalyse, il est possible de les
considrercommedesindividussupplmentaires.

Linterprtation doit tre prudente, car les processus sous


jacents sont complexes, ce ne sont jamais que des
reprsentations.

M.MENOU/ANALYSEDEDONNEES

27

42L'analysefactorielledescorrespondances(AFC)

TravauxdeJ.P.BENZECRI(1960).
421Caractristique
Cettemthodepermetd'tudierlaliaisonentrelesmodalits
dedeuxvariablesqualitatives(correspondances).Commetoute
variable quantitative peut, par un codage, se ramener une
variable qualitative, l'AFC permet de mettre en vidence des
liaisons non linaires entre variables quantitatives non
dtectes par le coefficient de corrlation linaire.
Lobjectif poursuivi est le mme que pour lACP, savoir,
rduire le nombre de dimensions pour permettre une meilleure
comprhension de phnomnes noys dans la masse des
informations.
ElleseramneuneACPeffectueavecunemtriquespciale,
celle du khideux, sur un tableau de contingence (Tableau
variable x variable). C'est une technique d'exploration des
tableaux(ouprofils)croiss.
Les reprsentations graphiques sont relativement faciles
interprter.

422Mthode

Cettemthodegnraliseletestdindpendancedukhideux.
LapopulationestdfiniepardeuxvariablesqualitativesX(l

28

modalits) et Y (c modalits), ce qui permet d'obtenir deux


reprsentations, deux nuages. Deux analyses duales
quivalentes sont alors possibles. Soit on s'intresse aux
profilsligne,cequiramneuntableauindividuxvariable,
olesindividussontlesmodalitsdelavariableX,place
enlignesetaffectsdespoidsni./n...
Soit on s'intresse aux profils colonne, ce qui ramne un
tableau individu x variable, o les individus sont les
modalits de la variable Y, place en colonne, affects des
poidsn.j/n...Ils'agitalorsd'effectuerdeuxACP:unesur
le tableau des profils lignes (l,l) une sur le tableau des
profilscolonne(c,c)aulieudelamatricedescorrlations.
CesdeuxACPsontquivalentes.
Les valeurs propres et vecteurs propres rsultant des 2 ACP
sontidentiques.
Isommedes valeurspropres(ennombre:min(l,c)1)mesure
linformationcontenuedanslesdeuxtableaux.LeproduitdeI
par le nombre dobservations n est gal au khideux.
Linformationcontenuedansuntableaudecontingenceestdonc
dautant plus grande que les lignes et colonnes sont
dpendantes.

Concrtement le tableau des effectifs nij est transform en


tableaudesfrquencesfij.
Cetableauestalorscentravantdepermettredecalculerla
matricedevariancecovariance.
Cettematriceestalorsdiagonalise.

M.MENOU/ANALYSEDEDONNEES

29

423Interprtation
Ilsagitdanalysercaseparcaselescontributionsaukhi
deuxlesplusleves,puisquecesontellesquiontentran
lerejetdelhypothsedindpendance.

L'interprtationpasseparplusieurstapes:
.Laqualitglobaled'explication
Le pourcentage de variance explique par les axes factoriels
retenus est obtenu par la somme de leurs valeurs propres
divise par la trace. Le nombre d'axes retenir doit tre
tel,quecepourcentagesoitsuprieurougal75%(nombre
arbitraire).
En gnral, 3 axes maximum sont retenus, car audel
l'interprtations'avredlicate.
Les valeurs propres sont toutes infrieures ou gales 1,
donc le critre de KAISER utilis pour lACP ne peut tre
retenu. Seule la mthode du coude de CATTELL peut tre
utilise.

.Lescontributionsdespointsl'inertiedesaxes(CTA)et
la contribution des axes l'inertie d'un point (CTR)
permettentlaslectiondeslmentsexplicatifs.Lescosinus
carrs des projections indiquent ensuite la qualit de la
reprsentation (QLT). Il ne faut interprter les axes qu'
partir des modalits les mieux reprsentes. Les proximits

30

entrepointsmodalitsnesontexploitablesquesicespoints
sontprochesdelapriphrie.

. L'analyse consiste dterminer la signification des axes


factoriels. Les proximits des modalits des deux nuages,
associes aux oppositions entre modalits, permettent de
trouver la signification des axes. La proximit entre deux
modalits du mme nuage signifie un profil similaire. La
proximit entre deux modalits de variables diffrentes
signifie un mme centre de gravit pour les individus
possdantlesmodalitsdesvariablesconcernes.
L'interprtation graphique est favorise par la dualit des
deux analyses qui permet de reprsenter les deux nuages de
faonsuperpose.
Parfoislaformedesnuagesrendplusrapidel'interprtation.

424Remarque

L'analyse factorielle des correspondances revient une


analyse canonique applique deux tableaux disjonctifs.
(Chaquemodalitdevariablequalitativeestremplaceparune
variablequantitativeprenantlesvaleurs0et1.)

M.MENOU/ANALYSEDEDONNEES

31

43L'analysedescorrespondancesmultiplesACM
431Caractristique

GUTTMAN (1941), BURT (1950) Cette analyse constitue une


gnralisation de l'A.F.C. Les n individus sont caractriss
par p variables qualitatives chacune ayant mi modalits. La
mthode est trs utile pour dpouiller rapidement un
questionnaire qui comprend notamment des rponses multiples.
Siceluicicomprenddesvariablesquantitatives,ilsuffitde
les transformer en variables qualitatives par dcoupage en
classes.
IlsagitdappliqueruneAFCuntableaudisjonctifcomplet.
Chaque individu est reprsent par les indicatrices des
modalits des variables. Il faut alors que le nombre
dindividus soit 5 fois plus important que le nombre de
colonnes.
Il est aussi possible de traiter des variables rponses
multiples.

432Mthode

Le tableau crois, dit tableau de BURT, est un tableau dont


chaqueblocconstitutifestuntableaudecontingence.Ilest
traitcommepouruneAFC.
Onutiliselesdistancesdukhideuxentenantcomptequele
tableaucomprenddesdonnesbinaires.

32

Lesprofilslignessontobtenusendivisantchaquetermedune
ligneparlenombredecolonnes.
Lecarrdeladistanceentre2individusietjest:

d 2 (i, j)

Les profils colonnes sont obtenus en divisant chaque terme


dunecolonneparlasommedestermesdelacolonne.
Lecarrdeladistanceentre2profilscolonnesietjest:

d (i, j)

433Interprtation

L'interprtationnediffrepasdecelled'uneA.F.C..

M.MENOU/ANALYSEDEDONNEES

33

44Lanalysefactorielledessimilarits(oudedissimilarits)etdesprfrences
Analyse dun tableau des dissimilarits (ATD) ou Multi
DimensionalScalingofsimilaritiesandpreferences(MDS)

441Caractristiques

:
Onconsidrenobjetsreprslesunsparrapportauxautres
par un indice (dissimilarits ou distance). On dispose ainsi
duntableaucarrsymtriquededimensionnreprsentantles
distances entre ces objets. La diagonale principale est donc
occupepardes0.

Ex:distancesentrevilles

Les distances peuvent tre des mesures objectives ou des


estimations subjectives. Dans ce dernier cas, on prfre
souvent plutt que des valeurs mtriques, des valeurs
ordinales.
Les donnes reprsentent des similarits ou des prfrences
(rangs).
Lesdistancessontdonnesparunindividuouparlamoyenne
desdistancespourungroupedindividus.
Lesobjets(unitsstatistiquesoulesvariables)sontdfinis
parunindicededissimilaritsoudedistance.Oncompareles
objetsdeuxdeuxpartirdunelistedecritres.

34
Un indice de dissimilarit est une fonction mesurant des
diffrencesetvrifiantdesproprits:

La dissimilarit est dautant plus grande que les objets


sontdiffrents

Ladissimilaritentre2objetsietjestpositiveounulle

Ladissimilaritentreunobjetetluimmeestnulle

La dissimilarit entre les objets i et j est gale la


dissimilaritentrelesobjetsjeti.

442Objectif
Reprsentation, sous forme graphique, dun ensemble dobjets
en fonction de leurs distances (dimensions caches). On
chercheunereprsentationdecesnobjetsdansunespacede
nombrededimensionsleplusfaiblepossible.
Mais,sipourdesvilleslacarteexiste,ilnestpascertain
quepourdesobjetscesoitlecas.Parailleurs,ilyades
risques que pour placer tous les objets on soit oblig de
multiplierlesdimensions.
En marketing, on se sert de cette mthode pour le
positionnement des produits et la conception de nouveaux
produits.

443Mthode

Apartirdutableaudedistances,ondresseunsecondtableau,

M.MENOU/ANALYSEDEDONNEES

35
carr symtrique des produits scalaires de chaque couple de
vecteurs.Cestlamatricedevariances/covariancesdunuage.
Lamthodeconsiste,alors,diagonalisercettematricedite
de TORGERSON. Les valeurs propres sont ordonnes en ordre
dcroissant.
Si tous les points sont dans le plan, toutes les valeurs
propressontnullessaufles2premires.Ilarrivecependant
que certaines valeurs propres soient ngatives, dans ce cas,
lareprsentationestimpossible.
Lamthodedterminedesaxes,lacarteperceptuelle,situant
les objets les uns par rapport aux autres. Ces axes
correspondentladispersionmaximaledesobjets.

444Interprtation

Linterprtation se fait grce au graphique, par les


proximitsetlescartsentreobjets.

Lvaluationdelaqualitdereprsentationsefaitlaide
dedeuxindices:lestressetleR2.

Le Stress exprime en pourcentage le respect de lordre


initialdeclassementdesobjets.

Silordreestrespectlestressestnul.

R2 reprsente le carr du coefficient de corrlation entre

36
lesdistances(ousimilaritssousformederangs)dedpart
etlesdistancesrecalcules.
UnR2prochede1indiqueunbonajustement.

M.MENOU/ANALYSEDEDONNEES

37

45L'analysediscriminante(AFD)

TravauxdeFISHER(1936)etMAHALANOBIS(1936).

451Objectifs
Oncherche dcrireet classerdesindividuscaractriss
parungrandnombredevariables.Ilsagitdedterminerles
variablesquidistinguentlemieuxlesgroupesdindividus.

452Caractristique
Il sagit de mettre en vidence les relations entre une
variablequalitativeYexpliqueretunensembleimportantde
variablesquantitativesexplicatives.Ondisposed'untableau
individusxvariables.(nindividus,pvariablesXi)
Le nombre de variables explicatives doit tre trs infrieur
aunombredindividus.
La variable qualitative Y prenant q modalits, elle ralise
une partition de l'ensemble des individus. Lobjectif est
d'trecapabledaffecter,dansundeuximetemps,danschaque
classe, de nouveaux individus, grce la fonction
discriminantepralablementconstitue.
La premire tape consiste donc prciser la fonction
discriminante partir des observations des variables
quantitatives. De nouvelles variables doivent tre
dtermines, de sorte que les q groupes soient spars le
mieuxpossible,cestdiredistinguablessansambigut.

38

Lescoefficientsdelafonctionestime(ditediscriminante),
sur l'ensemble partitionn d'individus, permettent par la
suitedefairedesprvisionspourcaractriserlamodalitde
la variable expliquer. Le challenge consiste rduire le
nombredevariablesquantitativesconsidrer.
Cette mthode est utilise pour la reconnaissance de formes,
lappartenancepolitique,lediagnosticenmdecine,etc.

453Mthode
Ils'agitdedterminerlesqcombinaisonslinaires,appeles
variables discriminantes, non corrles entre elles, des
variablesquantitativesexplicativesquisparentaumieuxles
classes dj dfinies. Les valeurs prises par ces nouvelles
variables,pourlesindividusdunemmeclasse,doiventtre
lesplusconcentrespossiblesetlesvaleursprisesparces
mmes variables, pour des individus de classes diffrentes,
lesplusdispersespossibles.

A
A

B
A

B
B

B
B

M.MENOU/ANALYSEDEDONNEES

39

Lesprojectionsdespointssurlaxeontuneabscissepositive
pourlegroupedesBetuneabscissengativepourlegroupe
desA.

Pourchaqueindividui,oncalculeunefonctionu(i)(nouvelle
variable)combinaisondespvariablesquantitativescentres.
La variance de cette variable u (u'Tu) se dcompose en
varianceintraclassesetvarianceinterclasses(thormede
HUYGENS). Il faut chercher u tel, que la variance interne
(u'Du)soitminimaleetlavarianceexterne(u'Eu)maximale.
Cela se traduit par rendre maximal le rapport Vext/Vint ou
(Vext/Vtot)ouminimalVint/Vextou(Vtot/Vext).Enpratique,
onchercherendremaximumu'Eusouslacontrainteu'Du=1.
Les multiplicateurs de LAGRANGE permettent la rsolution de
cettemthoded'optimisation.L=u'Eu(u'Du1)
L'annulationdeladriveparrapportu:
2(EuDu)=0
Larsolutiondel'quationdonneD1Eu=u
u est donc vecteur propre de D1E, le vecteur choisi sera
celuicorrespondantlaplusgrandevaleurpropre.
CelarevientdonceffectueruneACPsurlenuagedescentres
degravitdesclassesaveclamtriquedeMAHALANOBIS.
La distance de MAHALANOBIS entre deux vecteurs est dfinie
par:

40

d2(u,v)=(uv)D1(uv)
oD1estlamatricedesvariancescovariancesintraclasses.

Pourrduirelecotdel'analyse,ilconvientdelimiterle
nombre de variables explicatives soit par une analyse en
composantesprincipalespralable,soitparladmarchedupas
pas.
Le passage par l'analyse en composantes principales consiste
danslapratiquedel'ACPdescentresdegravitdesclasses.
La dmarche pas pas revient choisir successivement des
variablesenprenantcellesquimaximisentlatracedeD1 E
oucellesquimaximisentlepourcentagedebienclasss.
Ilestpossibledepratiqueruneanalysediscriminantesurdes
variables qualitatives en transformant les modalits des
variablesqualitativesenvariablesbinaires.

454Interprtation

Lavaleurdesvaleurspropresexprimelepouvoirdiscriminant
des facteurs. Si la valeur propre est gale 1, la
discriminationestparfaite
On retient un nombre de facteurs tels que la variance
explique(sommedesvaleurspropresretenuessursommetotale
desvaleurspropres)soitconvenable.
L'interprtation des facteurs peut s'effectuer par l'analyse
descorrlationsentrefacteursetvariablescommeenACP.

M.MENOU/ANALYSEDEDONNEES

41

Le graphique des individus sur les axes discriminants permet


devisualiserquelaxediscriminequelsgroupes.
Le logiciel indique aussi le pourcentage dindividus bien
classs.

Aprs avoir prcis la fonction discriminante, il est


prfrable de lappliquer un deuxime ensemble
dobservationspourvoirsilesaffectationsauxclassessont
correctesavantdeprocder desprvisionssurdenouveaux
individusdontonignorelappartenanceauxclasses.

Lesrglesdaffectationsontmultiples.

La rgle gomtrique consiste affecter lindividu la


classedontlamoyenneestlaplusprocheselonladistance
deMAHALANOBIS.Mais,cettergleconduitdesaffectations
erronessileseffectifsdesclassessonttrsdiffrents.

La rgle probabiliste considre que lon doit affecter un


individu la classe dont la distribution de probabilit,
supposenormale,delappartenancedecetindividuestla
plusforte.Apriorichaqueclassealammeprobabilitde
comprendrelindividu.Mais,cesprobabilitssontrvises
ensuiteenfonctiondelatailledugroupe.

455Remarques:comparaisonsaveclesautrestechniques
L'analyse discriminante est une rgression sur une variable
qualitative.
L'analyse discriminante n'est pas une mthode de

42

classificationautomatique,puisquelapartitionexiste,mais,
demiseenvidencedecettepartition.

M.MENOU/ANALYSEDEDONNEES

43

46Lanalysedesmesuresconjointes
461Objectif
Mesurerleffetconjointdeplusieursvariables(explicatives)
indpendantes qualitatives xi sur lordre des valeurs prises
par une variable ( expliquer) dpendante qualitative y. On
cherchequellesvariablesconduisentunclassementdonn.

462Caractristiques

On dispose de plusieurs variables explicatives indpendantes


(ventuellementnominalestransformesenbinaires)ayantdes
valeursordonnes.

463Mthode

Il sagit de transformer la variable expliquer en une


fonctionmonotone(1,2,3,4,)
On utilise gnralement la mthode danalyse monotone de la
variance.
La variable expliquer sexprime en fonction des autres
variablesselonunmodleadditif.

44

47L'analysecanonique
471Caractristique
On dispose d'un tableau individus x variables (quantitatives
rpartiesendeuxgroupesdedimensionpetq).Cettemthode
permet de dterminer si les deux ensembles de variables
mesurentlesmmesproprits.Endautrestermes,lamthode
mesurelaliaisonglobaleentredeuxensemblesdevariables.

Peu utilise en soi, cette analyse dcrit une dmarche


gnrale qui se retrouve dans d'autres mthodes (AFC,
AFDiscriminante).Siunensemblenecomprendquunevariable,
onaaffaireunergressionmultiple.Sidepluslesautres
variablessontcatgorises,cestuneanalysedevariance.

472Mthode

L'on recherche la combinaison linaire du premier groupe de


variables et la combinaison linaire du deuxime groupe de
variables qui maximisent le carr de leur corrlation. Cela
revienttrouverdeuxvecteursuetv(variablescanoniques)
formantunangleminimum.
Les corrlations les plus fortes exhibent les variables qui
contribuentlepluslaliaisondesdeuxgroupes.Lescouples
faiblecorrlationcorrespondentdesvariablesspcifiques
chaqueensemble.

M.MENOU/ANALYSEDEDONNEES

45

Gomtriquement, la mthode consiste rechercher les lignes


deplusgrandespentesde2sousespacesW1etW2.

W2
v

u
W1

473Interprtation

Siles2ensemblesdevariablesquelonpeutconstruirepar
combinaison linaire de chaque groupe sont confondus (angle
nul),onpeutsecontenterdunseulensembledevariables.Si
les 2 ensembles sont orthogonaux (angle droit) cela signifie
quelesdeuxensemblesdcriventdesphnomnesdiffrents.

Ilfautanalyserlescorrlationsentrevariablesinitialeset
variablescanoniques.

46

474Extension
Ilestpossibledappliquerlamthodeplusdedeux
ensembles.
Il est galement possible de travailler avec des variables
qualitatives. Il suffit de considrer chaque modalit comme
unevariablebinaire.

M.MENOU/ANALYSEDEDONNEES

47

5 Les mthodes de classification, de typologie ou de taxinomie

Ces mthodes visent rpartir les individus en classes


(groupes,segments,clusters,types)homognes.
Lhomognitestmesureparladistanceeuclidienneusuelle.
Ces mthodes se rpartissent en deux catgories les non
hirarchiquesetleshirarchiques.
Lesmthodesnonhirarchiquesdterminentdespartitions.
Les mthodes hirarchiques dterminent des suites de
partitionsembotesenclassesdeplusenpluslarges.
Lestableauxutilisssont:
destableauxdedistancesentreindividus
destableauxdedissimilaritsentreindividus
destableauxindividusxcaractresnumriques
des tableaux des coordonnes factorielles d'une analyse des
correspondances

48

51L'analysenonhirarchique

511Objectifs

Ces mthodes cherchent tablir une partition des individus


en classes. Les individus regroups dans une classe doivent
tre les plus semblables possibles entre eux et les classes
lesplussparespossiblesafindepouvoirlesidentifier.
Biensr,leproblmeneseposequelorsquelonaaffaire
unepopulationcaractriseparplusieursvariables.
Cependant, il y a peu de chances que des classes existent
nettement.

Ilestdoncdifficiledeprouverlexistencedeclassesoude
montrer lefficacit dune mthode de classification en se
basantsurdesclassesconnues.

M.MENOU/ANALYSEDEDONNEES

49

Un autre problme concerne la dtermination du nombre de


classes.

Pour un ensemble donn, le nombre de partitions concevables


tanttrsimportant,ilfautdfinirunemthode.Ilesten
effet impossible, en pratique, de procder par simple
slection,selonuncritre,danslensembledetouslescas
possibles. Concrtement, il est conseill de faire plusieurs
essais et de choisir celui qui sinterprte le plus
facilement.

Un seuil de regroupement est dfini correspondant la


distancemaximumacceptablepourrassemblerdeuxindividus.

512Mthode

Ilexisteplusieursmthodesdepartitionnement:lesmthodes
bases sur linertie, et celles bases sur les relations
dquivalence.

5121Lesmthodesbasessurlinertie

Le nuage de n points de IR p (n individus, p variables)


reprsentantlapopulationestdiviseenplusieurs(k)sous
nuages (ou classes). La distance considre entre les

50

individus est value par une distance euclidienne. Chaque


sousnuage doit, pour tre le plus homogne, avoir le moins
d'inertieintraclasses.L'inertiedechaqueclasse(ouintra
classes)estlamoyennedescarrsdesdistancesdespointsau
centredegravit.Lasommedesinertiesdessousnuagesdite
intraclassedoittrelapluspetitepossible.
Enrevanche,ilfautqueladispersiondescentresdegravit
de chaque sousnuage par rapport au centre de gravit de
l'ensemble, l'inertie interclasses, soit la plus grande
possible.
L'inertietotaledunuageestlasommedesinertiesinteret
intraclasses.
Maximiser l'inertie interclasses, c'est minimiser l'inertie
intra,puisqueleursommeestconstante.
Il convient de dfinir essentiellement un critre global de
proximit.

Mthodedescentresmobiles(FORGY)

On dfinit k centres arbitraires (choisis au hasard), et on


regroupelesindividusautourdecescentresselonleurplus
faibledistancerelative.

M.MENOU/ANALYSEDEDONNEES

51

Celarevienteffectuerunepartitionendomainespolydraux
convexesdterminsparleshyperplansmdiateursdescentres.
Le centre de gravit de chaque groupe est alors calcul. On
regroupe les individus autour de ces nouveaux centres selon
leurmoindredistancerelative.Onrecommencel'algorithme,en
recalculant de nouveaux centres de gravit et, en reclassant
lesindividusjusqu'cequelaqualitdupartitionnementne
s'amliore plus. Cette qualit tant mesure par l'inertie
intraclasse. Lalgorithme converge, selon le thorme de
HUYGENS, aprs un petit nombre ditrations, vers linertie
intra minimale. Le critre darrt peut tre fix par un
nombremaximalditrationsouparunseuildevariations.

Lamthodepeuttreutilisepourdesdonnesqualitatives
conditionsdeprendrelescoordonnesfactorielles.

52

L'inconvnient de cette mthode est que le rsultat est


dpendantdelapartitiondedpart.
Un autre problme peut provenir de classes vides, car cela
rduitlenombredeclasses.

Mthodedesnuesdynamiques

E. DIDAY gnralise la mthode des centres mobiles en


dfinissantchaqueclasseparqindividus(lespluscentraux)
constituantlenoyau(aulieudesonseulcentredegravit).
Partantdeknoyaux,onrpartitlesindividusautourdeces
noyaux. On recalcule de nouveaux noyaux, plus reprsentatifs
des classes ainsi formes, jusqu' ce que la qualit de la
partitionnes'amlioreplus.

Commelapartitionfinalepeutdpendreduchoixdesnoyauxde
dpart,ilestncessairederecommencerloprationavecdes
conditionsinitialesdiffrentesplusieursfois.Les lments
regroups dans plusieurs partitions finales sont appels
formesfortes.

Lamthodedeskmeans(MacQUEEN)

Cette mthode procde comme celle des centres mobiles, sauf


que,lescentressontrecalculsaprslaffectationdechaque
point.

M.MENOU/ANALYSEDEDONNEES

53

5122Lesmthodesbasessurlesrelationsdquivalence
F. MARCOTORCHINO et P. MICHAUD ont labor des mthodes
applicables aux variables qualitatives ne ncessitant pas la
dterminationdunombredeclassesapriori.
Le principe repose sur le fait quune partition est une
relationbinairedquivalence.Toutevariablequalitativem
modalitspermetunepartitiondesindividusenmclasses.Les
individus dune mme classe sont quivalents. Si la relation
dquivalenceestreprsenteparuntableautelque:
cij=1silarelationestvrifieetcij=0sinonalorsCii=
1(rflexivit)Cij=Cji(symtrie)Cij+CjkCik1.
LamthodeconsistealorstrouverunematriceCquirespecte
lesconditionsprcdentes.
Si on dispose de p variables qui ont respectivement m 1,
m2,...,mpmodalits,ondisposedeppartitions.
Le problme est donc de trouver un compromis entre ces p
partitions.

513Interprtation

Il faut donner un nom aux classes obtenues et pouvoir les


dcrire.

54
On peut identifier plus facilement les groupes les plus
homognes.
Onutiliselesvariablesinitiales.Oncalculepourchacunele
rapportdelavarianceintersurlavariancetotaleetonne
retientquecellesquiontunevaleurprochede1.
Linterprtationpeuttredduitedelapositionrelativedes
classes. On compare pour cela les moyennes des variables de
chaque classe en tenant compte de leurs carts type. Plus
lcarttypeestfaiblepluslacomparaisonestvalable.
Onpeutreprsentergraphiquementlesindividus,diffrencis
selon la classe, pour les variables importantes de la
classificationprisedeuxpardeux.

514Limites
Les mthodes dcrites naboutissent qu des optimums locaux
dpendantdelapartitioninitiale.

515Comparaisonaveclesautresmthodes

La classification permet deffectuer la suite une AFD. Si


celleciestcorrectecestquelatypologieestintressante.

52L'analysehirarchique

M.MENOU/ANALYSEDEDONNEES

55

L'analyse hirarchique se partage entre mthodes ascendantes


etdescendantes.Lesmthodesdescendantessontpeuusites.

Lesmthodesd'analysehirarchiquedescendantespartentdela
populationglobalepourallerverslesindividus.

Les mthodes d'analyse hirarchique ascendante cherchent


dfinir des ensembles de partitions, de nombre de classes
dcroissant,emboteslesunesdanslesautres.Partantd'une
partition en n classes, d'un lment chacune ( n tant le
nombre d'individus), on cherche regrouper, chaque tape,
les deux classes les plus proches, jusqu'au regroupement en
une classe comprenant tous les individus. Il y a donc n2
partitionsdterminer.

Une classification hirarchique est reprsente par un


dendrogramme, ou arbre de classification, ou arbre
hirarchique.

P1

P2P3
P5P4

56

P5=a/b/c/d/e
P4=ab/c/d/e
P3=ab/c/de
P2=abc/de
P1=abcde
Lindicedepartitioncorrespondunindicedagrgation.
A partir de larbre, les classes sont dfinies, en coupant
larbreuncertainniveau,onexaminealorslesbranchesqui
tombent.

Gnralement, une chelle sur le ct permet de dterminer


lloignement des groupes les uns par rapport aux autres.
Cest une moyenne des distances entre individus de lun des
groupesetceuxdelautre.

Lesnudssontunehauteurproportionnellelinertieinter

M.MENOU/ANALYSEDEDONNEES

57

perduedufaitdelafusion.

Les mthodes se distinguent selon le choix du critre de


regroupementdedeuxclasses.

MthodedeWARD
Lecritrechoisiestceluidelinertie.
Cettemthodeestaussiappelemthodedumomentdordre
deux.

Caractristique
On considre n individus, caractriss par p variables
quantitatives, donton valuelaproximitparunedistance
euclidienne.

Mthode

Au dpart chaque individu forme une classe. Linertie inter


classes est alors gale linertie totale. Linertie totale
est la moyenne des carrs des distances des individus au
centredunuage.Ils'agitensuitedediminuerdeunlenombre
d'lments d'une partition jusqu' l'obtention d'une seule
classe comprenant tous les lments. Linertie interclasses
est alors nulle. Il faut donc runir les deux classes (les
plusproches)pourlesquelleslaperted'inertieestlaplus

58

faible.Onagrgedonclesindividusquifontlemoinsvarier
linertie intraclasses. A chaque tape, on calcule lindice
durapportdelinertieinterclasseslinertietotale.
Lorsque lon regroupe 2 classes, linertie interclasses
diminue.
Cette diminution est mesure par le critre dagrgation de
Ward.
Pourleregroupementdesclassesietj:
ni n j

n(ni
ncorrespondleffectif
gaucentredegravit
Le carr de la distance est obtenu en faisant la somme des
rapports, pour chaque variable, du carr de la diffrence
entrelesvaleursdes2individusetdelavariance.
Onregroupedonclesdeuxclassesquiminimisentlecritrede
Ward.

Interprtation
Le critre de Ward cumul partir de la dernire itration
permetdecalculerlesinertiesexpliquesparlesdiffrentes
partitions successives. En divisant ces totaux par le nombre
de variables, on obtient la part dinertie explique. On
retientunetypologieencclasseslorsquelapartdinertie
expliqueaugmentepeuenajoutantuneclassesupplmentaire.
La partition est dautant meilleure que les groupes sont

M.MENOU/ANALYSEDEDONNEES

59

homognes. Cela se traduit par une inertie intraclasses


faibleetuneinertieinterclassesforte.

Lanalyse hirarchique est souvent associe une ACP.


Linterprtationestfaciliteparletracdesclassessurle
graphe du plan des composantes principales. Si les individus
sont trop nombreux, pour tre tous reprsents, ce sont les
centresdegravitdesclassesquisontreports.

AutresMthodes

Lesautresmthodessappliquentlorsquelesdistancesnesont
paseuclidiennes.
Plusieursdistancespeuventtreenvisages.Parmielles:

Distancedusautminimal(oudelinf)

AetBtantdeuxclasseslesei,ejdesindividus
d(A,B)=infd(ei,ej)poureiAejB

Distancedudiamtre(oudusup)

d(A,B)=supd(ei,ej)

Distancemoyenne

d(A, B) =

1
PAPBlepoidsdechaqueclasse
PA PB j

Cesmthodesdonnentdesrsultatsdiffrents

60

logiciels
ALCESTE
ADDAD
ANACONDA
BMDP
CHADOCVS
CSS
DBASESTATS
DESTIN
EOLE3
EXECUSTAT
EyeLID
FLASH
FUTURMASTER
GLADYS
ITEM
LADDAD
LEAS
LESPHINX
LIDE+
LTSM
MODALISA
MINITAB
NCSS
PCSM
PRECIS
QUADEOLE
QUEST
QUESTION
R
S+
SAS
SIMCAP
SOLO
SPAD
SPSSPC
STATBOX
STATGRAPHICS
STATISTICA
STATITCF
STATLAB
STATVIEW
SYNTHESE2
SYSTAT
UNISTAT
TRIDEUX
VESTAL

M.MENOU/ANALYSEDEDONNEES

61

Bibliographie
AAKER D. A., Multivariate analysis in marketing, Wadsworth,
1971.
ANTOINEJ.,Lesondageoutildumarketing,Dunod,1986.
AURAY DURU ZIGHED, Analyse des donnes multidimensionnelles,
tome 1 : les mthodes descriptives, Editions A. Lacassagne,
1991.
AURAYDURU,Analysedesdonnesmultidimensionnelles,tome3:
lesmthodesexplicatives,EditionsA.Lacassagne,1991.
AVENEL M. RIFFAULT J.F., Mathmatiques appliques la
gestion,Foucher,2005.
BAIR J., Algbre linaire pour lconomie et les sciences
sociales,DeBoeckUniversit,1984.
BASTINC.etAlii, Pratiquedelanalysedesdonnes,Dunod,
1980.
BAVAUD F. CAPEL R. CRETTAZ de ROTEN MULLER J.P., Guide de
lanalysestatistiquededonnesavecSPSS6,Slatkine,1996.
BENZECRIJ.P.,L'analysedesdonnes,T1Lataxinomie,Dunod,
1979.
BENZECRI J.P., L'analyse des donnes, T2 L'analyse des
correspondances,Dunod,1982.
BENZECRI J.P. BENZECRI F., La Pratique de l'analyse des
donnes, T1 Analyse des correspondances. Expos lmentaire,
Dunod,1984.
BENZECRI J.P. BENZECRI F., La Pratique de l'analyse des
donnes,T5Economie,Dunod,1980.
BENZECRIJ.P.BASTINC.BOURGARITC.CAZESC.,LaPratiquede
l'analysedesdonnes,T2Abrgthorique,tudesdecasde
modle,Dunod,1980.
BENZECRIJ.P.BASTINC.BOURGARITC.CAZESC.,LaPratiquede
l'analysedesdonnes,T3Linguistiqueetlexicologie,Dunod,
1981.
BENZECRI J.P., Correspondance Analysis Handbook, Marcel
DekkerInc.,1992.

62
BERTIER P. BOUROCHE J.M.,
multidimensionnelles,P.U.F.,1977.

Analyse des donnes

BERTRAND R., Pratique de lanalyse statistique des donnes,


PressesdelUniversitdeQubec,1986.
BIALESC.,L'analysestatistiquedesdonnes,Chotard,1988.
BOUROCHE J.M. SAPORTA G., L'analyse des donnes, P.U.F.,
1980.
BOUROCHE J.M., Analyse des donnes en marketing, Masson,
1977.
BRYX.,Analysesfactoriellessimples,Economica,1995.
CAILLIEZF.PAGESJ.P.,Introductionl'analysedesdonnes,
Smash,1976.
CASIN P., Analyse des donnes et des panels de donnes, De
BoeckUniversit,1999.
CEHESSAT R., Exercices comments de statistique et
informatiqueapplique,Dunod,1981.
CELEUX G. DIDAY E. GOVAERT G. LECHEVALLIER Y. RALAMBONDRAINY
H., Classification automatique des donnes. Environnement
statistiqueetinformatique,Dunod.
Cereq,Bref84,Fev1993.
CHANDONJ.L.PINSONS.,Analysetypologique,Masson,1980.
CHANDON J.L., L'Analyse de donnes dans les sciences de
gestion,Encyclopdiedumanagement2,Vuibert,1980.
CIARLETP.G., Introductionlanalysenumriquematricielle
etloptimisation,Dunod,1982.
CIBOISP.,L'analysefactorielle,P.U.F.,1983.
CIBOISP.,L'analysedesdonnesensociologie,P.U.F.,1984.
CRAUSER J.P. HARVATOPOULOS Y. SARNIN P., Guide pratique
d'analysedesdonnes,Editionsd'Organisation,1989.
DAGNELIE P., Analyse statistique plusieurs variables,
PressesagronomiquesdeGrembloux,1975.
DAGNELIE P., Statistique descriptive et base de linfrence
statistique,DeBoeckUniversit,1998.
DAVIDSONM.L.,Multivariatescaling,WileyandSons,1983.

M.MENOU/ANALYSEDEDONNEES

63
DIDAY E., Optimisation en classification automatique, INRIA,
1979
DIDAYE.LEMAIREJ.POUGETJ.TESTUF., Elmentsd'analysede
donnes,Dunod,1985.
DOISE CLEMENCE, Reprsentation sociologique et analyse de
donnes,P.U.Grenoble.
ESCOFFIER B. PAGES J., Analyse conjointe de tableaux
quantitatifs,Masson,1988.
ESCOFFIER B. PAGES J., Analyse factorielles simples et
multiples. Objectifs, mthodes et interprtations, Dunod,
1998.
EVRARD Y. LEMAIRE P., Information et dcision en marketing,
Dalloz,1976.
EVRARD Y. PRAS RAUX, Etudes et recherches en marketing,
Nathan,19.
FALISSARDB.,Comprendreetutiliserlesstatistiquesdansles
sciencesdelavie,Masson,1996.
FENELON J.P., Qu'estce que l'analyse des donnes, Lefonen,
1981.
FOUCARTT.,Analysefactorielledetableauxmultiples,Masson,
1984.
FOUCART T., Analyse factorielle. Programmation sur micro
ordinateursavecnouveauxprogrammes,Masson,1985.
FOUCART T., Lanalyse des donnes. Mode demploi, Presses
UniversitairesdeRennes,1997.
GENINETB.,Mathmatiquesetstatistiquesgnralesappliques
aumarketing,Economica,1986.
GORDONA.D.,Classification,ChapmannandHall,1981.
GRANGE D. LEBART L., Traitements statistiques des enqutes,
Dunod,1994.
GUIGOUJ.L.,Mthodologiesmultidimensionnelles:Analysedes
donnesetchoixcritresmultiples,Dunod,1977.
HAIR J. F. ANDERSON R.E. TATHAM R.L., Multivariate data
analysis,Macmillan,1987.
HAVARTOPOULOS Y. LIVIAN Y.F. SARNIN P., Lart de lenqute,
EditionsEyrolles,1989.

64
HERMAN J., Analyse de donnes qualitatives. T1 Traitement
d'enqutes, chantillon, rpartitions, associations, Masson,
1986.
HERMAN J., Analyse de donnes qualitatives. T2 Traitement
d'enqutes.Modlesmultivaris,Masson,1990.
IDRISS,Algbrelinaire.Probabilitmathmatique.Initiation
l'analysedesdonnes,Ellipses.
JAMBUM.,Explorationinformatiqueetstatistiquedesdonnes,
Dunod,1989.
JAMBU M. LEBEAUX M.O., Classification automatique pour
l'analyse des donnes. T1 Mthodes et algorithmes, Dunod,
1979.
JAMBU M. LEBEAUX M.O., Classification automatique pour
l'analysedesdonnes.T2Logiciels,Dunod,1979.
JAMBUM., Mthodesdebasedelanalysedesdonnes,Eyrolles
etFranceTlcomCnet,1999.
JARDINEN.SIBSONR.,MathematicalTaxonomy,Wiley,1971.
JULIEN A., Analyse de donnes multidimensionnelles, Thse,
30/06/72.
KENDALLM.G.STUARTA.,TheadvanceTheoryofStatistics,T1,
Griffin1977.
KENDALLM.G.STUARTA.,TheadvanceTheoryofStatistics,T2,
Griffin1973.
KENDALLM.G.STUARTA.,TheadvanceTheoryofStatistics,T3,
Griffin1976.
LAGARDE J. (de), Initiation l'analyse de donnes, Dunod,
1983.
LAMBERTD.C.,19Amriqueslatines,Economica,1984.
LAMBIN J.J., La recherche marketing. Analyser, mesurer,
Prvoir,McGrawHill,1990.
LAPIN L.L., Statistique de gestion, Les Editions
dOrganisation,1987.
LAVITCh., Analyseconjointedetableauxquantitatifs,Dunod,
1988.
LEBART L. FENELON J.P., Statistiques et informatique
appliques,Dunod,1971.

M.MENOU/ANALYSEDEDONNEES

65
LEBART L. MORINEAU A. FENELON J.P., Traitement des donnes
statistiques.Mthodesetprogrammes,Dunod,1979.
LEBART L. MORINEAU A. PIRON M., Statistique exploratoire
multidimensionnelle,Dunod,1997.
LEBART L. MORINEAU A., SPAD, Systme portable pour l'analyse
desdonnes,CESIA,1985.
LEBARTL.MORINEAUA.TABARDN., Techniquesdeladescription
statistique. Mthodes et logiciels pour l'analyse des grands
tableaux,Dunod,1986.
LEBART L. SALEM A.,
textuelles,Dunod,1994.

Analyse statistique des donnes

LEFEBVRE J., Introduction aux analyses statistiques


multidimensionnelles,Masson,1976.
LERMANI.C., Classificationetanalyseordinaledesdonnes,
Dunod,1981.
Lescahiersdel'analysedesdonnes,DUNOD,Depuis1976.
MAKRIDAKIS S. WINKLER R.L. DESPLAS M., Programmes de
statistiqueinteractifs,LesEditionsdorganisation,1988.
MARCOTORCHINO J.F. MICHAUD P., Optimisation en analyse
ordinaledesdonnes,Masson,1979.
MASSON M., Mthodologies gnrales du traitement statistique
del'informationdemasse,CdicNathan,1980.
Mathmatiquesenscienceshumaines11meanne,n44,1973,p.
5.34.
Mathmatiquesenscienceshumaines12meanne,n45,1974,p.
5.28.
MOORE D. McCABE G.P., Introduction to the Practice of
Statistics,Freeemann,1993.
MORICEE.CHARTIERF.,Mthodestatistique,INSEE,1954.
MORRISOND.F., Multivariatestatisticalmethods,MacGrawHill,
1990.
MOSCAROLAJ.,Enqutesetanalysesdesdonnesaveclesphinx,
Vuibert,1995.
NAKACHE J.P. CHEVALIER A. MORICE V., Exercices comments de
mathmatiquespourl'analysedesdonnes,Dunod,1981.
PONTIER,Lemodleeuclidienenanalysededonnes,Ellipses.

66

PUPIONP.C., Statistiquespourlagestion.Applicationsavec
ExceletSPSS,Dunod,2004.
ROMEDERJ.M.,Mthodesetprogrammesd'analysediscriminante,
Dunod,1973.
ROUANET H. LE ROUX B.,
multidimensionnelles,Dunod,1992.

Ananlyse des donnes

SAPORTAB.,Marketingindustriel,Eyrolles,1992.
SAPORTA G., Thorie et mthode de la statistique, Technip,
1978.
SAPORTAG., Probabilits,analysedesdonnesetstatistique,
Technip,1990.
SIMON C. BLUME L., Mathmatiques pour conomistes, De Boeck
Universit,1998.
TENENHAUSM.,Statistique.Mthodespourdcrire,expliqueret
prvoir,Dunod,2007.
TENENHAUSM.,Mthodesstatistiquesengestion,Dunod,1994.
(HD30.251025)
VEDRINE J.P., Le traitement des donnes en marketing, Les
ditionsd'organisation,1991.
VOLLEM.,Analysedesdonnes,Economica,1997.

M.MENOU/ANALYSEDEDONNEES

Vous aimerez peut-être aussi