Académique Documents
Professionnel Documents
Culture Documents
V4.9
MarcMENOU
Mars2008
TABLEDESMATIERES
1INTRODUCTION
2ELMENTSFONDAMENTAUX
8
21RAPPELSSURLATHORIEDESENSEMBLES
22RAPPELSDEGOMTRIE
23RAPPELSSURLESMATRICES
24RAPPELSDESTATISTIQUEDESCRIPTIVE
26RAPPELSSURLATHORIEDEL'INFORMATION
27LESTABLEAUX
TABLEAUXINDIVIDUSXVARIABLESQUANTITATIVES
TABLEAUXLOGIQUESOUBOOLENSOUBINAIRES
TABLEAUXPRSENCEABSENCE
TABLEAUXDEDONNESORDINALESOUDEPRFRENCES
TABLEAUXDESRANGS
TABLEAUXHTROGNESOUMIXTES
28LESRELATIONSENTREVARIABLES
8
8
9
10
11
12
12
12
12
12
13
13
13
3MTHODES
13
4LESANALYSESFACTORIELLES
41L'ANALYSEENCOMPOSANTESPRINCIPALES(ACP)
42L'ANALYSEFACTORIELLEDESCORRESPONDANCES (AFC)
43L'ANALYSEDESCORRESPONDANCES MULTIPLESACM
44LANALYSEFACTORIELLEDESSIMILARITS(OUDEDISSIMILARITS)ETDESPRFRENCES
45L'ANALYSEDISCRIMINANTE(AFD)
46LANALYSEDESMESURESCONJOINTES
47L'ANALYSECANONIQUE
5LESMTHODESDECLASSIFICATION ,DETYPOLOGIE OUDETAXINOMIE
51L'ANALYSENONHIRARCHIQUE
52L'ANALYSEHIRARCHIQUE
15
15
26
30
32
36
42
43
46
47
54
LOGICIELS
59
BIBLIOGRAPHIE
60
M.MENOU/ANALYSEDEDONNEES
1Introduction
L'analysedesdonnesestunetechniquerelativementancienne
1930 (PEARSON, SPEARMAN, HOTELLING). Elle a connu cependant
desdveloppementsrcents19601970dufaitdel'expansionde
l'informatique.
L'informatiqueestimportantecarcettetechniquencessitele
brassagedebeaucoupdedonnesparbeaucoupdecalculspour
entirerdesreprsentationsgraphiques.Elleapporterapidit
etfiabilit.
L'analysedesdonnesestunetechniqued'analysestatistique
d'ensemblededonnes.Ellecherchedcriredestableauxet
enexhiberdesrelationspertinentes.Ellesedistinguede
lanalyseexploratoiredesdonnes.
La statistique est une technique qui permet la comprhension
de la ralit. Cest un moyen dinvestigation de la
complexit.
STATISTIQUE
REELCOMPLEXE
M.MENOU/ANALYSEDEDONNEES
REPRESENTATION
SIMPLIFIEE
Eneffet,commeleditP.VALERY"toutcequiestsimpleest
faux,toutcequinel'estpasestinutilisable".Ils'agiten
quelquesorted'"laguer"laralitenneretenantquecequi
estprimordial.Ilfautenparticulierrduirelesdimensions
de la ralit, cestdire ne pas considrer certaines
variables tout en cherchant conserver le maximum de sens.
Celarevienteffectueruneprojection.
enrapportaveclesensemblesrels,serapportecequipour
unepopulationdonne,distinguesesindividus.Tell'Horace,
qui a cherch distancer les Curiaces, le pouvoir ne peut
s'exercer efficacement qu' l'encontre des individus isols.
Diviserpourmieuxrgnerestaussiunedevisebienconnue.Il
fautdoncchercherlaoulesvariablesquiopposentleplus,
qui sparent le plus, les individus. La variance est donc,
comme caractristique de dispersion, le critre de choix le
plus dsign des critres de connaissance. L'analyse des
donnes repose donc essentiellement sur les notions de
variances,decovariance,dedistances,degroupe,delienet
dehirarchie.
Lathoriedesensemblesfournitlecadreconceptueldebase
danslequelilconvientdeposerlaproblmatique.
L'analyse des donnes souhaite cependant se dmarquer des
techniquesstatistiquesetconomtriquesclassiques.
Elle cherche regarder les donnes pour ellesmmes en
oubliant les thories qui ont permis de les rassembler. Car
l'laboration d'un modle et l'observation projettent les
ides dj contenues dans le cerveau. Il n'est peru que ce
que l'on dsire essentiellement percevoir. Il faut comme la
crit KRISHNAMURTI: se librer du connu. Pour ce faire,
il faut considrer beaucoup de donnes afin dviter
larbitrairedeleurchoix.
Bienentendu,ilexisteunediffrenceentrelesobjectifset
lesralisationscarlesmoyenssontlimits.
M.MENOU/ANALYSEDEDONNEES
R.THOMrelvequeprdirenestpasexpliquer.Silesmodles
statistiques permettent la prvision, il sagit souvent de
mettre en vidence des liaisons quantitatives observables.
Celaconstatesimplement,celanexpliquerien.
L'analyse de donnes entend se dmarquer des statistiques
paramtriques. La statistique paramtrique effectue des
mesures quantitatives et utilise le thorme central limite
qui ramne la loi de LAPLACEGAUSS. La contestation par
l'approche non paramtrique cherche d'une part, se
dbarrasser de l'obligation de passer par la loi normale et
donc des contraintes sur la taille des chantillons, et
d'autre part, s'intresser aux donnes qualitatives.
L'analyse des donnes se distingue en rejetant l'aspect
infrentiel et insiste sur l'aspect descriptif d'un ensemble
considrcommecomplet.
L'analyse des donnes est un moyen de lutte contre
l'idologie.Iln'yadevritquestatistique,toutlereste
n'estquelittrature.Laforcedetouteidologieestqu'elle
reprsente la ralit, ce qui la rend crdible. Toute
idologie vhicule une part de ralit mais, simplifie par
les priori dj accepts. La ralit complexe est
difficilement intelligible pour l'homme. Elle est de plus
souvent inacceptable comme l'indique l'pisode de la caverne
de PLATON. Elle peut tre considre comme le font les
scientifiques par un nuage de points dans un ensemble de
dimensionimportante.Lesstatisticiensparcequiestappele
M.MENOU/ANALYSEDEDONNEES
2Elmentsfondamentaux
21 rappels sur la thorie des ensembles
ensemble
appartenance
sousensemble
inclusion
runion
intersection
relationd'quivalence
relationd'ordre
partition
10
22 rappels de gomtrie
produitscalaire
Le produit scalaire de deux vecteurs est le produit de la
longueur de l'un par la projection de l'autre sur lui.
(u.v.Cos(u,v))
Leproduitscalaireestcommutatifetdistributif.
Silesvecteurssontorthogonauxleproduitscalaireestnul.
Silesvecteurssontcolinairesleproduitscalaireest(u.v)
Silesvecteursunitairessontorthogonauxleproduitscalaire
est gal la somme des produits des composantes
correspondantes.
projection
La projection d'un vecteur sur un axe est obtenue par le
produitscalaireduvecteurparlevecteurunitairedel'axe.
Celapermetlechangementdaxedecoordonnes.
distance
Danslespacedesvariables,unproduitscalaireparticulier,
etdoncunedistance,simpose.
1 n
x, y >= x i yi
n i =1
Ainsi,lecoefficientdecorrlationcorrespondaucosinusde
langleformparlesdeuxvariablescentres.
Lechoixdunedistanceesttoujoursarbitrairedanslespace
des individus, car il est possible dassocier chaque
variableuncoefficientdepondration.
mtrique
M.MENOU/ANALYSEDEDONNEES
11
23 rappels sur les matrices
trace
Latraced'unematriceestlasommedestermesdeladiagonale
principale.
valeurpropre
estvaleurpropredeA<=>Det(AI)=0
vecteurpropre
Vestvecteurpropredefsif(V)=V
matricediagonale
Une matrice diagonale est une matrice dont tous les termes
appartiennentladiagonaleprincipale.
diagonalisationdematrice
12
25rappelsdemcanique
centredegravit
Lecentredegravitd'unsolide,oubarycentre,correspond
lanotionstatistiquedemoyenne.
inertie
L'inertied'unsolidecorrespondlanotiondevariance.
Uncorpsad'autantplusd'inertiequ'ilfautd'nergiepour
lemettreenrotationautourd'unaxe.
(distance/axe)2xmasse=:(cart/moyenne)2xfrquence
Ainsi,l'inertieestminimumparrapportaucentredegravit,
commelavarianceestminimaleparrapportlamoyenne.
thormedeHUYGENS
Inertied'uncorps/O=inertie/G+mxOG2
Variance/x=variance/M+x(xM)2
Toutcorpsbiscornusecomportecommeunellipsode3axes
de symtrie. Autour du grand axe, l'inertie est minimale,
autourdupetit,l'inertieestmaximale.
Soitunnuagedenpointspesantsdansunespacededimension
3, il correspond un ellipsode d'inertie. Le centre de
gravit sert d'origine des coordonnes x,y,z. Soit X (n,3) la
matricedescoordonnes.V(3,3) =X'Xlamatriced'inertiedu
nuage. L'inertie totale est gale l'inertie explique par
l'axeetl'inertieautourdel'axe.Les3valeurspropresdeV
sont les inerties expliques par les 3 axes du nuage. Leur
sommeestgalelatracedeV,soitl'inertiedunuage.
M.MENOU/ANALYSEDEDONNEES
13
26 rappels sur la thorie de l'information
27 les tableaux
Lespopulationscomprennentdesindividusdistingusselonun
certainnombredevariables.Cesinformationssontrassembles
dansdestableauxdebasecroisantindividusetvariables.Ces
tableaux peuvent s'interprter de deux faons, un nuage
d'individus dans un ensemble de variables ou un nuage de
variablesdansunensembled'individus.
Tableauxindividusxvariablesquantitatives
Tableauxlogiquesouboolensoubinaires
Tableauxdisjonctifscomplet:individuxvariable
chaquemodalit,placeencolonne,correspondunevariable
indicatrice. Cest la juxtaposition de plusieurs tableaux
logiques.
XX est une matrice diagonale dont les lments sont les
effectifsdechaquemodalit.
Tableauxprsenceabsence
Tableauxdedonnesordinalesoudeprfrences
Individusxobjetsclasser.Unecasecorrespondunenote
variantde1aunombredobjetsclasser
Tableaudedistancesoudeproximits:individusxindividus
Il prsente les distances entre les individus. Ces tableaux
sontsymtriqueautourdeladiagonaleprincipale.
Tableauxdecontingence:variablexvariable
Ilcroiselesmodalitsdedeuxvariablesqualitatives
14
3mthodes
Lesmthodesd'analysedesdonnespeuventseclasserendeux
grandescatgories:lesmthodesfactoriellesetlesmthodes
declassifications.
Ces deux catgories sont plus complmentaires que
concurrentes.
M.MENOU/ANALYSEDEDONNEES
15
Lesmthodesfactoriellespeuventavoirdeuxobjectifs:
Rduire,simplifier,synthtiser,onparlealorsdemthodes
descriptives. Toutes les variables sont considres
ensemble.
16
411Caractristique
L'analyse concerne un tableau individus x variables x ij (n
lignes,pcolonnes).
Les variables sont quantitatives, continues, corrles entre
ellesdeuxdeux.
412Objectif
Rduirelesdimensionsdutableauendterminantdenouvelles
variables(lescomposantesprincipales),moinsnombreuses(en
gnral deux ou trois), non corrles, mais comprenant plus
d'informations (variance maximale) chacune que les variables
initiales.
Ilsagitdexhiberlesrelationsentreindividusdufaitde
leurproximit,entrevariablesdufaitdeleurscorrlations
etentreindividusetvariables.Celapermetdidentifierdes
sousensembles d'individus afin de constituer une
classification.
M.MENOU/ANALYSEDEDONNEES
17
413Diffrentstypes
l'analyse en composantes principales centres, fonde sur la
matricedesvariancescovariancesempiriques
l'analyse en composantes principales normes. Cela revient
centrer et rduire les variables initiales. En dautres
termes, on utilise une mtrique diagonale des inverses des
variances. Lanalyse est fonde sur la matrice des
coefficientsdecorrlationlinaire.
l'analyse factorielle des rangs fonde sur la matrice des
coefficients de corrlation des rangs lorsque lon fait plus
confianceauxrangsquauxvaleurs
lanalyse factorielle sur tableau de distance ou de
dissimilarits
414Principe
Ondisposed'untableauquireprsenteunnuagedepointsden
individusdansunespace(devariables)dedimensionp.
On souhaite rduire l'espace des variables un plan
(dimension2).Celaconsisteprojeterlesnindividussurun
plan.
Or,laprojectionrduitlesdistances.Ceplandoitdonctre
dfinidefaontelle,quelesdistancesentrepointssoient
le mieux conserves. On cherche donc rendre maximum la
moyennedescarrsdesdistancesentrelesprojections.
18
415Mthode
Lamatricedesdonnes[X](n,p)est,selonlechoixdutype
d'analyse, le plus souvent, centre rduite. En effet, le
centrage et la rduction permettent de gommer les effets
taille et unit des expressions de variables. Les distances
entre des individus caractriss par des variables dunits
diffrentes nauraient pas de sens. Les longueurs des
variables (leurs normes) alors sont toutes gales 1.
Lextrmitdesvecteurssetrouvesurunesphre.Lecosinus
de langle form par 2 variables est gal au coefficient de
corrlationlinaireentrecesvariables.
Cettematriceestensuiteprmultiplieparsatransposede
faonobtenirunematrice[XX](p,p)devariancecovariance
(galement matrice des corrlations si les variables sont
M.MENOU/ANALYSEDEDONNEES
19
oviestlevecteurpropreassocii
20
principales1et2(voire1et3et/ou2et3etc.),tantpour
les variables que pour les individus, sparment car
linterprtationnesuitpaslesmmesprincipes.Lesgraphes
desvariablescomprendlecercledescorrlations.
416Interprtation
Lescomposantesprincipalesconstituentdenouvellesvariables
(correspondant de nouveaux concepts), qu'il s'agit
d'identifier. Ces variables sont non corrles entre elles.
Elles s'expriment comme des combinaisons linaires des
anciennes.
L'interprtationpasseparplusieurstapes:
M.MENOU/ANALYSEDEDONNEES
21
partiellementredondantetli.Ilfautdoncquunmaximumde
valeursdelamatricedescorrlationssoientprochesde1en
valeur absolue. Si toutes les corrlations sont positives
cest quil existe un facteur taille, les individus peuvent
treordonns.
.Laqualitglobaled'explication
Le pourcentage de variance explique par les axes factoriels
retenus est obtenu par la somme de leurs valeurs propres
diviseparlatrace.Cettevaleurmesurelaqualitglobale
delareprsentation.
i
x100
i
Lenombred'axesretenirdoittretel,quecepourcentage
cumul soit suprieur ou gal 75 %. Cette condition trs
arbitrairenapourobjectifquedattirerlattentionsurla
significativitdelanalyse.Engnral,3axesmaximumsont
retenus, car audel leur interprtation s'avre dlicate.
Pour une ACP centre rduite, il ne faut retenir que les
valeurs propres suprieures 1 (critre de KAISER). Ce
critre signifie que comme chaque variable initiale apporte
une information gale 1 (variance), on ne retient que les
composantes qui apportent au moins autant dinformation que
lesvariablesinitiales.
LecritreducoudedeCATTELLdtecteleralentissementdans
ladcroissancedesvaleurspropres.Enabscisse,onplaceles
22
.Lescorrlationsentrelesaxesfactorielsetlesvariables
initiales indiquent la qualit de reprsentation de la
variablesurl'axe.Lescoordonnesdesvariablessontgales
auxcorrlationsaveclesaxes.Plusunecorrlationentreune
variableetunaxeestforte,pluslavariableestprochede
laxe.
Ilnefautinterprterlesaxesqu'partirdesvariablesles
mieux reprsentes, cestdire celles dont la corrlation
est proche de 1 en valeur absolue. Autrement dit, les
variablesbienreprsentesdansleplansontprocheducercle
des corrlations. La proximit entre points variables n'est
exploitablequesicespointssontprochesdelacirconfrence
appelecercledescorrlations(centreOetrayon1).
La corrlation entre les variables de dpart et la r ime
composanteest:
1
r
C i
M.MENOU/ANALYSEDEDONNEES
23
ovrestlevecteurpropreassocilarimecomposante
Interprtationdesaxesfactorielsparlespointsvariables.
.Lescorrlationsentrelesaxesfactorielsetlesindividus
suiventlesmmesprincipes.Uneslection,desindividusles
mieux reprsents, doit tre effectue, pour contribuer
l'interprtation des axes. Les individus qui taient
24
M.MENOU/ANALYSEDEDONNEES
25
Ci
1 r
C
n i
olednominateurreprsentelavarianceexpliqueparlaxe
r,etlenumrateurlapartdecettevarianceduelindividu
i.
Si ce rapport est important, cela signifie que lindividu i
joueunrleimportantdansladfinitiondelaxe.
.Interprtationdesaxesfactorielsparlespointsindividus.
26
417Limites
Lanalyseestsensibleauxindividustrsdiffrents.Pourne
pas trop falsifier lanalyse, il est possible de les
considrercommedesindividussupplmentaires.
M.MENOU/ANALYSEDEDONNEES
27
42L'analysefactorielledescorrespondances(AFC)
TravauxdeJ.P.BENZECRI(1960).
421Caractristique
Cettemthodepermetd'tudierlaliaisonentrelesmodalits
dedeuxvariablesqualitatives(correspondances).Commetoute
variable quantitative peut, par un codage, se ramener une
variable qualitative, l'AFC permet de mettre en vidence des
liaisons non linaires entre variables quantitatives non
dtectes par le coefficient de corrlation linaire.
Lobjectif poursuivi est le mme que pour lACP, savoir,
rduire le nombre de dimensions pour permettre une meilleure
comprhension de phnomnes noys dans la masse des
informations.
ElleseramneuneACPeffectueavecunemtriquespciale,
celle du khideux, sur un tableau de contingence (Tableau
variable x variable). C'est une technique d'exploration des
tableaux(ouprofils)croiss.
Les reprsentations graphiques sont relativement faciles
interprter.
422Mthode
Cettemthodegnraliseletestdindpendancedukhideux.
LapopulationestdfiniepardeuxvariablesqualitativesX(l
28
M.MENOU/ANALYSEDEDONNEES
29
423Interprtation
Ilsagitdanalysercaseparcaselescontributionsaukhi
deuxlesplusleves,puisquecesontellesquiontentran
lerejetdelhypothsedindpendance.
L'interprtationpasseparplusieurstapes:
.Laqualitglobaled'explication
Le pourcentage de variance explique par les axes factoriels
retenus est obtenu par la somme de leurs valeurs propres
divise par la trace. Le nombre d'axes retenir doit tre
tel,quecepourcentagesoitsuprieurougal75%(nombre
arbitraire).
En gnral, 3 axes maximum sont retenus, car audel
l'interprtations'avredlicate.
Les valeurs propres sont toutes infrieures ou gales 1,
donc le critre de KAISER utilis pour lACP ne peut tre
retenu. Seule la mthode du coude de CATTELL peut tre
utilise.
.Lescontributionsdespointsl'inertiedesaxes(CTA)et
la contribution des axes l'inertie d'un point (CTR)
permettentlaslectiondeslmentsexplicatifs.Lescosinus
carrs des projections indiquent ensuite la qualit de la
reprsentation (QLT). Il ne faut interprter les axes qu'
partir des modalits les mieux reprsentes. Les proximits
30
entrepointsmodalitsnesontexploitablesquesicespoints
sontprochesdelapriphrie.
424Remarque
M.MENOU/ANALYSEDEDONNEES
31
43L'analysedescorrespondancesmultiplesACM
431Caractristique
432Mthode
32
Lesprofilslignessontobtenusendivisantchaquetermedune
ligneparlenombredecolonnes.
Lecarrdeladistanceentre2individusietjest:
d 2 (i, j)
d (i, j)
433Interprtation
L'interprtationnediffrepasdecelled'uneA.F.C..
M.MENOU/ANALYSEDEDONNEES
33
44Lanalysefactorielledessimilarits(oudedissimilarits)etdesprfrences
Analyse dun tableau des dissimilarits (ATD) ou Multi
DimensionalScalingofsimilaritiesandpreferences(MDS)
441Caractristiques
:
Onconsidrenobjetsreprslesunsparrapportauxautres
par un indice (dissimilarits ou distance). On dispose ainsi
duntableaucarrsymtriquededimensionnreprsentantles
distances entre ces objets. La diagonale principale est donc
occupepardes0.
Ex:distancesentrevilles
34
Un indice de dissimilarit est une fonction mesurant des
diffrencesetvrifiantdesproprits:
Ladissimilaritentre2objetsietjestpositiveounulle
Ladissimilaritentreunobjetetluimmeestnulle
442Objectif
Reprsentation, sous forme graphique, dun ensemble dobjets
en fonction de leurs distances (dimensions caches). On
chercheunereprsentationdecesnobjetsdansunespacede
nombrededimensionsleplusfaiblepossible.
Mais,sipourdesvilleslacarteexiste,ilnestpascertain
quepourdesobjetscesoitlecas.Parailleurs,ilyades
risques que pour placer tous les objets on soit oblig de
multiplierlesdimensions.
En marketing, on se sert de cette mthode pour le
positionnement des produits et la conception de nouveaux
produits.
443Mthode
Apartirdutableaudedistances,ondresseunsecondtableau,
M.MENOU/ANALYSEDEDONNEES
35
carr symtrique des produits scalaires de chaque couple de
vecteurs.Cestlamatricedevariances/covariancesdunuage.
Lamthodeconsiste,alors,diagonalisercettematricedite
de TORGERSON. Les valeurs propres sont ordonnes en ordre
dcroissant.
Si tous les points sont dans le plan, toutes les valeurs
propressontnullessaufles2premires.Ilarrivecependant
que certaines valeurs propres soient ngatives, dans ce cas,
lareprsentationestimpossible.
Lamthodedterminedesaxes,lacarteperceptuelle,situant
les objets les uns par rapport aux autres. Ces axes
correspondentladispersionmaximaledesobjets.
444Interprtation
Lvaluationdelaqualitdereprsentationsefaitlaide
dedeuxindices:lestressetleR2.
Silordreestrespectlestressestnul.
36
lesdistances(ousimilaritssousformederangs)dedpart
etlesdistancesrecalcules.
UnR2prochede1indiqueunbonajustement.
M.MENOU/ANALYSEDEDONNEES
37
45L'analysediscriminante(AFD)
TravauxdeFISHER(1936)etMAHALANOBIS(1936).
451Objectifs
Oncherche dcrireet classerdesindividuscaractriss
parungrandnombredevariables.Ilsagitdedterminerles
variablesquidistinguentlemieuxlesgroupesdindividus.
452Caractristique
Il sagit de mettre en vidence les relations entre une
variablequalitativeYexpliqueretunensembleimportantde
variablesquantitativesexplicatives.Ondisposed'untableau
individusxvariables.(nindividus,pvariablesXi)
Le nombre de variables explicatives doit tre trs infrieur
aunombredindividus.
La variable qualitative Y prenant q modalits, elle ralise
une partition de l'ensemble des individus. Lobjectif est
d'trecapabledaffecter,dansundeuximetemps,danschaque
classe, de nouveaux individus, grce la fonction
discriminantepralablementconstitue.
La premire tape consiste donc prciser la fonction
discriminante partir des observations des variables
quantitatives. De nouvelles variables doivent tre
dtermines, de sorte que les q groupes soient spars le
mieuxpossible,cestdiredistinguablessansambigut.
38
Lescoefficientsdelafonctionestime(ditediscriminante),
sur l'ensemble partitionn d'individus, permettent par la
suitedefairedesprvisionspourcaractriserlamodalitde
la variable expliquer. Le challenge consiste rduire le
nombredevariablesquantitativesconsidrer.
Cette mthode est utilise pour la reconnaissance de formes,
lappartenancepolitique,lediagnosticenmdecine,etc.
453Mthode
Ils'agitdedterminerlesqcombinaisonslinaires,appeles
variables discriminantes, non corrles entre elles, des
variablesquantitativesexplicativesquisparentaumieuxles
classes dj dfinies. Les valeurs prises par ces nouvelles
variables,pourlesindividusdunemmeclasse,doiventtre
lesplusconcentrespossiblesetlesvaleursprisesparces
mmes variables, pour des individus de classes diffrentes,
lesplusdispersespossibles.
A
A
B
A
B
B
B
B
M.MENOU/ANALYSEDEDONNEES
39
Lesprojectionsdespointssurlaxeontuneabscissepositive
pourlegroupedesBetuneabscissengativepourlegroupe
desA.
Pourchaqueindividui,oncalculeunefonctionu(i)(nouvelle
variable)combinaisondespvariablesquantitativescentres.
La variance de cette variable u (u'Tu) se dcompose en
varianceintraclassesetvarianceinterclasses(thormede
HUYGENS). Il faut chercher u tel, que la variance interne
(u'Du)soitminimaleetlavarianceexterne(u'Eu)maximale.
Cela se traduit par rendre maximal le rapport Vext/Vint ou
(Vext/Vtot)ouminimalVint/Vextou(Vtot/Vext).Enpratique,
onchercherendremaximumu'Eusouslacontrainteu'Du=1.
Les multiplicateurs de LAGRANGE permettent la rsolution de
cettemthoded'optimisation.L=u'Eu(u'Du1)
L'annulationdeladriveparrapportu:
2(EuDu)=0
Larsolutiondel'quationdonneD1Eu=u
u est donc vecteur propre de D1E, le vecteur choisi sera
celuicorrespondantlaplusgrandevaleurpropre.
CelarevientdonceffectueruneACPsurlenuagedescentres
degravitdesclassesaveclamtriquedeMAHALANOBIS.
La distance de MAHALANOBIS entre deux vecteurs est dfinie
par:
40
d2(u,v)=(uv)D1(uv)
oD1estlamatricedesvariancescovariancesintraclasses.
Pourrduirelecotdel'analyse,ilconvientdelimiterle
nombre de variables explicatives soit par une analyse en
composantesprincipalespralable,soitparladmarchedupas
pas.
Le passage par l'analyse en composantes principales consiste
danslapratiquedel'ACPdescentresdegravitdesclasses.
La dmarche pas pas revient choisir successivement des
variablesenprenantcellesquimaximisentlatracedeD1 E
oucellesquimaximisentlepourcentagedebienclasss.
Ilestpossibledepratiqueruneanalysediscriminantesurdes
variables qualitatives en transformant les modalits des
variablesqualitativesenvariablesbinaires.
454Interprtation
Lavaleurdesvaleurspropresexprimelepouvoirdiscriminant
des facteurs. Si la valeur propre est gale 1, la
discriminationestparfaite
On retient un nombre de facteurs tels que la variance
explique(sommedesvaleurspropresretenuessursommetotale
desvaleurspropres)soitconvenable.
L'interprtation des facteurs peut s'effectuer par l'analyse
descorrlationsentrefacteursetvariablescommeenACP.
M.MENOU/ANALYSEDEDONNEES
41
Lesrglesdaffectationsontmultiples.
455Remarques:comparaisonsaveclesautrestechniques
L'analyse discriminante est une rgression sur une variable
qualitative.
L'analyse discriminante n'est pas une mthode de
42
classificationautomatique,puisquelapartitionexiste,mais,
demiseenvidencedecettepartition.
M.MENOU/ANALYSEDEDONNEES
43
46Lanalysedesmesuresconjointes
461Objectif
Mesurerleffetconjointdeplusieursvariables(explicatives)
indpendantes qualitatives xi sur lordre des valeurs prises
par une variable ( expliquer) dpendante qualitative y. On
cherchequellesvariablesconduisentunclassementdonn.
462Caractristiques
463Mthode
44
47L'analysecanonique
471Caractristique
On dispose d'un tableau individus x variables (quantitatives
rpartiesendeuxgroupesdedimensionpetq).Cettemthode
permet de dterminer si les deux ensembles de variables
mesurentlesmmesproprits.Endautrestermes,lamthode
mesurelaliaisonglobaleentredeuxensemblesdevariables.
472Mthode
M.MENOU/ANALYSEDEDONNEES
45
W2
v
u
W1
473Interprtation
Siles2ensemblesdevariablesquelonpeutconstruirepar
combinaison linaire de chaque groupe sont confondus (angle
nul),onpeutsecontenterdunseulensembledevariables.Si
les 2 ensembles sont orthogonaux (angle droit) cela signifie
quelesdeuxensemblesdcriventdesphnomnesdiffrents.
Ilfautanalyserlescorrlationsentrevariablesinitialeset
variablescanoniques.
46
474Extension
Ilestpossibledappliquerlamthodeplusdedeux
ensembles.
Il est galement possible de travailler avec des variables
qualitatives. Il suffit de considrer chaque modalit comme
unevariablebinaire.
M.MENOU/ANALYSEDEDONNEES
47
48
51L'analysenonhirarchique
511Objectifs
Ilestdoncdifficiledeprouverlexistencedeclassesoude
montrer lefficacit dune mthode de classification en se
basantsurdesclassesconnues.
M.MENOU/ANALYSEDEDONNEES
49
512Mthode
Ilexisteplusieursmthodesdepartitionnement:lesmthodes
bases sur linertie, et celles bases sur les relations
dquivalence.
5121Lesmthodesbasessurlinertie
50
Mthodedescentresmobiles(FORGY)
M.MENOU/ANALYSEDEDONNEES
51
Celarevienteffectuerunepartitionendomainespolydraux
convexesdterminsparleshyperplansmdiateursdescentres.
Le centre de gravit de chaque groupe est alors calcul. On
regroupe les individus autour de ces nouveaux centres selon
leurmoindredistancerelative.Onrecommencel'algorithme,en
recalculant de nouveaux centres de gravit et, en reclassant
lesindividusjusqu'cequelaqualitdupartitionnementne
s'amliore plus. Cette qualit tant mesure par l'inertie
intraclasse. Lalgorithme converge, selon le thorme de
HUYGENS, aprs un petit nombre ditrations, vers linertie
intra minimale. Le critre darrt peut tre fix par un
nombremaximalditrationsouparunseuildevariations.
Lamthodepeuttreutilisepourdesdonnesqualitatives
conditionsdeprendrelescoordonnesfactorielles.
52
Mthodedesnuesdynamiques
Commelapartitionfinalepeutdpendreduchoixdesnoyauxde
dpart,ilestncessairederecommencerloprationavecdes
conditionsinitialesdiffrentesplusieursfois.Les lments
regroups dans plusieurs partitions finales sont appels
formesfortes.
Lamthodedeskmeans(MacQUEEN)
M.MENOU/ANALYSEDEDONNEES
53
5122Lesmthodesbasessurlesrelationsdquivalence
F. MARCOTORCHINO et P. MICHAUD ont labor des mthodes
applicables aux variables qualitatives ne ncessitant pas la
dterminationdunombredeclassesapriori.
Le principe repose sur le fait quune partition est une
relationbinairedquivalence.Toutevariablequalitativem
modalitspermetunepartitiondesindividusenmclasses.Les
individus dune mme classe sont quivalents. Si la relation
dquivalenceestreprsenteparuntableautelque:
cij=1silarelationestvrifieetcij=0sinonalorsCii=
1(rflexivit)Cij=Cji(symtrie)Cij+CjkCik1.
LamthodeconsistealorstrouverunematriceCquirespecte
lesconditionsprcdentes.
Si on dispose de p variables qui ont respectivement m 1,
m2,...,mpmodalits,ondisposedeppartitions.
Le problme est donc de trouver un compromis entre ces p
partitions.
513Interprtation
54
On peut identifier plus facilement les groupes les plus
homognes.
Onutiliselesvariablesinitiales.Oncalculepourchacunele
rapportdelavarianceintersurlavariancetotaleetonne
retientquecellesquiontunevaleurprochede1.
Linterprtationpeuttredduitedelapositionrelativedes
classes. On compare pour cela les moyennes des variables de
chaque classe en tenant compte de leurs carts type. Plus
lcarttypeestfaiblepluslacomparaisonestvalable.
Onpeutreprsentergraphiquementlesindividus,diffrencis
selon la classe, pour les variables importantes de la
classificationprisedeuxpardeux.
514Limites
Les mthodes dcrites naboutissent qu des optimums locaux
dpendantdelapartitioninitiale.
515Comparaisonaveclesautresmthodes
52L'analysehirarchique
M.MENOU/ANALYSEDEDONNEES
55
Lesmthodesd'analysehirarchiquedescendantespartentdela
populationglobalepourallerverslesindividus.
P1
P2P3
P5P4
56
P5=a/b/c/d/e
P4=ab/c/d/e
P3=ab/c/de
P2=abc/de
P1=abcde
Lindicedepartitioncorrespondunindicedagrgation.
A partir de larbre, les classes sont dfinies, en coupant
larbreuncertainniveau,onexaminealorslesbranchesqui
tombent.
Lesnudssontunehauteurproportionnellelinertieinter
M.MENOU/ANALYSEDEDONNEES
57
perduedufaitdelafusion.
MthodedeWARD
Lecritrechoisiestceluidelinertie.
Cettemthodeestaussiappelemthodedumomentdordre
deux.
Caractristique
On considre n individus, caractriss par p variables
quantitatives, donton valuelaproximitparunedistance
euclidienne.
Mthode
58
faible.Onagrgedonclesindividusquifontlemoinsvarier
linertie intraclasses. A chaque tape, on calcule lindice
durapportdelinertieinterclasseslinertietotale.
Lorsque lon regroupe 2 classes, linertie interclasses
diminue.
Cette diminution est mesure par le critre dagrgation de
Ward.
Pourleregroupementdesclassesietj:
ni n j
n(ni
ncorrespondleffectif
gaucentredegravit
Le carr de la distance est obtenu en faisant la somme des
rapports, pour chaque variable, du carr de la diffrence
entrelesvaleursdes2individusetdelavariance.
Onregroupedonclesdeuxclassesquiminimisentlecritrede
Ward.
Interprtation
Le critre de Ward cumul partir de la dernire itration
permetdecalculerlesinertiesexpliquesparlesdiffrentes
partitions successives. En divisant ces totaux par le nombre
de variables, on obtient la part dinertie explique. On
retientunetypologieencclasseslorsquelapartdinertie
expliqueaugmentepeuenajoutantuneclassesupplmentaire.
La partition est dautant meilleure que les groupes sont
M.MENOU/ANALYSEDEDONNEES
59
AutresMthodes
Lesautresmthodessappliquentlorsquelesdistancesnesont
paseuclidiennes.
Plusieursdistancespeuventtreenvisages.Parmielles:
Distancedusautminimal(oudelinf)
AetBtantdeuxclasseslesei,ejdesindividus
d(A,B)=infd(ei,ej)poureiAejB
Distancedudiamtre(oudusup)
d(A,B)=supd(ei,ej)
Distancemoyenne
d(A, B) =
1
PAPBlepoidsdechaqueclasse
PA PB j
Cesmthodesdonnentdesrsultatsdiffrents
60
logiciels
ALCESTE
ADDAD
ANACONDA
BMDP
CHADOCVS
CSS
DBASESTATS
DESTIN
EOLE3
EXECUSTAT
EyeLID
FLASH
FUTURMASTER
GLADYS
ITEM
LADDAD
LEAS
LESPHINX
LIDE+
LTSM
MODALISA
MINITAB
NCSS
PCSM
PRECIS
QUADEOLE
QUEST
QUESTION
R
S+
SAS
SIMCAP
SOLO
SPAD
SPSSPC
STATBOX
STATGRAPHICS
STATISTICA
STATITCF
STATLAB
STATVIEW
SYNTHESE2
SYSTAT
UNISTAT
TRIDEUX
VESTAL
M.MENOU/ANALYSEDEDONNEES
61
Bibliographie
AAKER D. A., Multivariate analysis in marketing, Wadsworth,
1971.
ANTOINEJ.,Lesondageoutildumarketing,Dunod,1986.
AURAY DURU ZIGHED, Analyse des donnes multidimensionnelles,
tome 1 : les mthodes descriptives, Editions A. Lacassagne,
1991.
AURAYDURU,Analysedesdonnesmultidimensionnelles,tome3:
lesmthodesexplicatives,EditionsA.Lacassagne,1991.
AVENEL M. RIFFAULT J.F., Mathmatiques appliques la
gestion,Foucher,2005.
BAIR J., Algbre linaire pour lconomie et les sciences
sociales,DeBoeckUniversit,1984.
BASTINC.etAlii, Pratiquedelanalysedesdonnes,Dunod,
1980.
BAVAUD F. CAPEL R. CRETTAZ de ROTEN MULLER J.P., Guide de
lanalysestatistiquededonnesavecSPSS6,Slatkine,1996.
BENZECRIJ.P.,L'analysedesdonnes,T1Lataxinomie,Dunod,
1979.
BENZECRI J.P., L'analyse des donnes, T2 L'analyse des
correspondances,Dunod,1982.
BENZECRI J.P. BENZECRI F., La Pratique de l'analyse des
donnes, T1 Analyse des correspondances. Expos lmentaire,
Dunod,1984.
BENZECRI J.P. BENZECRI F., La Pratique de l'analyse des
donnes,T5Economie,Dunod,1980.
BENZECRIJ.P.BASTINC.BOURGARITC.CAZESC.,LaPratiquede
l'analysedesdonnes,T2Abrgthorique,tudesdecasde
modle,Dunod,1980.
BENZECRIJ.P.BASTINC.BOURGARITC.CAZESC.,LaPratiquede
l'analysedesdonnes,T3Linguistiqueetlexicologie,Dunod,
1981.
BENZECRI J.P., Correspondance Analysis Handbook, Marcel
DekkerInc.,1992.
62
BERTIER P. BOUROCHE J.M.,
multidimensionnelles,P.U.F.,1977.
M.MENOU/ANALYSEDEDONNEES
63
DIDAY E., Optimisation en classification automatique, INRIA,
1979
DIDAYE.LEMAIREJ.POUGETJ.TESTUF., Elmentsd'analysede
donnes,Dunod,1985.
DOISE CLEMENCE, Reprsentation sociologique et analyse de
donnes,P.U.Grenoble.
ESCOFFIER B. PAGES J., Analyse conjointe de tableaux
quantitatifs,Masson,1988.
ESCOFFIER B. PAGES J., Analyse factorielles simples et
multiples. Objectifs, mthodes et interprtations, Dunod,
1998.
EVRARD Y. LEMAIRE P., Information et dcision en marketing,
Dalloz,1976.
EVRARD Y. PRAS RAUX, Etudes et recherches en marketing,
Nathan,19.
FALISSARDB.,Comprendreetutiliserlesstatistiquesdansles
sciencesdelavie,Masson,1996.
FENELON J.P., Qu'estce que l'analyse des donnes, Lefonen,
1981.
FOUCARTT.,Analysefactorielledetableauxmultiples,Masson,
1984.
FOUCART T., Analyse factorielle. Programmation sur micro
ordinateursavecnouveauxprogrammes,Masson,1985.
FOUCART T., Lanalyse des donnes. Mode demploi, Presses
UniversitairesdeRennes,1997.
GENINETB.,Mathmatiquesetstatistiquesgnralesappliques
aumarketing,Economica,1986.
GORDONA.D.,Classification,ChapmannandHall,1981.
GRANGE D. LEBART L., Traitements statistiques des enqutes,
Dunod,1994.
GUIGOUJ.L.,Mthodologiesmultidimensionnelles:Analysedes
donnesetchoixcritresmultiples,Dunod,1977.
HAIR J. F. ANDERSON R.E. TATHAM R.L., Multivariate data
analysis,Macmillan,1987.
HAVARTOPOULOS Y. LIVIAN Y.F. SARNIN P., Lart de lenqute,
EditionsEyrolles,1989.
64
HERMAN J., Analyse de donnes qualitatives. T1 Traitement
d'enqutes, chantillon, rpartitions, associations, Masson,
1986.
HERMAN J., Analyse de donnes qualitatives. T2 Traitement
d'enqutes.Modlesmultivaris,Masson,1990.
IDRISS,Algbrelinaire.Probabilitmathmatique.Initiation
l'analysedesdonnes,Ellipses.
JAMBUM.,Explorationinformatiqueetstatistiquedesdonnes,
Dunod,1989.
JAMBU M. LEBEAUX M.O., Classification automatique pour
l'analyse des donnes. T1 Mthodes et algorithmes, Dunod,
1979.
JAMBU M. LEBEAUX M.O., Classification automatique pour
l'analysedesdonnes.T2Logiciels,Dunod,1979.
JAMBUM., Mthodesdebasedelanalysedesdonnes,Eyrolles
etFranceTlcomCnet,1999.
JARDINEN.SIBSONR.,MathematicalTaxonomy,Wiley,1971.
JULIEN A., Analyse de donnes multidimensionnelles, Thse,
30/06/72.
KENDALLM.G.STUARTA.,TheadvanceTheoryofStatistics,T1,
Griffin1977.
KENDALLM.G.STUARTA.,TheadvanceTheoryofStatistics,T2,
Griffin1973.
KENDALLM.G.STUARTA.,TheadvanceTheoryofStatistics,T3,
Griffin1976.
LAGARDE J. (de), Initiation l'analyse de donnes, Dunod,
1983.
LAMBERTD.C.,19Amriqueslatines,Economica,1984.
LAMBIN J.J., La recherche marketing. Analyser, mesurer,
Prvoir,McGrawHill,1990.
LAPIN L.L., Statistique de gestion, Les Editions
dOrganisation,1987.
LAVITCh., Analyseconjointedetableauxquantitatifs,Dunod,
1988.
LEBART L. FENELON J.P., Statistiques et informatique
appliques,Dunod,1971.
M.MENOU/ANALYSEDEDONNEES
65
LEBART L. MORINEAU A. FENELON J.P., Traitement des donnes
statistiques.Mthodesetprogrammes,Dunod,1979.
LEBART L. MORINEAU A. PIRON M., Statistique exploratoire
multidimensionnelle,Dunod,1997.
LEBART L. MORINEAU A., SPAD, Systme portable pour l'analyse
desdonnes,CESIA,1985.
LEBARTL.MORINEAUA.TABARDN., Techniquesdeladescription
statistique. Mthodes et logiciels pour l'analyse des grands
tableaux,Dunod,1986.
LEBART L. SALEM A.,
textuelles,Dunod,1994.
66
PUPIONP.C., Statistiquespourlagestion.Applicationsavec
ExceletSPSS,Dunod,2004.
ROMEDERJ.M.,Mthodesetprogrammesd'analysediscriminante,
Dunod,1973.
ROUANET H. LE ROUX B.,
multidimensionnelles,Dunod,1992.
SAPORTAB.,Marketingindustriel,Eyrolles,1992.
SAPORTA G., Thorie et mthode de la statistique, Technip,
1978.
SAPORTAG., Probabilits,analysedesdonnesetstatistique,
Technip,1990.
SIMON C. BLUME L., Mathmatiques pour conomistes, De Boeck
Universit,1998.
TENENHAUSM.,Statistique.Mthodespourdcrire,expliqueret
prvoir,Dunod,2007.
TENENHAUSM.,Mthodesstatistiquesengestion,Dunod,1994.
(HD30.251025)
VEDRINE J.P., Le traitement des donnes en marketing, Les
ditionsd'organisation,1991.
VOLLEM.,Analysedesdonnes,Economica,1997.
M.MENOU/ANALYSEDEDONNEES