Vous êtes sur la page 1sur 18

Analyse de donnes

Plan du cours
- Les mthodes de traitement des donnes
- Les traitements lmentaires
- Les analyses multi-varies
- Les mthodes avances d'analyse multi-varie
En colonne : les variables
En ligne : les rpondants
- Les critres fondamentaux de classement des mthodes d'analyse de donnes
- Critre 1 : la partition ou non de la matrice des donnes
- critre 2 : La nature des variables impliques (nominales, ordinales ou
mtriques)
- Critre 3 : Le nombre de variables traites simultanment (mthodes univaries, varies et multi-varies)
- Critre 1 : la partition ou non de la matrice des donnes
- Spare les mthodes "descriptives" des mthodes "explicatives"
- Traduit l'objectif de l'utilisateur :
- Logique de modlisation (tude de liaison entre deux phnomnes)
- Logique de description (rsumer les donnes d'un phnomne)
- Critre 2 : La nature des variables impliques (nominales, ordinales ou
mtriques)
- Les variables mtriques (quantitatives) => apparaissent chaque fois que la
personne interroge se voit demander la valeur qu'elle donne la variable
concerne
- Les variables nominales (qualitatives) : =>apparaissent chaque fois que la
personne interroge a le choix entre plusieurs modalits qui lui sont proposes
explicitement ou implicitement (cas d'une question ouverte avec postcodification)
- Les variables ordinales (qualitatives) => apparaissent chaque fois que la
personne interroge se voit demande de classer plusieurs items proposs

- Critre 3 : Le nombre de variables traites simultanment (mthodes


uni-varies, varies et multi-varies)
- L'analyse uni-varie :
=> Consiste examiner la distribution des modalits de rponse pour une
variable, cd une colonne de la matrice des donnes
=> permet de dcrire l'chantillon (comptage des effectifs de chaque
modalit de chaque variable)
- L'analyse bi-varie
=> Consiste tudier les relations entre deux variables (cd deux colonnes
dans la matrice des donnes)
=> permet d'explorer les relations entre variables prises deux deux
- L'analyse multi-varie : elle a t dveloppe pour permettre le traitement
simultan de de plusieurs variables.

Les traitements lmentaires

Les analyses univaries (ou tris plat)


- concernent le traitement
dune seule variable
- ont pour
objet de synthtiser et danalyser les
informations disponible sur cette variable.
Les analyses bivaries (ou tris croiss)
- ont pour objet de mettre en
vidence les relations ventuelles qui
existent entre deux variables analyses
simultanment.

Les analyses multivaries


Les mthodes explicatives

- cherchent tudier les relations entre


deux groupes de variables.
- lune dentre elles mesure un phnomne
que lon cherche expliquer.
- Les autres reprsentent des phnomnes
qui sont supposs influencer et dterminer
le prcdent.
Y = aX + b (Y : endogne, dpendant X :
Exo, Indp)

Les mthodes descriptives

- prennent en compte un ensemble de


variables
- cherchent structurer ou rsumer ou
rsumer un groupe de variables
- cherchent dcrire de faon synthtique
la structure des donnes disponibles.

Les mthodes explicatives


-

La rgression linaire *
o Simple : explication dune variable quantitative Y laide dune
variable galement quantitative X
o Multiple : utilisation de plusieurs variables explicatives (X1, X2,)
pour expliquer Y.
Lanalyse de la variance (ANOVA)*
Lanalyse discriminante
Lanalyse conjointe (MONANOVA)
La segmentation

Les mthodes descriptives


-

Lanalyse en composantes principales (ACP)*


Lanalyse typologique
Lanalyse factorielle des correspondances

Les mthodes avances danalyse multivarie


Lanalyse canonique
-

tend la rgression au cas ou il y a plusieurs variables expliquer


peut tre considre comme la plus gnrale des mthodes fondes sur le
modle linaire

Les modles de causalit


-

constituent le stade actuellement le plus avanc des mthodes danalyse


de donnes.

Rfrence bibliographique :
MARKET : Etudes et Recherches en Marketing
Auteur : Y.Evrard, B. Pras et E.roux

Les enqutes par questionnaire avec Sphinx


Auteur : Stphane Ganassali
Editeur : Pearson Education

Date de parution : 2007


Volume : 247 pages

Etudes marketing avec SPSS


Auteurs : Naresh K. Malhotra (Auteur), Jean-Marc Dcaudin & Afifa Bouguerra
(Traduction)
Editeur : Pearson Education
Date de parution : 2004 (4me dition)
Volume : 682 pages

Etudes de march
Auteurs : Jean-Luc Giannelloni & Eric Vernette
Editeur : Vuibert
Date de parution : 2001 (2me dition)
Volume : 592

Le traitement des donnes en marketing


Auteur : Jean-Pierre Vedrine
Editeur : les Editions dOrganisation
Date de parution : 1991

Partie 1 : Les traitements lmentaires


Chapitre I : Les analyses univaries
Introduction :
-

Les analyses univaries concernent le traitement dune seule variable.


Elles ont pour objet de synthtiser et danalyser les informations
disponibles sur cette variable.
Ces donnes peuvent provenir de sources diffrentes :
o Donnes dobservations
o Donnes exprimentales
o Sries statistiques
o Rsultats dune question pose dans le cadre dun sondage

Exemple :
-

Le nombre dentres dans un hypermarch diffrentes heures de la


journe
Les ventes dun produit associes un conditionnement exprimental
Lvolution des ventes dun produit sur un certain nombre dannes
Les rponses la question : possdez-vous un autoradio ?

Donnes quantitatives (mtriques)


-

Dans le cadre dun questionnaire, elles apparaissent chaque fois que la


personne interroge se voit demander la valeur quelle donne la variable
concerne.
Pour chaque individu i, une valeur Xi sera obtenue pour cette variable. Si
lenqute porte sur n individus la variable sera associe un vecteur de n
lments.
La synthtisation de ces donnes peut tre ralise travers le calcul de
divers indicateurs que fournissent la plupart des logiciels.

Donnes qualitatives (nominales)


-

Dans le cadre dun questionnaire, elles apparaissent chaque fois que la


personne interroge a le choix entre plusieurs modalits qui lui sont
proposes explicitement ou implicitement (cas dune question ouverte
avec post-codification)
Pour chaque individu, la rponse correspond un code ou ventuellement
plusieurs si le choix est multiple.
Sur lensemble de la population enqute, on calcule alors la frquence
absolue (le nombre de fois quun code donn est apparu pour la variable
tudie)

Donnes qualitatives (ordinales)


-

Dans le cadre dun questionnaire, elles apparaissent chaque fois que la


personne interroge se voit demander de classer plusieurs items proposs.

Sur lensemble de la population enqute, il sera ainsi possible de


comptabiliser :
o Le nombre de fois quun item donn a t class en 1 re position, en
2me en mn
o Le nombre de fois quun item donn a t class avant un autre
item ; de ce type de rsultats permettra dtablir une matrice des
prfrences.

Les indicateurs de position : cherchent rsumer par une


caractristique de tendance centrale les niveaux pris par une variable.
-

Le mode : Modalit pour laquelle les observations sont les plus


nombreuses (Mo)
La mdiane : Valeur qui divise la population tudie en deux parties gales
(Me)
La moyenne : Gnralement considre comme reprsentant
naturellement la tendance centrale de la distribution dune variable
numrique. XAk = Xik/n

Les indicateurs de position : mesurent la plus ou moins grande


dispersion des valeurs autour de leur tendance centrale.
-

Ltendue : Intervalle qui spare les deux valeurs extrmes : E = Xmax - Xmin
La variance : Moyenne des carrs des carts par rapport la moyenne
(obtenue sur chantillon) : Sk = (Xik Xak)/(n-1)
Lcart-type : Racine carre de la variance.
Le coefficient de variation : Pourcentage permettant de comparer la
dispersion de variables ayant des moyennes diffrentes.

Le test de moyenne
Il sagit de comparer la moyenne obtenue sur un chantillon A X A une valeur
prdtermine.
Lhypothse nulle peut tre formule de deux faons :
-

Sous forme dingalit (par exemple XA ???) Il sagira alors dun test
unilatral.
Sous forme dgalit (XA ???) : Il sagira alors dun test bilatral.

Deux tests sont utilisables (z ou t) selon deux conditions :


-

Connait-on ou non lcart-type de la variable dans la population ( ??) ? si


oui on utilisera le test Z
Sinon (ce qui est le cas le plus frquent dans la pratique), on utilisera
lcart-type de lchantillon ( ??) comme estimateur de lcart-type
(inconnu) de la population le choix dpend alors de la taille de
lchantillon : si ???? on utilisera le test (sinon on utilisera le test z)

Le test z consiste alors calculer la valeur z = ???? o lcart-type de la


moyenne ????
La valeur observe de z est compare la valeur z correspondant au seuil de
signification ?? retenu ?? suit une distribution normale, cest donc sur une table
de cette distribution que lon trouvera ??. Su lon dsire travailler avec un seuil de
confiance ??? , un intervalle de confiance pour la moyenne ?? est obtenu laide
de lexpression : ????
Dans le cas du test t, la valeur tester est calcul de la mme faon, mais la
valeur ?? est lue dans la table de la loi de Stydent (n-1) degrs de libert (audel de 30 observations, la distribution de t est approximativement normale)
Dans le cas dune proportion ou pourcentage, la dmarque a est analogue. Soit P
la proportion thorique ?????
Exemple
1) Lassociation des tudiants dune universit envisage douvrir un cinclub ; afin den valuer la frquentation, elle a ralis une enqute par
sondage sur un chantillon de 400 individus.
Une moyenne de frquentation de 10 sances par an et par individu a t
obtenue avec un cart type gal 20.
Au seuil de 5%, donnez lintervalle de confiance de la moyenne de
frquentation attendue (relle) par tudiant, puis de la frquentation
globale annuelle (luniversit comprend 5000 tudiants). On donne

Introduction
-

Les analyses bivaries concernent le traitement de deux variables.


Elles ont pour objet de mettre en vidence les relations ventuelles qui
existent entre deux variables analyses simultanment.
Dans la plupart des cas, lanalyste cherchera expliquer une des deux
variables (dites expliquer ) laide de lautre (dite explicative )

Exemples :
-

Le fait de changer un conditionnement a-t-il un effet sur le niveau des


ventes dun produit donn ? Le conditionnement joue ici le rle de variable
explicative et le niveau des ventes, de variable expliquer.
Le fait de possder un four micro-ondes dpend-il de lge ou de la taille
de la famille ? la possession ou non du four micro-ondes est la variable
expliquer, lge ou la taille de la famille son des variables explicatives.

Traitement des tris croiss et nature des donnes


1. Prsentation des tris croiss
- Dans la mesure o une question peut relever fondamentalement de trois
niveaux de mesures diffrents (mtrique, nominale ou ordinale), on
comptera neuf types de croisements possibles entre les questions Q et Q

2. Analyse des tris croiss


-

Les principaux tests correspondant aux plus frquents croisements dans


lanalyse bivarie seront prsents

Prsentation des tris croiss


-

Qi quantitatif x Qj quantitatif : tude des relations entre deux sries de n


chiffres sil y a n questionnaires
o Exemple :dans le questionnaire FAT, tude des relations entre le
nombre de vois effectus (Q1) et la taille de lentreprise (Q11)
Qi nominal x Qj nominal : croisement le plus frquent qui se traduit par la
formation dun tableau de contingence o, en ligne figure les modalits de
la bariable expliquer et en colonnes celles de la variables explicative
o Exemple : croisement entre la question 5 sur lobjet du voyage et la
question 6 : le fait de voyager pour affaires ou pour raisons de
loisirs implique-t-elle un statut dabonn ou non.
Qi ordinal x Qj ordinal : mise en correspondance de deux classements au
niveau de chaque niveau interrog ou sur lensemble de lchantillon.
o Exemple : croisement entre la question 4 et un classement a priori
correspondant aux prfrences de la direction de la compagnie.
Qi quantitatif x Qj nominal : correspondant un tri--plat de la variable
quantitative pour chacune des modalits de la variable nominale qui joue
le rle de variable explicative.
o Exemple : croisement entre question 1 et la question 9 :
lappartenance une classe dge influence-t-elle le nombre annuel
de vols de la personne interroge.

Qi ordinal x Qj nominal : reprage des rangs donns la question Qi pour


diffrentes classes de la question Qj nominale explicative
o Exemple : croisement entre la question 4 et la question 8 : le fait de
relever dun statut familial donn entrane-t-il des prfrences
particulires au sujet des projets damliorations des prestations de
la compagnie ?

Le test de comparaison des moyennes


-

Cest la statistique classique lorsque deux populations sont concernes.

Lanalyste dispose des donnes suivantes :


-

Deux populations A et B respectivement deffectifs Na et Nb


La moyenne de la variable tudie est Xa dans la population A et Xb dans
la population B
La variance de la variable analyse est Sa pour A et Sb pour B

Dans la mesure o lon estime que Xa et Xb suivent une loi normale,


respectivement de moyenne Ua et Ub et dcart-type Oa et Ob, on montre
que la diffrence D = Xa Xb suit galement une loi normale de moyenne
(Ua * Ub) et dcart-type ?? avec :
????

Lintervalle de confiance de la diffrence de moyenne est donn par :


. ????

Lhypothse nulle Ho correspond au cas o la diffrence D = Ua Ub des


moyennes est nulle. Sous Ho la variable rduite devient :
???

La valeur z ainsi calcule doit tre compare avec la valeur lue dans la
table normale pour le seuil de confiance dsir et compte tenu du
caractre unilatral ou bilatral du test

Pour un test bilatral par exemple Ho sera rejet au seuil de confiance de


5% si [z] > 1,96. Pour des petits chantillons (nA et nB < 30), on utilisera
le test t de student .

Quand plus de deux populations sont concernes on aura recours au test F


de Fischer (ce test sera abord dabs ka oartue trautabt de lANOVA)

Exemple
Dans le cadre de ltude FAT, le croisement de la question 1(nombre de vols par
an) et de la question 5(motifs du voyage) fait apparatre les rsultats suivants :
-

voyages pour affaires(A) : Na=155 ; nombre de vols moyens Xa=10 avec


Sa=64
voyages pour loisirs(B) : Ng=75 ; Xb=3 avec Sb=25
Testez si le motif du dplacement entrane des diffrences de nombre de vols
au seuil de confiance de 5%

Le test de comparaison des moyennes


Ho : Quelque soit le motif du dplacement, le nombre moyen de vols est le
mme
Ou Ho : ua= ub
Lcart type des diffrences de moyenne D est donn par :
6D= [SA/nA +Sb/ nb]1/2
Donc z=(10-3)/0,86=8,14
Lhypothse nulle pour laquelle il nexiste pas de diffrence de nombre de
vols selon le motif de dplacement peut tre rejete puisque 8,14 1,96
Conclusion : au seuil de confiance de 5% le motif du dplacement influence
significativement le nombre de vols
Les analyses multi varies
Les mthodes explicatives
Introduction
Les analyses multi varies permettent le traitement simultan de plusieurs
variables
Les mthodes explicatives cherchent tudier les relations entre 2 groupes de V
Lune dentre elles mesure un phnomne que lon cherche expliquer(ou
plusieurs dans le cas de lanalyse canonique). Les autres variables (dites
explicatives) reprsentent des phnomnes qui sont supposs influencer et
dterminer le prcdent
Les mthodes explicatives les plus usuelles
La rgression linaire :
-

Simple :

Explication dune variable quantitative Y laide dune variable galement


quantitave X
-

Multiple :

Utilisation de plusieurs variables explicatives ( X1,X2.. ) pour expliquer Y


Lanalyse de la variance ( ANOVA)
Lanalyse discriminante
Lanalyse conjointe (MONANOVA)
La segmentation
La rgression linaire
Parmi les mthodes explicatives, cest la plus connue et la plus utilise
Elle a pour objet lexplication dune variable quantitative Y laide dune ou
plusieurs variables galement quantitatives X1,X2 An.Xn ou par le biais de
relations quil est possible de ramener cette formule la suite de
transformations mathmatiques appropries
La dtermination des paramtres A0,A1,A2 ,An est lobjet du calcul de la
rgression(mthodes des moindre carres)
Exemples
Dtermination des attributs les plus importans dans la formation de
lapprciation des consommateurs vis--vis de diffrentes marques concurrentes
Recherche des relations ventuelles et les variables matrialisant son marketingmix(p.e prix de vente, dpenses publicitaires)
Explication des performances commerciales de diffrents points de vente en
fonction de leurs caractristiques (p.e. surface, niveau de prix, taille du parking,
population)
Expos technique de la mthode des moindres carrs :
Nous travaillerons dans le cas dune rgression linaire simple (cas o
nintervient quune seule variable explicative) et donc sur un modle de type :
Y = a0 + A1.X1
Il sagit de dterminer les coefficients a0 (ordonne lorigine) et a1 (coefficient
de rgression) de telle sorte que ce modle, qui correspond lquation dune
droite, reproduise au mieux les relations observes entre les deux variables.
Les donnes dont on dispose sont constitues de n couples de valeurs (X,Y) qui
forment un nuage de point sur le plan (X,Y). La droite qui reprsente le mieux les
volutions relatives des deux variables est celle qui est en moyenne la plus
proche des lments du nuage de points.
Cette proximit se mesure par les carts entre les Yi observs et les valeurs
thoriques Yi* calcules lquation du modle pour une valeur Xi donne.
Ainsi, la meilleure droite est celle qui permet de minimiser E, somme des carrs
des carts entre les Yi et les Yi* avec : E = Somme(Yi Yi*) = Somme(Yi a0
a1.Xi).
Dans cette expression, les valeurs Yi et Xi proviennent des observations et les
coefficients a0 et a1 inconnues dterminer.

Comme on dsire minimiser E. Il faut annuler les drivs partiels par rapport
a0 et a1. La rsolution de ce systme de drivs fournit le coefficient de
rgression a1 de rgression a1 et lordonne lorigine a0 de la droite des
moindres carrs :
Moy(X) = 5

Moy(y) = 20

Cov (X,Y) = Somme[(X Xbarre) .(Y-Ybarre)]/n


= 36
Var(x) = Somme (Xi Xbarre)
R ><50%

LAnalyse de la variance
-

On utilise souvent lexpression ANOVA (ANalysis of VAriance) pour dsigner


lanalyse de la variance.
LANOVA a pour objectif lexplication dune variable quantitative Y laide de
variables qualitatives Xj sur lesquelles on a dfini Kj modalits.
Cette analyse permet de tester la signification des diffrences de moyennes
observes sur plusieurs populations caractrises par diffrentes
combinaisons de modalits des variables explicatives.
Lexprimentation commerciale est un des principaux domaines dapplication
de lanalyse de la variance.

Exemple :
-

Dans le cadre dun pr-test publicitaire, plusieurs affiches sont en


concurrence.
Elles se distinguent les unes des autres par le thme voqu (premire
variable explicative), leur graphisme (deuxime variable) et la couleur
dominante utilise (troisime variable).
Chaque variante est soumise une partie de lchantillon et se voit attribuer
une note variable Y) de la part de chacune des personnes interroges.
Il sagit alors dapprcier le caractre significatif des diffrences des notes
obtenues, mais aussi de reprer quels sont les facteurs , thme, graphisme ou
couleur qui ont le plus contribu ces diffrences.
Aspects techniques de lANOVA un facteur

LANOVA un facteur peut tre considre comme la gnralisation du test


de moyennes (chapitre sur les analyses bivaries) au cas o il sagit de
comparer non plus deux moyennes, mais simultanment k moyennes
correspondant k modalits dune variable explicative (ou facteur).
Deux questions sont resoudre par lANOVA un facteur : y a-t-il une liaison
entre la variable expliquer et la variable explicative ? Si oui, quelles sont les
modalits qui contribuent cette relation ?
La premire question peut tre vue comme un cas danalyse bivarie (liaison
entre une variable quantitative et une variable qualitatives et se formule par
lhypothse nulle suivante : la valeur moyenne de la variable expliquer elle

amne pour toute les modalits de la variable explicative. SI cette hypothse


nulle
Si la relation est tablie au niveau global, on va sintresser aux
comparaisons multiples entre modalits de faon tudier leur poids relatif
dans la liaison (ceci revient comparer deux deux toutes les modalits de
la variable explicative, de faon voir celles qui sont significativement
diffrentes entre elles)
Les donnes issues dune exprimentation sont reproduites sur un tableau o
figurent en colonne les k modalits du facteur et en ligne les n observations
ralises pour chacune de ces modalits (ainsi, dans la case ij du tableau on
trouve Yij, rsultat de lobservation i pour la modalit j)
Au total N = K.n observations ont t ralises
La dcomposition de la variance totale de la variable expliquer (ou
Dispertion Totale) en une variation entre les modalits ou variance
intergroupes (Dispertion Factorielle) et une variation au sein des modalits, ou
variance intragroupe (Dispersion Rsiduelle) constitue lquation de lANOVA

Lquation de lANOVA
On note :
o
o
o
o
o

M = Sommei.Sommej.Yij/n.k la moyenne gnrale de variable


expliquer Y (appele aussi grande moyenne )
Mj=SommeiYij/n la moyenne de la variable expliquer pour la modalit
j de la variable explicative (ou petite moyenne )
K : nombre de modalits testes
Yn : niveau de Y sous traitement j pour lobservation i
N ; nombre dobservation pour chaque modalit.

La diffrence entre la dispersion totale et la dispersion factorielle constitue une


dispersion rsiduelle (DISPR). Elle est mesure par la somme des carrs des
carts entre les rsultats associs une modalit et la petite moyenne mj. Sur
lensemble des traitements :
DISPT = Somme(Somme(Yij mj)) ou = sommeisommej.Yij
La dispersion rsiduelle a t quant elle obtenue par diffrence

La table dANOVA

Les rsultats de lanalyse de la variance sont gnralement prsents laide


dune table dANOVA, du type de celle qui est reproduites ci-dessous :
Source de
variation
Factorielle
Rsiduelle

Degrs de
libert
K1
NK

Somme des
carrs
DISPF
DISPR

Total

N-1

DISPT

Carrs
moyens
VF = DISPF/(k1)
VR = DISPR/
(N-k)

F
VF/VR

Aprs le calcul de F, on fixe le seul alpha. Si F est suprieur la valeur Falpha (lue
dans une table F pour les mmes degrs de libert), on rejette lhypothse Ho,
donc il y a une diffrence significative entre les modalits.

Analyses multivaries
Mthodes Descriptives
Introduction
A la diffrence des mthodes explicatives, les mthodes descriptives prennent en
compte un ensemble de variables.
Elles cherchent structurer ou rsumer un groupe de variables quantitatives (par
exemple la rduction des colonnes de la matrice des donnes pour lanalyse
factorielle)
Elles cherchent dcrire de faon synthtique la structure des donnes
disponibles (par exemple le regroupement des observations en classes
homognes pour lanalyse typologique)

Les mthodes descriptives les plus usuelles


-

Lanalyse en composantes principales (ACP)


Lanalyse typologique
Lanalyse factorielle des correspondances

Lanalyse en composantes principales


Cest lune des plus anciennes mthodes danalyse de donnes, connue par les
initiales ACP
Elle consiste rsumer linformation contenue dans la matrice des donnes en
remplaant les variables initiales par un nombre plus petit de variables
composites ou facteurs.
Elle permet galement dun point de vue thorique de passer des mesures des
concepts thoriques ne pouvant tre mesurs directement (les facteurs
communs sous-jacents non observables sont dit variables latentes )
Le positionnement des individus par rapport ces facteurs (ou composantes
principales ) aidera mettre en vidence des typologies dindividus (analyse
typologique)
Exemple
Dans le cadre dune enqute, une agence de conseil en marketing oprationnel
dsire connaitre au mieux les attentes et la satisfaction des consommateurs
cocnernant les prestations quils avaient reues afin damliorer ses services, et
donc son positionnement sur le march. Chaque rpondant value limportance
de plusieurs critres tels que le dlai, le prix, la qualit, le suivi du projet, le
retour sur investissement, la crativit, la connaissance du secteur Une ACP
permet de savoir quel(s) cirtres(s) tai(en)t le(s) plus significatif(s) pour les
consommateurs.

Prsentation technique de lACP


Les facteurs priori, tre choisis arbitrairement comme une fonction quelconque
des variables initiales, En fait deux conditions restrictives sont introduites dans
lanalyse :
La linarit : les facteurs sont des combinaisons linaires des variables initiales
Lindpendance : les facteurs son indpendants (au sens linaire, c-a-d que les
coefficients de corrlation de deux facteurs quelconques sont nuls)
Pour lanalyste, la mise en uvre dune ACP va ncessiter de rsoudre
successivement quatre problmes
- La prparation des donnes : quelles donnes appliquer lanalyse ?
- Le choix dune procdure de calcul : quelle mthode choisir ?
- La dimensionnalit : combien de facteurs faut-il retenir ?
- Comment interprter les rsultats ?
LACP une forme danalyse factorielle : les variables descriptives initiales X1,
X2,..., X, sont regroupes en facteurs synthtiques Fi par combinaison linaire,
cd par des relations de la forme :
Fij = C
Il sagit de dterminer les coefficients Cij de telle sorte reproduire le maximum
de linformation contenue dans les variables initiales avec le moins de
composantes principales possibles.
La procdure de rsolution permet didentifier les axes factoriels et de calculer la
variance qui leur est associe. La question qui se pose lanalyste est celle du
nombre daxes retenir pour linterprtation des rsultats. Plusieurs mthodes
sont possibles (dont les plus importantes sont cites ci-aprs). Il faut noter quil
sagit essentiellement de rgles empiriques fondes sur lexprience.
Restitution minimum : dans ce cas, on se fixe lavance un seuil
correspondant au pourcentage minimum de variance que lon veut restituer et on
retiendra le nombre daxes ncessaires pour atteindre ce seuil. La variance
explique (VE) par les 2 premiers facteurs F1et F2 est gale la somme des
valeurs propres associes ces 2 axes, divise par la somme de lensemble des
valeurs propres (Variance Totale)
VE (F1,F2) landa1 +Landa2)/ ELanda
Si cette quantit est suffisamment proche de 1, seuls les deux premiers facteurs
sont conservs, sinon le troisime facteur est introduit dans lanalyse jusqu ce
quon atteigne le seuil fix( 80% = 0,8)
Rgle de Kaiser : retenir les facteurs correspondant des valeurs propres Rgle
suprieures 1
Scree-test de Catell : La variance restitue va en diminuant. La rgle darrt
consiste chercher quel est le premier des facteurs dont llimination conduit a
une partie dinformation minimum. Pour cela, il suffit de porter sur un graphique
le numro des axes factoriels en abscisse, et le pourcentage de variance quils
restituent, puis dliminer les facteurs situs aprs le changement de concavit
de la courbe (cd aprs linflexion)
Interprtation des axes factoriels : pour interprter les facteurs, il est ncessaire
de revenir aux variables initiales. En effet, plus le coefficient de corrlation entre
une variable initiale et un facteur retenu sera important, en plus cette variable

sera importante dans lexplication de ce facteur. Le seuil de corrlation est


gnralement fix 0,5.

Vous aimerez peut-être aussi