Vous êtes sur la page 1sur 67

Atelier

sta*s*que
INSEEC 2
2014
Benoit FAYE

Objec&fs de lAtelier

Appren&ssage de la mthode de traitement des donnes applicable dans le


cadre des tudes de cas et du mmoire de recherche applique.
Traitement des donnes : Mthode dtude dun ensemble de nombres (ou
donnes) prsents sous forme de tableaux ou de graphiques concernant un
sujet dtermin. Les donnes proviennent de base de donnes existantes
(CREDOC, INSEE, EUROSTAT) ou sont construites par*r dun ques&onnaire
appliqu une popula&on ou un chan&llon reprsenta&f de celle-ci.

Le traitement des donnes ncessite

1. La formula&on dune recherche (tude) ou modlisa&on (tape 1)


2. La collecte de donnes et enregistrement dune srie sta&s&que (tape 2)
3. Le traitement de la srie par lu&lisa&on dun logiciel sta&s&que et commentaires
des rsultats (tape 3 5)

Latelier va traiter chacune de ces tapes en u&lisant dirents moyens


pdagogiques

Vido 1 lancement de XLSTAT

Le matriel pdagogique
(disponible sur lintranet pdagogique MOODLE-)
Cours PPT
Logiciels de traitement de donnes (XLSTAT, SPHINX, Excel)
accessible en salle informa*que et distance sur
hYps://inseecgateway.com
Fichiers de donnes pour applica*on (cf. tableau en n de cours)
Fiches dentranement par squence de cours (cf. tableau en n de
cours)
Supports vido daide aux traitements des donnes par XLSTAT. (cf.
tableau en n de cours)
Ar&cles dapprofondissement (en lien hypertexte dans le cours)
Les conseils au cas par cas auprs de vos enseignants

ETAPE 1 : LE PROCESSUS DE RECHERCHE (ou comment poser une ques&on et y rpondre)


Choix de lobjet de recherche (ou
problma;que, research topic)

Quest ce que je recherche ? Formula*on large et interroga*ve laquelle on donne une


rponse prcise et construite. Il peut tre dcompos ensuite en ques*ons de recherche
(tapes de travail pour arriver rpondre la problma*que)

Revue de liYrature

Ensemble des travaux (manuels, ar*cles scien*ques, tudes de cas, presse spcialise)
permeYant de prciser la dni&on des concepts, leur mesure, et leurs liens.
Concepts : lments de base dune thorie, abstraits et reprsentants des phnomnes
ou caractris*ques (implica*on au travail, performance, aYachement la marque)

Construire un cadre thorique en


opra*onnalisant les concepts
(aner et mesurer les concepts
par des variables)
Enoncer les hypothses (ou des
proposi*ons)
Choix dune mthodologie
quan*ta*ve ou qualita*ve

Prsenta*on sous forme de graphe des rela*ons entre les concepts (et leurs mesures)
que lon souhaite explorer.
Hypothses : une hypothse est une arma*on qui spcie quau moins deux variables
mesurables sont lies en prcisant les caractris*ques de ce lien. Elle peut galement
spcier une dirence (ou similitude) entre deux (ou plusieurs) groupes dindividus.
Enn elle peut spcier une meilleure performance explica*ve dun modle par rapport
un autre. Une hypothse est conrme ou rfute (vraies ou fausses).
Proposi&ons : formula*on complexe non testable ou qui ne peut tre teste que par
plusieurs hypothses successives. La proposi*on ne peut tre que discute ou soutenue
(et non conrme ou rfute)

Choix de lchan*llon et
construc*on de la srie
sta*s*que
Analyser les donnes et tester les
hypothses
Commenter les rsultats et
dduire des implica*ons
managriales

Cf. Etape 2 4

Mthodologie quan*ta*ve et/ou qualita*ve ?


Mthodologie quan&ta&ve

Mthodologie qualita&ve

Traitement sta;s;que de donnes


numriques ayant un impact suppos sur un
phnomne et portant sur un chan;llon
reprsenta;f


Avantages



Inconvnients

Entre;ens qualita;fs (ques;ons


ouvertes) sur un pe;t nombre
dindividus

Reprsenta&vit des rsultats


(sous rserve de la taille et de la structure
de lchan&llon)

1.

1.

Manque de reprsenta&vit des


rsultats
(cependant aYen*on la satura;on
sman;que)

2.

Le choix des variables se fait priori et


sur la base de la liYrature existante
Les rsultats sont des constats qui
peuvent ne pas tre expliqus par la
thorie (corrla*on)

La bonne pra&que

Variables issues des
Entre&ens

entre*ens
qualita&fs

Variables issues de la
liYrature

Variables issues dun

raisonnement personnel

Traitement
quan&ta&f

Les variables sont formules par les


acteurs (per&nence)
2. Les rsultats sont expliqus par les
acteurs.
(cependant risque de biais cona.fs,
cogni.fs, aec.fs)

Rsultats

Entre&ens
qualita&fs

Commentaires
des rsultats

Un exemple simple de modlisa&on quan&ta&ve


Problma&que : Dans les pays riches, la valeur consomme des mnages aiss sexplique-t-

elle par la richesse dtenue ?

Ques*on de recherche : Pour les mnages des pays de lOCDE appartenant au dcile des plus

riches la propension consommer dpend-elle du patrimoine ?

MODELE 1

Y :

X1 : patrimoines
Propensions


Patrimoine
Dpense de
moyens dtenus

consommer
d
u
(Stock)
conso
du dernier dcile
H1: eet + de
dernier dcile
X1 sur Y (1>0)


Un exemple simple de modlisa&on
avec comparaison de groupes

des mnages aiss sexplique-t-elle plus par la
Problma&que : la valeur consomme
riches que dans les pays mergents ?
richesse dtenue dans les p ays
MODELE O
CDE
X1 : patrimoines

Y : Propensions
1
moyens dtenus du
consommer du

dernier dcile de
dernier dcile de

lOCDE
H1: 1et 2
lOCDE
Patrimoine
Dpense de
sont St et :
conso
(Stock)
1 > 2
X1 : patrimoines
Y : Propensions

consommer du
moyens dtenus du
dernier dcile des

dernier dcile des
2
mergents

mergents
MODELE EMERGENT

Un exemple simple de comparaison de modles


Ques*on de recherche : Pour les mnages des pays de lOCDE appartenant au dcile des plus
riches le revenu est un modrateur de la rela*on entre le patrimoine dtenu et la propension
consommer ?
MODELE 3
Dpense de
conso

Propensions
consommer du
consommer
dernier dcile
du
dernier dcile

H1: eet de
modra*on de X2
sur la rela*on entre
X1 et Y

moyens dtenus
du dernier dcile

X2 : Revenu net imposable


annuel moyen du dernier
dcile

AYen*on une
variable peut tre
modratrice ou
mdiatrice

H2: Le modle 3 (si H1 est vrie) est plus performant


(explica*f des uctua*ons de Y) que le modle 1


Un exemple simple de modle avec
variable mdiatrice
X2 : Educa*on
Corrla*on

Y : Choix dorienta*on
professionnelle

Corrla*on
Absence de
corrla*on

(Stock)

X1 : Sexe

Les dirents cas de gure en une seule image


C7 : concept
mdiateur
V7 : mesure de C7

C1
Concept
expliquer

V2 : mesure de C2

C2

V3 : mesure de C3

C3

V4 : mesure de C4

C4

V5 : mesure de C5

C5

V1 : mesure de
C1



V6 : mesure de C6
C6 : concept
modrateur

En vert apparaissent les variables exognes ou explica&ves ou indpendantes.


En rouge gurent les variables endognes ou expliques ou dpendantes

Des ques*ons pour vrier ses connaissances

graphe.
. Modlisez ceYe rela*on sous forme de
2. Quest ce quun concept ?
3. Les asser*ons suivantes sont-elles des hypothses ou des
proposi*ons
- (a) Limplica*on au travail des salaris est posi*vement
lie au leadership du dirigeant
- (b) laYachement la marque volue avec lge et la CSP
des consommateurs
- (c) le taux dendeYement des mnages est nga*vement
li au taux dina*on et posi*vement li la valeur de leur
patrimoine
- (d) le taux dincarcra*on des mineurs dpend de leur
origine sociale
4. Quest ce que la satura*on sman*que ?
4. Quest ce que la satura*on sman*que ?

Pour prendre le temps de mieux


comprendre
Qu'est-ce qu'une problma*que en Sciences
de Ges*on (NIKITINE, 2006).pdf
Dis*nguer causalit et corrla*on (KRIVINE,
2008).docx
pour mieux comprendre les eets
modrateurs et mdiateurs (RASCLE et
IRACHABAL, 1998).pdf
Tous disponibles sur moodle.

ETAPE 2 COLLECTER ET ENREGISTRER LES DONNES


Deux sources possibles de donnes : des bases existantes ou une
construc*on de donnes par*r dun ques*onnaire portant sur
un chan*llon de popula*on.
Popula&on (ou base sta*s*que)
reprsente lensemble des units
sta*s*ques ou individus que lon
souhaite observer.

Echan&llon : sous ensemble de la popula*on


que lon choisit dtudier lorsque la base est
trop tendue pour tre enqute dans sa
totalit. La ques*on est alors de savoir
comment choisir lchan*llon pour quil soit
reprsenta*f de la popula*on.

Pour la structure et la rdac*on du ques*onnaire vous pouvez


consulter realiser-un-ques*onnaire (APCE).pdf. Toujours penser
eectuer un pr-test sur une trentaine dindividus pour vrier
la clart et lopra&onnalit de votre ques&onnaire.
4 points spciques doivent abrer lacen&on : le choix de la
mthode denqute, le choix de la taille dchan*llon,
lenregistrement de la srie sta*s*que et la jus*ca*on de la
structure

Le choix de la mthode denqute

La Bonne Pra&que : mthode probabiliste avec contrle du risque de concentra*on,


de la taille dchan*llon et des variables de structure de lchan*llon (correc*on par
ajouts ou suppression dindividus). Eventuellement couplez une mthode cible
pour rduire la taille dchan*llon

Le choix de la taille dchan&llon : un arbre de


dcision
Popula&on de grande taille (>240?)

Popula&on de pe&te taille (<240?)

Extrac*on dun chan*llon

Enqute sur lensemble de la


popula*on

On ignore si les individus


sont tous concerns par le
phnomne tudi

Tous les individus


sont concerns par
le phnomne
tudi

Rgle: Calcul de la taille op&male


Rgle pra&que : dans la
dchan&llon (n*)
liYrature la taille des
2
2
n* = [ f (1 f )]/
chan*llons est denviron

2
2
Avec un risque derreur = 0 , 03
: 240
(ou entre 10 et 15 fois
2
2
le nombre de ques*ons
un paramtre t = 1,96
poses dans lenqute)
f : frquence rela*ve dappari*on de

la popula*on vise dans la popula*on


totale (si on lignore on la calcule sur
les 200 premiers individus interrogs)
Si la taille relle n<n* on recalcule
en remplaant n* par n dans
lqua*on

Taille
dchan&llon
selon taux de
retour

Acen&on en aucun cas la taille dchan&llon ne


peut tre infrieure 60 individus (taille
dacquisi&on de la loi Normale bilatrale)

Lenregistrement des donnes : cra&on de la srie sta&s&que

Les donnes collectes peuvent tre directement enregistres sur des logiciels spcialiss
(SPHINX par exemple) ou sur des formats Excel. Cependant quel que soit le choix, les
donnes de la srie sta*s*que peuvent toujours tre exportes a minima en format Excel
(vriez cependant les donnes transfres pour contrler les erreurs)
Les donnes sont enregistres sous la forme dune srie sta*s*que (et non comme une
distribu*on deec*fs).
La srie sta&s&que est une
correspondance qui associe
chaque individu une modalit
dune variable (les logiciels de
traitement sta*s*ques travaillent
directement sur ceYe srie
La distribu&on deec&fs est une
correspondance qui associe
chaque modalit dis*ncte de la
variable le nombre dindividus
concerns

Individus

Nombre d'enfants

modalits

Effectif partiel

Visualisez une srie sta&s&que sous Excel Fichier ISF Departement.xlsx

Lenregistrement des donnes : Les types de variables (an&ciper


Lenregistrement
pour
mieux traiter) des donnes : Les types de variables (an&ciper
toujours tre indices et sont donc numriques.
: ce sont des variables de mesure (rendement, produc*vit, disposi*on
payer),
d
iscrtes
(

v
aleurs
e
n*res)
ou con*nues (prend toutes les valeurs dun intervalle.
Variables indicatrices
(
u*lises
p
our
r
endre
c
ompte
d
e la pvrsence
ou
absence
dun vnement
Variables instrumentales
dummy
ariables)
: Cde e slont
des variables
binaires ( 0,1) gnralement
: variable u*lise la place dune autre condi*on quelles soient
fortement
par
exemple).
corrles

et que la premire pose des problmes techniques du*lisa*on (endognit
Les Construits
: ce sont des variables complexes, non observables directement, mais que lon
produit : p aar*r
exemple
Yachement
dune srie
la dme arque,
ques*ons,
implica*on
appeles
au ItTEMS
ravail
(cf.
). aCnalyse
es construits
mul*dimensionnelle).
sont gnralement
Par
traits comme
produit
par*r ddes
une
variables
srie dqe uan*ta*ves.
ques*ons, appeles ITEMS (cf. analyse mul*dimensionnelle). Par
exemple : aYachement la marque, implica*on au travail ). Ces construits sont gnralement
traits comme des variables quan*ta*ves.

Variables quantitatives
DISCRETES
Nombre
denfants

CONTINUES
Revenu

Variables qualitatives
ORDINALES

NOMINALES

Echelle de
satisfaction

Sexe

Les modalits sont les valeurs prises par la variable

Bonne pra&que : Ne jamais oublier quil est plus facile de traiter des variables quan*ta*ves
que qualita*ves. Donc, dans le cas des variables ordinales u*lisez plutt 7 chelons que 5
pour pouvoir les traiter comme des quan*ta*ves

manquantes et extrmes

Pour traiter une srie sta*s*que les logiciels ont besoin de modalits numriques. Ils
dysfonc*onnent si votre srie sta*s*que con*ent des mots ou des cases vides.
cest le cas de XLSTAT, ncessite un codage manuel ( moins que lon importe le chier
de donnes depuis SPHINX).
Bonne pra&que
chier de donnes doit tre aYribue
Bonne pra&que
votre codage
: Quoi pquil
our nen
e jamais
soit une
le perdre
feuille !!!
de
votre
chier de donnes doit tre aYribue votre codage pour ne jamais le perdre !!!
est plus simple de supprimer ces individus. Sinon il faut
- Remplacer la donnes manquantes par la moyenne ou la modalit du plus proche
voisin, ce que propose automa*quement les logiciels. Ce sont des mthodes simples
mais qui manquent de discernement.
- Rechercher une segmenta&on des individus sur la bases des variables compltes et
remplacer les donnes manques par la moyenne (ventuellement mdiane) du
groupe dappartenance de lindividu. Cest videmment la
bonne pra&que (voir
mthodes dNonnes
donnes-
IPALS em
t ianquantes)
mputa&on mul&ple disponibles dans XLSTAT-prpara&on
mthodes NIPALS et imputa&on . mul&ple disponibles dans XLSTAT-prpara&on
Vido 2b
donnes- donnes manquantes).
normalement distribues, ou Mandel si Grubbs
la distribu*on
, Dixon nou
est
Cochran
pas normale
si vos variables sont
normalement distribues, ou Mandel si la distribu*on nest pas normale

La jus&ca&on de la structure de lchan&llon

individus (
doit donc possder une par*e consacre ces variables diden*ca*on des
et la religion).
acen&on
Les den
istribu*ons
France il edst
eec*fs
interdit des
iden*er
variables
les
de
individus
structure
selon
sont lethnie
alors
et reprsentes
la religion).
Les
graphiquement
distribu*ons
eec*fs
diagramme
es svectoriel,
ariables
ddiagramme
e structure
en
sont
tuyau
alors
dorgue).
Limitez-vous
toujours d (u
n pe*t ndombre
de variables
de structure
(par
reprsentes graphiquement (diagramme sectoriel, diagramme en tuyau
correspondent approxima&vement celles de la popula&on totale.

2.
Renquter
2. Renquter pour rquilibrer

Comment prsenter ceYe


tape dans son travail
crit
Crer une par&e mthodologie et dans une premire sous par*e
prsentez les points suivants :
Prsenta*on et jus*ca*on de la mthode denqute
Prsenta*on et jus*ca*on de la taille dchan&llon
(ventuellement recalcul du risque).
Prsenta&on des variables sous la forme de tableau en prcisant la
nature des variables et des modalits de codage pour les variables
qualita*ve nominale.
Eventuellement prsenta*on de la mthode choisie de
remplacement des donnes manquantes et de suppression des
valeurs extrmes.
Prsenta*on de la structure de lchan&llon et jus&ca&on de sa
reprsenta&vit.

Pour prendre le temps de comprendre



Mthode d'enqute des dtails et des
exemples.pdf
Mthodes de recherche en contrle de
ges*on.pdf
protocoles et eacits des enqutes
internet.r
Faire avec, une rexion sur la per*nence de
l'enqute.pdf

Un pe*t test ?
2. Vous souhaitez enquter un chan*llon de femmes Bordelaises de plus de
dchets plas*ques. Quelle est votre taille dchan*llon ?
60 ans. Quelle mthode denqute pouvez-vous meYre en uvre ? Jus*ez
votre choix.
3. Vous enqutez sur une sous popula*on dont vous ignorez la frquence
rela*ve dans la popula*on franaise, vous procdez au calcul de ceYe
frquence sur les 120 premiers individus enquts et obtenez le graphique
suivant. Calculez la taille op*male de votre chan*llon. La taille relle de
votre chan*llon tant de 450 quelle est votre risque derreur rel ?
N*=1063
Risque = 0,0461= 4,61%

votre choix.
REV1
REV2vous ignorez
REV 3
REV
4
3. Vous enqutez sur une sous popula*on
dont
la
frquence
[0 ; 500[
[500 ; 1500[

250

750
2250

Trs faible

faible

; 3000[
moyenne
rela*ve dans la popula*on franaise, [1500
vous
procdez au calcul d3e ceYe
[3000 ; 10000[

6500

Eleve

Message FLASH
Dsormais les donnes sont disponibles pour
ltude et le traitement peut commencer.
Noublions pas que ce traitement doit
rpondre la problma*que en es*mant, par
u n e m t h o d e a p p r o p r i e , l e s l i e n s
r e p r s e n t s d a n s l e g r a p h e d e l a
modlisa*on. Cependant, comme on le sait,
le travail sane par des aller-retour
n o m b r e u x e n t r e p r o b l m a * q u e -
mthodologie-rsultats.
Le traitement se ralise en une succession
dtapes prcises.

Vido 2
sta*s*que
descrip*ves

ETAPE 3 : PRSENTATION DES VARIABLES PRINCIPALES


(sta&s&ques descrip&ves ou analyse univarie).

Dans un premier temps il convient de prsenter la forme de la distribu*on (deec*fs) des


variables principales (variable endogne, et variables exognes) hors variables de structure
dont la prsenta*on a t faite prcdemment. La descrip*on de ces variables u*lise des
ou*ls dirents selon leur nature.
Variables qualita&ves

p r s e n t a * o n g n r a l e m e n t
graphique (btons, histogramme,
secteurs) des eec*fs (ou des
frquences) par modalits de la
variable.

Variables quan&ta&ves

prsenta*on sous forme de tableau des


principaux indicateurs descrip*fs de la
srie (moyenne, mdiane, cart type,
c o e c i e n t s d a p l a * s s e m e n t e t
dasymtrie de Fisher)

Price per btl


(US$)
665,50

nb of
Btls
12,00

Parker Notes

Mean

928,13

7,97

93,88

Standard devia&on
(n)
Varia&on
coecient
Skewness (Fisher)

1018,74

5,06

6,38

1,10

0,63

0,07

6,81

1,17

-1,18

Kurtosis (Fisher)

104,88

22,74

0,98

Median

96,00

Interprta&on des indicateurs de forme de la distribu&on deec&f dune variable


quan&ta&ve
La distribu*on deec*fs associe chaque modalit dis*ncte de la variable
quan*ta*ve le nombre dindividus concerns. CeYe distribu*on peut tre
reprsente graphiquement comme suit


Eec*f ou

frquence



Modalits de la

variable

La forme de ceYe distribu*on reprsente une informa*on prcieuse (les individus
sont-ils concentrs sur certaines modalits de la variable ? Aux extrmes ou autour
de la moyenne ? Les indicateurs de valeur centrale (moyennes, mdiane, mode) et
les indicateurs de dispersion (cart type, cart absolu moyen, coecient de
dispersion) susent dcrire la forme de la distribu*on. Cependant au milieu du
20me un appel contribu*on fut lanc pour permeYre de juger de la forme dune
distribu*on par*r dun seul (en fait deux) indicateurs et trois proposi*ons furent
faites : celle de FISHER (aujourdhui la plus u*lise), celle de PEARSON et celle de
BOWLEY. Le deux indicateurs sont appel coecient dasymtrie (ou SKEWNESS)
et coecient dapla&ssement (ou KURTOSIS)

Descrip&on de la forme dune distribu&on dune variable quan&ta&ve : les cas de gure
Nombre de
rmes

Taux de
rentabilit
Asymtrique concentre gauche
(Mdiane<moyenne ;
Coecient asymtrie >0)

Pla*kutr*que ( coecient de
dispersion >0,33 ; Coecient
dappla*ssement <0)

Symtrique (Mdiane = moyenne,


coecient asymtrie =0)

Msokur*que ( coecient de
dispersion =0,33 ; Coecient
dappla*ssement =0)

Asymtrique concentre droite


(Mdiane >moyenne ;
Coecient asymtrie <0)

Leptokur*que ( coecient de
dispersion <0,33 ; Coecient
dappla*ssement >0)

Taux de
rentabilit

Rappels sur les indicateurs de valeur centrale et de dispersion


INDICATEURS

DEFINITION

CALCUL

INTERPRETATION

Mode (Mo)

Modalit de la variable la plus reprsente dans


lchan*llon

Observa*on

La valeur la plus nonce par les


rpondants est Mo

Moyenne
arithm&que
(m)

Valeur (et non modalit) telle que la somme des


carts entre elles et les modalits soit toujours
nul.

=1/ =1

En moyenne, les rpondants


achent une valeur de m.
AYen*on elle est trs sensible la
prsence de valeurs extrmes .

Moyenne
gomtrique (g)

Moyenne calcule en pondrant les modalits


par les eec*fs correspondants. Son intrt est
dtre moins sensible aux valeurs extrmes

= &=1

Idem ( u*liser lorsque certains


rpondants ont des valeurs
extrmes de modalits)

Mdiane (Me)
(voir galement
le 1er et de 3me
quar*le)

Modalits de la variable telle quautant


dindividus ont une modalit suprieure
quinfrieure

Obtenue par interpola*on linaire


entre les valeurs de la fonc*on de
rpar**on encadrant N/2

La moi* des rpondants ont une


modalit suprieure
(respec*vement infrieure) Me

cart type ()

Racine carre de la moyenne des carrs des


carts la moyenne arithm*que

== 1/
=1()2

En moyenne les modalits des


rpondants varient de plus ou
moins autour de la moyenne
(arithm*que)

Coecient de
dispersion

Rapport de lcart type la moyenne. Il est


gnralement exprim en %.

=/

Lcart type reprsente d% de la


moyenne. d permet de savoir si la
distribu*on est homogne
(d<0,33) ou htrogne (d>0,33)

mesure le degr d'asymtrie de la distribu*on


(moment d'ordre trois centr sur le cube de
lcart-type)

=[()3]/[]3

Le skweness permet de savoir si


les eec*fs de rpondants sont
plutt concentrs gauche (S>0)
ou droite (S<0) de la moyenne.

mesure le degr d'crasement de la distribu*on


(le rapport entre le moment d'ordre quatre
centr et le carr de la variance.)

=()4/[ (
)2]2

Le Kurtosis permet de savoir si les


rpondants ont des modalits trs
htrognes (K<0) ou homognes
(K>0)

Skweness
(asymtrie)

Kurtosis
(apla&ssement)

Note sur la normalit des variables


Pour tre u*lises, certaines mthodes (tests paramtriques, qua&ons structurelles) ncessitent que la
distribu&on deec&f dune variable soit normale (on dit quelles sont normalement distribues ). Ces formes
de distribu*ons sont dites normales parce que ce sont les plus courantes pour les phnomnes de notre univers.
Deux paramtres susent les dcrire : leur esprance mathma*que (ou moyenne) et leur cart type (). Elles
se notent N(m,) et ont des formes dite Gaussienne ou en cloche . On peut les centrer sur 0 et les rduire
1 en subs*tuant aux modalits ini*ales X de nouvelles modalits (X-m/)
Distribu*on ini*ale

Distribu*on centre rduite

(X-m)/

Pour tester la normalit de la distribu&on dune variable il existe plusieurs tests sur
la plupart des logiciels. Le plus u*liss (et le plus robuste mais aussi le plus exigeant)
est celui de JARQUE-BERRA. Il est cependant dusage du*liser 3 ou 4 tests en
esprant que lun ou lautre soit clment et suggre la normalit de la distribu*on
Cependant, les mthodes ncessitant la normalit de la distribu*on des variables ne
dysfonc*onnent pas si ces distribu*ons sont QUASI-NORMALE cest--dire trs
proche dune distribu*on Gaussienne. On dit quune distribu*on est quasi-Normale si
le Skewness et le Kurtosis sont situs dans lintervalle [-1,5 ; 1,5]

Voir Vido
3 : test de
normalit
sous
XLSTAT

Comment commenter un test sta&s&que en pra&que

Les tests sta&s&ques se prsentent et se commentent tous de la mme faon. 3 points sont retenir
1. Un test oppose toujours deux hypothses exhaus&ves (cest--dire envisageant elles deux tous
les cas de gure) et exclusives (si une hypothse est vraie lautre est ncessairement fausse). Ces
deux hypothses sont toujours notes H0 (lhypothse de base du test) et Ha (lhypothse
alterna&ve). Ces hypothses sont toujours crites dans XLSTAT.
2. Le test calcul un indicateur par&r des valeurs observes et un indicateur par&r des valeurs
thoriques de la loi de distribu&on laquelle le test fait rfrence

REGLE 1 : si lindicateur sur les valeurs observes est suprieur lindicateur sur
les valeurs thoriques on rejece H0
3. La probabilit du test nous renseigne sur le risque de se tromper en acceptant le rsultat du test
(moins la dirence entre valeur observ et valeur thorique est grande plus le risque de se
tromper saccrot).

REGLE 2 : si la p-value est < 0,05 (seuil alpha) on peut accepter le rsultat du
test sans risque. Acen&on la p-value est calcule pour le cas o on rejece tort
H0. Le risque de laccepter tort est donc de (1-p-value)
Test de Jarque-Bera (DP GROUPE 3) :
JB (Valeur observe) 34,108
(Valeur critique) 5,991
JB
DDL
2

p- value
< 0,0001
alpha
0,05

Test de Jarque-Bera (DP GROUPE

Rejet de HO avec
un risque
derreur de 2,5%

Accepta*on de
H0 avec un risque
derreur de
(1-0,850)%

JB (Valeur observe)
JB (Valeur c ritique)
DDL
p-value
alpha

0,324
5,991
2
0,850
0,05

Un pe&t entranement ?
1.

Sur une chelle de 1 20 vous mesurez la sa&sfac&on des touristes dun centre de vacances et ce pour
chaque CSP. Commentez chacune de ces distribu&ons en regard de leur normalit

CSP 1
CSP 2
CSP 3
CSP 4

Coe dapla&ssement
0,04
-0,005
0,8
1,9

Coe dasymtrie
-0,002
1,1
-0,6
-1,56


2, Une chane de magasin de luxe vous demande de cibler les districts dans lesquels elle pourrait simplanter.
Pour ce faire vous tudiez la distribu&on des revenus dans chaque quar&er, et iden&er vos cibles dans les
distribu&ons

Pla;kur;que et symtrique
Leptokur;que et asymtrique concentre gauche
Msokur;que et asymtrique concentre droite
Leptokur;que et symtrique
Leptokur;que et asymtrique concentre droite

3. En u&lisant le chier test de donnes JD2- et XLSTAT prsentez les sta&s&ques descrip&ves des variables de la
srie sta&s&que.

ETAPE 4. LANALYSE BIVARIE : ESTIMATION DES MODLES.


Lanalyse bi-varie permet de traiter la ques*on de recherche que vous avez choisi au
dbut de votre travail. Ce traitement consiste valider ou non les hypothses construites
sur la base des rela*ons de votre modle. Le graphe du modle (voir exemple ci-dessous)
peut tre exprim par une rela*on mathma*que dont la forme fonc*onnelle doit tre
pralablement spcie. Cela fait, il convient des*mer les paramtres du modle pour
rpondre aux hypothses. Les modles servent PREDIRE des valeurs thoriques de V1.

V = + .V + V + V
1

Le travail de ceYe tape se dcompose en 4 temps :


- Spcica&on de la forme fonc&onnelle
- Choix de la mthode des&ma&on
- Es&ma&on des rsultats
- Commentaires des rsultats.

Mais avant
pourquoi es*mer
une rela*on
mathma*que ?

Quesprons nous dune rela&on mathma&que ?


Sur la base des valeurs observes des variables, le modle gnre une rela&on
mathma&que entre les variables explica*ves ou exognes (V2, V3) et la variable
explique ou endogne (V1) selon la forme fonc*onnelle choisie.
Les&ma&on de cece rela&on mathma&que apporte trois types dinforma&on qui
permecront de traiter les ques&ons de recherche.

Es&ma&on des paramtres (i) de la rela*on mathma*que qui dcrivent les impacts de

chaque variable exogne sur lendogne : on sintresse au signe (posi*f, nga*f, nul) la

valeur (leve ou faible) voire aux dirences dinuence entre les variables explica*ves

(en comparant les es*ma*ons standardises des paramtres


Evalua&on de lexplica&vit du modle (R) cest--dire dans quelle mesure les

uctua*ons de lendogne V1 sont expliques par celles des exognes (V2, V3) : on

sintresse la valeur du coecient de dtermina*on (R ou sa valeur ajuste note Raj)


Evalua&on de la signica&vit du modle cest--dire valuer la robustesse densemble

du modle (probabilit de Fisher) ou par variables explica*ves (probabilit de Student). La
probabilit de Fisher nous indique si le modle prsente un intrt pour lexplica*on des

mouvements de V1, ou si V1 est toujours sensiblement gale sa moyenne (autrement

dit, les variables explica*ves prises globalement nont aucun impact signica*f sur V1). La

probabilit de Student (donne variable par variable) nous indique si une variable

explica*ve prise isolment a un impact signica*f sur la variable endogne.

1. Spcica&on de la forme fonc&onnelle

La forme fonc*onnelle est la manire dont on crit lqua*on qui caractrise le modle.
Deux grandes familles fonc*onnelles peuvent tre gnres : linaire ou non linaire. A
lintrieur de chaque famille des formes spciques peuvent tre choisies selon la forme
des rela*ons entre variables exognes et endogne. Le choix de la forme fonc*onnelle
condi*onne les commentaires des rsultats
Forme NON linaire

Forme linaire
(Les fonc&ons sont pr-

programmes sous XLSTAT)

En niveau, V = + .V + V +

Ici une augmenta;on dune unit de V2
Exponen&elle
conduit une augmenta;on de V1 dune

valeur de 1



Semi log lnV = + .V + V +
Logarithmique

une augmenta;on dune unit de V2 conduit
une augmenta;on en pourcentage de V1

1
dune valeur de 100 fois



Polynomiale

Log-log lnV = ln + . lnV + lnV +

Ici 1 reprsente llas;cit de V1 par

rapport V2. Dans ce cas, lorsque V2
augmente de 1%, alors V1 varie de 1 %



BOX COX dans laquelle chaque variable x subit


une transforma*on BOX
COX et devient x en

tenant compte dun paramtre . =

1/
1

Comment choisir sa forme linaire ?


Gnralement on u*lise une forme fonc*onnelle en niveau, mais en conomie et en ges*on
les formes log-log sont, juste *tre, trs u*lises parce que les paramtres peuvent tre
comments comme des las*cits. Lintrt des formes semi-log ou log-log provient des
dirences dchelle qui peuvent apparatre entre les variables. Par exemple la variable
endogne varie entre 1 et 10 000 alors que les variables exognes varient entre 1 et 10. On a
alors intrt transformer la variable endogne en log de sorte quendogne et exognes
varient dans le mme intervalle. Les rsultats du modle nen seront que meilleurs !!!
Comment choisir sa forme non linaire ?
Le choix des rela*ons non linaires se fait en fonc*on de la forme du nuage de
points. Il faut donc commencer par une rgression linaire puis observer le nuage.
Trois cas de gure apparaisse gnralement :





Polynomiale: applicable
dans tous les
privilgier)
cas (donc
(forme en U, e n U invers, en N)
La fonc;on scrit
Exponen*elle (exp) :
Logarithmique (ln)

2
k
f(x) = a0+a1.x+a2.x +ak.x
Croissance taux
Croissance taux

Le degr du polynome k correspond au
croissant
dcroissant
nombre de retournements
+1 (ici 3)

2. Le choix des mthodes des&ma&on


Ce choix dpend de la nature (quan*ta*ves ou qualita*ves) des variables endogne et
exognes et du nombre (une ou plusieurs) de variables explica*ves. Ce choix sopre
par*r du tableau suivant.
Variable explique








Variable(s)
explica*ve(s)

Quan.ta.ve

Qualita.ve

1 variable
Quan.ta.ve

Rgression simple
(linaire ou non
linaire)
1

Rgression
logis*que

Plusieurs
quan.ta.ves

Rgression mul*ple
2

1 variable
qualita.ve
Plusieurs
qualita.ves
1 ou plusieurs
quan.ta.ves et
qualita.ves

Rgression
logis*que

ANOVA (analyse de Test du khi-deux ou
rgression log
variance)
7
3

ANOVA
Rgression
4
logis*que

ANCOVA (analyse
de covariance)
Rgression
logis*que
5

Message FLASH
Chaque mthode vous est prsente sur les slides suivants. Pour
chacune vous trouverez :
le graphe type du modle que vous es*mez ainsi que son criture
mathma&que (vous pouvez copier et insrer directement ces
gures dans vos documents de travail)
la procdure de mise en uvre sous XLSTAT (en bleu) et une
vido de capture dcrans prsentant ceYe procdure.
Les principaux rsultats de chaque mthode et les interprta&ons
types de ces rsultats (en vert).
Les condi&ons spciques du&lisa&on de ces procdures.
ATTENTION pour toutes les mthodes u&lises lchan&llon doit tre
reprsenta&f, les variables bien mesures et surtout le nombre
dobserva&ons (individus) bien suprieur au nombre de variables.

1a. Rgression linaire simple


C1

XLSTAT
Modlisa*on des
donnes
Rgression linaire
Dans la fentre
(slec*on des
donnes endognes
Y, slec*on des
donnes exognes X
en slec*onnant la
colonne de la
variable)
OK

V1

Vido 4

V = + .V
1

Les rsultats commenter :


-La valeur du R : reprsentant
le % des uctua*ons de V1 qui
sont expliques par V2
- La valeur de la probabilit de
FISHER (pour que le modle
soit globalement signica*f la
probabilit de Fisher doit tre
infrieure 0,05)
-Les paramtres de lqua*on
(0, 1) dont on commente le
signe, la valeur brute et la
valeur standardise (ou
normalise)
-Le graphique du nuage de
points

V2

C2

Condi&ons dapplica&on
Lesprance math-
ma*que (ou moyenne) de
lerreur est nulle [E()=0]
La variance de lerreur
est constante (on parle
alors de
lhomoscdas*cit du
modle, dans le cas
contraire
dhtroscdas*cit)
[E()=]
Lerreur est
indpendante de la
variable explica*ve
[cov(x,)=0]
Lerreur suit une loi
normale

propos des condi&ons du&lisa&on de la rgression simple : vrica&on des condi&ons


La vrica&on des condi&ons dapplica&on
de la rgression simple en pra*que est
simple
1. On vrie la normalit ou quasi
normalit des rsidus ce qui permet de
traiter les deux premires condi&ons.
A par*r de la srie des rsidus on
eectue un test de normalit. A dfaut
(si la normalit nest pas vrie) on
peut jus*er lu*lisa*on des MCO si les
rsidus sont quasi normaux (Skweness
et Kurtosis sont dans lintervalle [-1,5 ;
1,5]).
2. On vrie labsence de dpendance
entre lerreur et la variable observe
pour la dernire condi*on en se servant
du dernier graphique des rsultats
rsidus normaliss / observa*on . Si
les valeurs se rpar*ssent de faon
chao*que (cf gure ci-aprs), il ny a

pas de problme de dpendance. A


linverse si une structure rgulire
apparat, la condi*on nest pas
remplie). Le viol des hypothses a lieu
lorsque les erreurs sont lies aux
valeurs observes





propos des condi&ons du&lisa&on de la rgression simple : origine et contrle du


problme

1. La non normalit des rsidus : en gnral elle provient dune mauvaise
spcica*on du modle en dautres termes les variables explica*ves choisies
sont en nombre insusant ou sont mal choisies. Ce nest pas une bonne
nouvelle parce quil faut renquter. Aussi vrier durgence la quasi
normalit des rsidus. Sinon, il faudra u*liser des mthodes plus
sophis*ques (cf. Moindres carrs gnraliss)
2. Lautocorrla&on entre observa&on et rsidus apparat lorsque les nuages de
point ont des formes en cnes (cf. gure cidessous) ou lorsque la srie est
chronologique. Dans le premier cas il sut souvent de changer la forme
fonc*onnelle en passant les variables en log pour craser le nuage. Dans le
second cas lu*lisa*on des MCO est impossible (cf. mthode des*ma*on des
sries temporelle de BOX et JENKINS)

Vido 5

1.b Rgression non


linaire simple
C1

Su*lise lorsque le nuage de points na pas une forme oblongue


(cas des formes de type exponen*el, logarithmique, polynomial)
V1

XLSTAT
Modlisa*on des donnes
Rgression non linaire
Dans la fentre (slec*on des
donnes endognes Y,
slec*on des donnes
exognes X en slec*onnant
les colonnes des variables)
dans longlet fonc*on
(slec*on dune forme
fonc*onnelle la polynomiale
est la premire de la liste, en
ce cas prciser le degr du
polynome-)
OK

= f (V 2) +

V2

Les rsultats commenter :


-La valeur du R : reprsentant
le % des uctua*ons de V1 qui
sont expliques par V2
- La valeur de la probabilit de
FISHER (pour que le modle
soit globalement signica*f la
probabilit de Fisher doit tre
infrieure 0,05)
-Les paramtres de lqua*on
(pr0, pr1, )
-Le graphique du nuage de
points

C2

Condi*ons
iden*ques
celle de la
rgression
linaire

Vido 6

2.a. Rgression mul&ple


V = + .V + V + V
1

C1

XLSTAT
Modlisa*on des
donnes
Rgression linaire
Dans la fentre
(slec*on des
donnes endognes
Y, slec*on des
donnes exognes X
en slec*onnant les
colonnes des
variables)
OK

V1
Les rsultats commenter :
-La valeur du R : reprsentant le % des
uctua*ons de V1 qui sont expliques
par V2, V3, et V4
- La valeur de la probabilit de FISHER
(pour que le modle soit globalement
signica*f la probabilit de Fisher doit
tre infrieure 0,05)
- La valeur de la probabilit de Student
associe chaque variable. Si la proba
est >0,05 le coecient associ la
variable nest pas signica*vement
dirent de 0 et la variable exogne
na pas dimpact sur V1
- Les paramtres (0, 1,)

V2

C2

V3

C3

V4

C4

Condi*ons
du*lisa*on de la
rgression linaire
(+)
Condi*ons spciques
sur les degrs de
libert, sur la
mul&colinarit et sur
le risque
dendognit

La slec&on automa&que des variables : Les logiciels dont XLSTAT peuvent gnrer automa*quement une slec*on
des variables ayant un impact signica*f en liminant les variables dont les paramtres ne sont pas signica*vement
dirent de 0. Pour ce faire on choisit dans XLSTAT en op*on slec*on de modle et une mthode descendante.

Les condi&ons spciques la rgression mul&ple


Le problme des degrs de libert : Le nombre de variables ne peut excder le nombre
dobserva&ons. Si tel est le cas on peut u*liser des procdures danalyse mul*varie (ACP,
AF, ACM) pour synth*ser les variables en un nombre rduit de dimensions.
Le problme de la mul&colinarit : Les variables explica*ves peuvent tre corrles
entre elles ce qui accrot ar*ciellement lexplica*vit du modle (R). Pour vrier
lexistence dune mul*colinarit, on u*lise le seuil de tolrance donn pour chaque
variable. Une variable dont le seuil de tolrance est suprieur 0,4 (ou 0,3) doit tre
limine (on peut aussi u*liser un autre indicateur appel ina*on factor (VIF)). En
eet, linforma*on que ceYe variable apporte est dj contenue dans une autre variable.
Acen&on liminez dabord les variables qui sont les moins essen&elles votre modle.
Le risque dendognit : li des omissions ou des erreurs de mesure des variables, et
surtout la simultanit des variables (liaison circulaire entre une exogne et lendogne
ex : prix / surface pour lhabitat-). Elle rend impossible lu*lisa*on des MCO (viola*on de
la premire hypothse). On applique la mthode des doubles MCO.

Le traitement de lendognit (slide 40)
Lexistence de variables explica&ves modratrices et mdiatrices : Comme nous lavons
vu certaines variables explica*ves peuvent avoir des statuts par*culiers. Leur
iden*ca*on et leur traitement donnent lieu des approches spciques.

Le traitement des modratrices et des mdiatrices (slide 41/42)

Le traitement de lendognit

La rsolu&on du risque dendognit par la mthode des doubles moindres


carrs
* On part dune rela*on ini*ale appele qua&on dintrt dans laquelle
apparat un risque dendognit V 1 = 0 + 1 .V 2 + 2V 3 + en supposant ici
que V2 et V1 soient simultanes.
* On remplace alors V2 par une variable instrumentale (Z) qui la remplace et
on forme une qua&on dinstrumentalisa&on V
2 =
0 +
1 . Z
+
2 V
3 +
Par principe Z est fortement corrle V2 et orthogonal V1 (en dautres termes
Z ne doit pas tre li naturellement V1).

On procde en 3 tapes pour vrier lendognit :
-Es*ma*on de lqua*on dinstrumentalisa*on par MCO et on re*ent les rsidus
de lqua*on

-On inclut le rsidu
dans lqua*on dintrt comme une nouvelle variable et
on es*me le modle
-On teste la signica*vit du paramtre associ au rsidu. Si le paramtre est
signica*vement dirent de 0 (probabilit de Student <0,05) alors V2 est bien
endogne.

On es&me le modle dni&f en remplaant V2 par V
2

Vido 7

Le traitement des variables modratrices

Une variable est dite modratrice lorsquelle renforce leet dune exogne sur
lendogne. Par exemple, lalcoolmie (V3) associe la vitesse (V2) accrot la gravit des
accidents de la route (V1). En dautres termes, le produit des variables (V2*V3) donne une
meilleure explica*vit et signica*vit que la seule variable V2 pour expliquer V1

Z =V2*V3
C1

C?

V1
V2

C2

Si Rz,v1 et plus lev que Rv2,v1 alors V3 est une variable modratrice de leet de V2
sur V1. Les commentaires de la rgression de Z sur V1 se commente comme une
rgression simple normale. Il ny a cependant plus de concept associ la variable Z.
CeYe mthode, bien que simple et intui*ve est souvent cri*que parce que la varia*on
du R est souvent faible. Il convient a minima de bien vrier que la variable
dinterac*on Z a bien un paramtre signica*vement dirent de 0. Dautres tests sont
plus per*nents mais plus complexes (voir Module PLS PM)

Vido 8

Le traitement des variables mdiatrices

Une variable est dite mdiatrice si elle est explica*ve de la rela*on entre V2 et V1. On parle de
mdia*on totale lorsque la rela*on entre V1 et V2 nexiste que par V3 et de mdia*on par*elle dans
le cas ou la rela*on entre V2 et V1 est moins forte que lorsque lon introduit V3.

C3

a
C1

V3

V1

b
V2

C2

c
Pour montrer que V3 est la mdiatrice de la rela*on entre V2 et V1 on calcule les rgressions
V1 = 0 + 1 V2
V3= 0 + 1 V2
V1 = 0 + 1 V2 + 2 V3
Les tant des coecients standardiss, on doit vrier
2 signica*vement dirent de 0 et 1 <1
Ou
1 nest pas signica*vement dirent de 0 et 1 est signica*vement dirent de 0

3 et 4
ANOVA

Vido 9
LANOVA permet de modliser limpact dune ou plusieurs variables qualita*ves sur une
variable quan*ta*ve. Le modle considre les modalits des variables qualita*ves
comme autant de variables

V = + .M
1

C1

V1

XLSTAT
Modlisa*on des
donnes
ANOVA
Dans la fentre
(slec*on des
donnes
endognes Y,
slec*on des
donnes exognes
X en slec*onnant
les colonnes des
variables)
OK

21

22

31

32

V2
(M21,M22)

C2

V3
(M31,M32)

C3

Les rsultats commenter :


-La valeur du R : reprsentant le % des
uctua*ons de V1 qui sont expliques par V2, V3
- La valeur de la probabilit de FISHER (pour que le
modle soit globalement signica*f la probabilit
de Fisher doit tre infrieure 0,05)
- La valeur de la probabilit de Student associe
chaque modalit (si la probabilit est >0,05 le
coecient associ la variable nest pas
signica*vement dirent de 0 et la modalit de la
variable exogne na pas dimpact sur V1)
-Les paramtres de lqua*on (0, 1,)

Condi&ons
du&lisa&on
iden&ques
celles de la
rgression
mul&ple

Vido 10

5. ANCOVA

LANCOVA permet de modliser limpact dune ou plusieurs variables


qualita*ves ET quan*ta*ves sur une variable quan*ta*ve.

V 1 = + .V 2 +
0

C1

M 21 +

M 22 +

V2
Quan*ta*ve

C2

V3
qualita*ve
(M31,M32)

C3

V1

XLSTAT
Modlisa*on des
donnes
ANCOVA
Dans la fentre
(slec*on des
donnes
endognes Y,
slec*on des
donnes exognes
X en slec*onnant
les colonnes des
variables)
OK

Les rsultats commenter sont iden*ques


ceux de la rgression mul*ple et de lANOVA
(explica*vit, signica*vit globale et par
paramtre). Il faut galement surveiller la
mul*colinarit.
De la mme manire que dans la rgression
mul*ple, on peut demander au logiciel de
slec*onner le meilleur modle (mthode
descendante)

Condi&ons
du&lisa&on
iden&ques
celles de la
rgression
mul&ple

6. Test du Khi-
deux de
con*ngence
C1

Vido 11
Le test du Khi deux permet de savoir sil existe une dpendance signica*ve
entre les modalits de deux variables qualita*ves. Son usage est rapide et
robuste mais ce test ne propose pas de modlisa*on du lien entre les 2 variables
(cf. rgression logis*que)

V1
Qualita*ve

XLSTAT
Prpara*on des
donnes
Crer un tableau de
con*ngence
Dans la fentre
(slec*on de la
variable en colonne et
de la variable en ligne
dans le tableau
En op*on : test du
khi-deux
OK

Tableau de
con*ngence

V2
Qualita*ve

C2

Les rsultats commenter sont produits dans le tableau



testKhi (Valeur observe)
130,530

Khi (Valeur cri*que)
92,808


DDL
72

p-value (alpha 0,05)
< 0,0001


Interprta&on du test :

H0 : Les lignes et les colonnes du tableau sont indpendantes.


Ha : Il existe un lien entre les lignes et les colonnes du tableau.
Etant donn que la p-value calcule est infrieure au niveau de signica*on
alpha=0,05, on doit rejeter l'hypothse nulle H0, et retenir l'hypothse
alterna*ve Ha. Le risque de rejeter l'hypothse nulle H0 alors qu'elle est vraie
est infrieur 0,01%.

Vido 12

7.
Rgression
logis*que
C1

La rgression logis*que est u*lise pour expliquer une variable qualita*ve (binomiale cad
prennant 2 modalits seulement M11,M12) par une ou plusieurs variables qualita*ves et/ou
quan*ta*ves. En ralit, la variable endogne est transforme en une probabilit suivant une
loi binomiale (n,p) et voluant dans lintervalle [0,1]. La probabilit de ralisa*on dune des
modalits de V1 est alors explique par les variables exognes. Toutefois ici, la fonc*on reliant
la probabilit aux variables explica*ves doit tre prcise. Nous nous limitons ici au modle
LOGIT (dautres peuvent tre u*liss : PROBIT, GOMPERTZ, LOG-LOG complmentaire)

V1
Qualita*ve
(binomiale)

XLSTAT

Modlisa*on des donnes


Rgression logis*que
Slec*on des donnes
endognes Y-dite variable
rponse-, slec*on des
donnes exognes X en
slec*onnant les colonnes
des variables quan*ta*ves et
qualita*ves)
Choix du modles
fonc*onnels de la probabilit
(LOGIT en gnral)
Slec*on possible du
meilleur modle (mthode
descendante)
OK

p=

exp( X )
1 + exp( X )

X est le vecteur des variables


explica*ves . La forme de la fonc*on est
celle du modle LOGIT

V2
Quan*ta*ve

C2

V3 qualita*ve
(M31,M32)

C3

Lexplica*vit se commente par*r du R de


McFADDEN complet dont lintervalle est le mme
que celui du R classique.
- La signica*vit se commente par*r de la
probabilit du Khi de -2Log(vraisemblance) selon le
mme principe que la probabilit de FISHER.
- La signica*vit des paramtre se commente
par*r des probabilits du Khi associes aux
paramtres selon le mme principe que les
probabilits de STUDENT.
- Si sur la courbe ROC la fonc*on suit la bissectrice
le choix de LOGIT ou PROBIT est jus*, si la courbe
est colle en haut (LogLogComplmentaire) en bas
(Gompertz)

Condi*ons
dapplica*on
iden*ques la
rgressions
mul*ple

Comment prsenter cece tape dans son travail



1. Spcier et jus*er la forme fonc*onnelle de votre modle (le modle
mathma*que de votre rela*on dcrit le graphe que vous avez choisi et
prsenter dans la par*e prcdente).
2. Prsenter et jus*er le choix de la mthode du*lisa*on (en fonc*on de la
nature et du nombre des variables)
3. Vrier les condi*ons du*lisa*on de la mthode
4. Prsenter les rsultats sous forme de tableau: par exemple
Ln Nombre Assujebs
(R=0,837, Raj=0,808, Pr Fisher<0,0001)
Valeur des paramtres
Tolrance
Constante
-34,959***
Ln capacit htel
1,057***
0,526
Ln nombre dheures de soleil dans lanne
2,717**
0,489
Ln PIB par habitant
1,372*
0,527
Ln Proximit montagne
-0,674*
0,562
Ln Rsidences secondaires
-0,424***
0,621
*** probabilit de Student infrieure 0.001 ; ** infrieure 0.01 ; * infrieure 0.05
Rsultats des&ma&on de la rgression
mul&ple

5. Commenter les rsultats par&r des hypothses ou proposi&ons

Message FLASH
Revenons en arrire pour bien comprendre o nous en sommes. Sur le slide 4 nous
avons dni lhypothse (ou la proposi*on) et prcis quelle pouvait avoir trois
fonc*ons
Spcier le lien entre deux variables en prcisant les caractris&ques de ce lien
Comparer deux modles en terme dexplica&vit (R) du phnomne tudi
Comparer deux groupes dindividus en regard du phnomne tudi
Les deux premires fonc*ons de lhypothse peuvent tre traites par la par*e
prcdente. En revanche la dernire fonc*on est encore incomplte. Pour raliser
ceYe dernire deux tapes doivent tre accomplies
1. On cherche savoir si les distribu*ons de lendogne (du phnomne tudi) sont
signica*vement direntes dun groupe lautre. Par exemple la distribu*on du
revenu des hommes est signica*vement dirente de la distribu*on du revenu des
femmes.
2. On cherche ensuite savoir quels sont les dterminants de ceYe distribu*on dans
les deux groupes et si ces dterminants sont dirents dun groupe lautre.
Si ltape 2 peut tre traite grce lanalyse bivarie que nous venons de voir,
ltape 1 ncessite lu&lisa&on de mthodes par&culires (tests paramtriques, tests
non paramtriques) permecant la comparaison de groupes. Cest ces mthodes
que renvoie la par*e suivante.

ETAPE 5. LA COMPARAISON DE GROUPES

Vido 13 et 14

Objec&f : Il sagit de savoir sil existe une dirence signica*ve en regard dune variable
quan&ta&ve entre 2 groupes dont les eec*fs (sans tre ncessairement gaux) sont substan*els
(environ 30 chacun). Ainsi il est possible de comparer la situa*on dun sous chan*llon par rapport
un autre, ou un chan*llon avant et aprs un vnement.
Les chan*llons sont compars sur la base de leurs paramtres : moyenne, variance, mdiane

Le choix entre 2 mthodes : Si les sous chan*llons sont signica*vement dirents alors leurs
moyennes et leur variances sont signica*vement direntes. TOUTEFOIS, la comparaison des sous
chan*llons ne peut se faire sur la base de ces paramtres (tests paramtriques) que si les
distribu*ons de la variable sont NORMALES dans chaque sous chan*llon. En labsence de Normalit
des distribu&ons deux solu&ons se prsentent :
1. On transforme les variables (log, box cox) en esprant r acqurir une normalit des distribu*ons
et pouvoir meYre en uvre des tests paramtriques dont on sait quils sont par*culirement
ecaces (robuste)
2. On u*lise des tests non paramtriques.

La marche suivre pour la comparaison de groupe


Prpara*on des donnes : crer un tableau avec en premire colonne la variable de
tri des groupes (SEXE, CSP) et en seconde colonne la variable observe (Revenu,
produc*vit.) Slec*on DES deux colonnes et procder un tri croissant
Test de Normalit de la variable observe sur
chaque sous chan*llon
Non normalit
dau moins un
chan*llon

Normalit des
chan*llons
Tests paramtriques
Test de
comparaison
des moyennes :
Test de Student

Test de
comparaison
des Variances
Test de Fisher

Transform
a*on de
variables
(en log ou
transforma
*on Box
Cox avec
op*mis)

Tests non paramtriques


Si les 2 groupes con*ennent les
mmes individus (test de
Wilcoxon). Sinon test de Mann et
Whitney
Si on souhaite comparer plus de
2 groupes (test de Kruskal et
Wallis)

Test de Normalit de la variable observe sur


chaque sous chan*llon

Les dirents tests mis en uvre sur XLSTAT


Les tests de normalit : Ils permeYent de savoir si la distribu*on de la variable est signica*vement
dirente dune distribu*on normale. Dans XLSTAT choisir descrip*on des donnes , puis test
de normalit slec*onner les modalits de la variable pour un groupe puis le test sta*s*que. Le
test de JARQUE BERRA est le plus couramment u*lis.
Le test paramtrique de comparaison des moyennes (ou test de Student) : Dans XLSTAT choisir
test paramtrique puis tests t et z pour 2 chan&llons , puis slec&onner les modalits de la
variable pour chaque groupe. Le test de Student permet daccepter ou de rejeter lhypothse H0
dgalit entre les moyennes des sous chan*llons (m1-m2=0). Note : on u*lise le test t lorsque la
vraie variance est inconnue (ce qui est gnralement le cas si on travaille sur un chan*llon et non
une popula*on) et z lorsque la vraie variance est connue.
Le test paramtrique de comparaison des variances (ou test de FISHER) : Dans XLSTAT choisir
test paramtrique puis tests de comparaison de deux chan&llons , puis slec&onner les
modalits de la variable pour chaque groupe. Le test de Fisher permet daccepter ou de rejeter
lhypothse H0 dgalit entre les variances des sous chan*llons (VAR1/VAR2=1). Note : le test
de Fisher peut tre u*lis pour comparer plus de deux chan*llons ; dans ce cas choisir test de
comparaison de k chan&llons
Les tests non paramtriques : Dans XLSTAT choisir tests non paramtriques . Si lon cherche
comparer 2 groupes, choisir comparaison de deux chan&llons puis le test de Wilcoxon si
les sous chan*llons sont cons*tus des mme individus ou le test de Mann et Whitney si les
individus des deux chan*llons sont dirents. Reste alors slec&onner les modalits de
chaque groupe. Si lon souhaite slec*onner plus de 2 groupes, choisir dans tests non
paramtriques, comparaison de k chan&llons puis le test de Friedman si les chan*llons sont
cons*tus des mmes individus ou le test de Kruskal et Wallis sinon

La transforma&on des variables sur XLSTAT


Pourquoi cherche-t-on transformer les variables lorsque leur distribu&on ne sont pas
normales ? Cest un choix. Dun cot, certains analystes (notamment les nanciers) ont plus
conance dans les tests paramtriques que dans les tests non paramtriques, rfrant travailler sur
des donnes transformes jusqu ce que les distribu*ons deviennent normales quiYe sloigner
des donnes dorigine. Dautres analystes ne conoivent pas de travailler sur des variables
modies et prfrent u*liser des tests non paramtriques, mme sils sont rputs moins
performants.
La transforma&on logarithmique des donnes : En crasant les valeurs, ceYe transforma*on des
donnes sut souvent obtenir la normalit sans trop dformer les donnes dorigine. Sous Excel,
crer une colonne cot des donnes transformer, aller dans formules puis insrer une
fonc&on et choisir ln . Slec*onnez en cliquant sur la premire cellule de la colonne des
donnes dorigine puis *rez le rsultat pour obtenir toutes les valeurs ln de la colonne. Noubliez
pas de vrier la normalit de la distribu*on transforme (cf. test de Jarque Berra)
La transforma&on de BOX COX : Trs u*lise en nance, elle produit une transforma*on assez
radicale des donnes. Techniquement

1
x
x
si > 0

Pour =0 limage de la fonc*on est ln(x)


Dans XLSTAT choisir Prpara&on des donnes puis transforma&on des donnes, puis pour
ac*ver longlet transforma&on , puis transforma&on Box Cox avec op&mis .

Comment prsenter cece tape dans son travail


1. Comparer la distribu*on des endognes (quan*ta*ves) dans


chaque groupe en expliquant le choix des tests
(paramtriques versus non paramtriques) ventuellement
la transforma*on des variables. Prsenter les tableaux de
rsultats des tests (test de normalit, tests paramtriques
ou tests non paramtriques). Commenter les rsultats.
2. Vous pouvez alors revenir ltape danalyse bivarie en
es*mant un modle pour chaque groupe et en vriant si
les paramtres sont dirents dun groupe lautre.

Message FLASH
Les mthodes de traitement des traitement des
donnes exposes jusquici nous permeYent de traiter
la plupart des hypothses types. Cependant nous
devons encore discuter des mthodes dites
mul*varies qui sont u*lises en ralit en pralable
au traitement. Elles interviennent pour :
- segmenter une popula*on (en vue de dvelopper un
modle par segment)
- Crer des construits (cest--dire des chelles de
mesure) qui seront considrs comme des variables
dans les modles.
- Synth*ser les variables explica*ves lorsque celle-ci
sont en trop grands nombre dans le modle.

ETAPE 6. ANALYSE MULTIDIMENSIONNELLE OU MULTIVARIE


Le principe : il existe peut tre un angle de vue sur le nuage de points qui ore une meilleure lecture
des dirences entre les individus et res&tue ainsi lessen&el de linforma&on contenue dans lenqute
X2

X2

X1
X3
F1

F2
X3

X1

Nuage de points vu de face

Sous cet angle les individus sont tous pareils. Leur


projec*on sur le trait rouge forme un amas
Ou encore : la dispersion des projec*ons orthogo-
nales des points montre une faible dispersion.

Nuage de points vu de cot

Sous cet angle les individus apparaissent en trois groupes


bien dis*ncts comme le montre leur projec*on
Ou encore : la dispersion des projec*ons orthogonales des
points montre une forte dispersion.

Il existe un angle de vue du nuage, matrialis par un vecteur (trait rouge) permeYant de saisir
lessen*el des dirences entre les individus (les projec&ons orthogonales des individus sur ce vecteur
ore la plus grande dispersion). On peut donc subs*tuer ce vecteur aux variables dorigine pour
synth*ser la lecture du nuage et simultanment obtenir une segmenta*on des individus. Cece
mthode permet de rduire le nombre de variables et de faire apparaitre des groupes

Objec&fs des analyses mul&varies


Synth*ser en quelques dimensions (ou variables latentes ou facteurs, ou axes, ou construits) un
grand nombre de variables qui permeYront den faciliter la lecture.
Posi&onner les individus sur ces axes an de reprer lexistence de groupes au prol homogne
(segmenta*on).
Crer des chelles de mesure de certains phnomnes complexes par*r de plusieurs variables
Les direntes mthodes danalyse mul&varie : comment choisir la mthode approprie ?

Types de variables de la base de donnes


Variables
quan*ta*ves

Analyse
factorielle
(AF)

Analyse en
composantes
principales
(ACP)

Variables quan*ta*ves
et quan*ta*ves
Analyse
factorielle
discriminante
(AFD)

Variables
qualita*ves

Analyse des
correspondances
mul&ples (ACM)

AF et ACP : Les deux mthodes donnent la plupart du temps les mmes rsultats. LACP cherche, en considrant toute la
dispersion des variables, et par*r dune mthode dextrac*on de composantes orthogonales, rduire les donnes.
LAF cherche en ne considrant que la dispersion commune entre les variables, et par*r dune mthode dextrac*on
des facteurs, dtecter une structure latente.

6.1 Lanalyse en composantes principales (ACP)

Vido 15

Le point de dpart : Linforma&on sta&s&que est contenue dans la dirence entre les individus cest-
-dire leur dispersion. En eet seule compte la dirence entre les rponses des individus ou, en
dautres termes, un ques*onnaire dans lequel tout les individus donnent la mme rponse napporte
aucune informa*on per*nente. La logique de lACP consiste alors choisir un nombre rduit (infrieur
au nombre de variables) daxes indpendants permeYant de res*tuer le maximum de linforma*on
contenue dans le rsultat de lenqute.
La mthode
1. A rechercher laxe ou facteur (cest--dire la
combinaison linaire des variables ini&ales) sur
lequel les projec&ons orthogonales des points du
nuage prsentent la variance maximale. Ainsi
laxe est un point de vue sur le nuage de points
res&tuant une par&e importante de linforma&on
( = v a r i a n c e = i n e r & e ) c o n t e n u e d a n s l e
ques&onnaire.
2. A rechercher un deuxime axe orthogonal
(donc indpendant) au premier, passant par le
barycentre du nuage et prsentant la plus grande
variance des projec&ons orthogonales des points
(aprs le premier axe videmment.
Le processus con&nue jusquau dernier axe
orthogonal. Il existe toujours autant daxes
orthogonaux que de dimensions du nuage cest--
dire de variables ini&ales.

Mise en uvre de lACP sous XLSTAT


Choisir analyse des donnes puis analyse en composantes principales . Dans la fentre, slec&onner
lensemble de vos colonnes de variables (sauf la colonne de numrota*on des individus qui est slec*onne dans
le bandeau libell des observa*ons). Le type dACP est celui de PEARSON. Enn en op*on on dispose de la
fonc*onnalit Rota&on de type varimax qui permet dobtenir une lecture plus facile des rsultats.
les axes retenus (si lon retient 3 axes le % de
variance restitue est de 63%)

Le choix dune ACP est-il pertinent ?


Lindicateur de KEISER, MEYER, OLKIN (dit KMO)
permet de rpondre cette question. En de
de 0,8 la mthode peut tre considre comme
douteuse.
Combien daxes doit-on retenir dans lACP ?
Il existe plusieurs mthodes pour rpondre ceYe
ques*on. La mthode graphique dite mthode
du coude. On trace une ligne le long des
sommets du scree plot et on repre le point
dinflexion. On retient seulement les axes situs
gauche du point (ici, seul le facteur F1 est
retenu). Sil y a deux points dinflexion (ce qui
arrive parfois) on retiendra les facteurs
gauche du second.
Ou partir du tableau situ au dessus du
graphique, on retient seulement les facteurs
dont la valeur propre est suprieure 1 (ici
F1 et F2, peut tre F3 compte tenu de sa
proximit). La dernire ligne du tableau donne
alors le total de la variance initiale restitue par

Mesure de prcision de l'chan*llonnage de Kaiser-Meyer-Olkin :


Sa*sfac*on
0,546
Age
0,698
Dure du sjour
0,744
Dpense totale
0,811
Dpense hbergement
0,805
Dpense alimenta*on
0,798
Dpense restaurant
0,769
Dpense loisirs
0,842
Scree plot
KMO
0,800
3,5

100

80

2,5
2

60

1,5

40

1
20

0,5
0

Variabilit cumule (%)

Valeur propre

Commentaires des rsultats


importants

0
F1

F2

F3

F4

F5

F6

F7

F8

axe

F1

F2

F3

F4

F5

F6

F7

F8

2,970

1,117

0,953

0,861

0,778

0,521

0,409

0,391

Variabilit (%)

37,123 13,968 11,918 10,758

9,728

6,509

5,107

4,888

% cumul

37,123 51,091 63,009 73,767 83,495 90,005 95,112 100,000

Valeur propre

Que reprsentent les axes retenus ?


Pour savoir ce que signient les axes, il faut
considrer le tableau des corrla&ons entre
les variables et les facteurs ou le graphique
ci-dessous. On considre quune variable
par&cipe la dni&on dun facteur (on dit
quelle sature sur cet axe) si la corrla&on est
suprieure 0,4 en valeur absolue (la
corrla&on pouvant tre posi&ve ou nga&ve).
Les variables qui saturent sur deux axes
simultanment avec un cart de corrla&on
infrieur 0,2 points et les variables qui ne
saturent pas doivent tre limines. On
relance alors la procdure sur les seules
variables retenues. Peu peu les rsultats
deviennent plus clairs. La reprsenta&on
graphique reprend les rsultats du tableau. On
observe ici que le facteur 1 combine
lensemble des dpenses et on peut le
nommer dpense . La proximit des points
reprsentant les variables de dpense signie
que celles-ci sont posi&vement corrles entre
elles. Le facteur 2 est dni posi&vement par

lge et nga&vement par la sa&sfac&on et la


dure du sjour. Lge est donc corrl
nga&vement la sa&sfac&on et la dure du
sjour. On pourrait nommer cet axe
insa&sfac&on mais on prfre toujours
avoir des corrla&ons posi&ves (dans ce cas il
faut inverser la variable)
Corrla*ons entre les variables et les
facteurs :

F1
-0,124
0,206
0,346
0,822
0,786
0,713
0,658
0,747

Sa*sfac*on
Age
Dure du sjour
Dpense totale
Dpense hbergement
Dpense alimenta*on
Dpense restaurant
Dpense loisirs

F2
-0,618
0,696
-0,458
-0,087
0,102
-0,108
0,086
-0,068

F3
0,716
0,319
-0,541
0,109
0,070
0,136
-0,094
0,041

Variables (axes F1 et F2 : 51,09 %)

1
0,75

Age

0,5

F2 (13,97 %)

Le commentaire des rsultats


importants (suite)

0,25
Dpense
hbergement
restaurant
Dpense
Dpense
Dpense
loisirs
totale
alimentation

0
-0,25

Dure du
sjour

-0,5
Satisfaction
-0,75
-1
-1

-0,75

-0,5

-0,25

0,25

F1 (37,12 %)

0,5

0,75




Existe-t-il des prols types dindividu et peut les
dcrire ?
Le graphique de projec&on des individus sur le
plan (F1,F2) permet dobserver dventuels
amas de points dcrivant lexistence de
groupe dindividu dont les comportements
lgard de F1 et F2 sont assez homognes. Ici
le facteur 1 est celui qui dis&ngue le mieux les
individus entre ceux dont la dpense est faible
et ceux dont la dpense est leve. Si lon a
pens entrer le numro des individus dans la
fentre de slec&on les numros des individus
apparaissent sur le graphiques
A quoi sert la rota&on varimax ?
Elle permet dexacerber les dirences entre les
individus et les variables pour faciliter la
lecture. On note que dsormais seul lge
dnit le facteur 2 (sa&sfac&on et dure ne
saturent plus). Et trois groupes dindividus
apparaissent dsormais dis&nctement. Cest
pour cece raison que la rota&on varimax (licle
ji) est trs gnralement u&lise.

Commentaire des rsultats


importants (suite)

Observations (axes F1 et F2 : 51,09 %)


3

37

2
38
43

F2 (13,97 %)

20

32
34
3146
41
26
3530
42
25
39
44 4745
36
27
49
40

-1

18
11
9 21
13
82 23
6
33
1
19 5 16
28
15
3
14
4
50
12
17
48

29
-2

22

24

10

-3
-4

-3

-2

-1

F1 (37,12 %)

Biplot (axes D1 et D2 : 47,23 %)


aprs rotation Varimax
4
3
37

D2 (13,15 %)

-1

Age
41
38
8
46
43
Dpense
31
23
913
2 Dpense
restaurant
26
18
39
Dpense
totale22
34
20 21
5Dpense
hbergement
24 loisirs
7Dpense
Satisfaction
Dure
du 12
sjour
11
32 50
63 alimentation
16
14
27
33
25
30
35
28
47
1 17
44
48
42
4
36
15

-2

2940
45 49

1
0

19

10

-3
-4

-3

-2

-1

D1 (34,08 %)

6.2. Lanalyse factorielle (AF)

Vido 16

Les spcicits de lAnalyse factorielle : contrairement lACP, lanalyse factorielle travaille


seulement sur les covariances entre les variables, et rend donc plutt compte de la
structure entre les variables quan*ta*ves du ques*onnaire. LAF sert souvent construire
des chelles de mesure (cf. psychomtrie) dans une dmarche exploratoire. Elle est donc
trs u*lise en marke*ng et en GRH.

La sor*e de rsultats de lanalyse factorielle est iden*que celle de lACP ceci


prs quelle fournit un indicateur supplmentaire : lalpha de Cronbach (
slec*onner dans longlet sor*e de la fentre consacre lAF).
Lindicateur de Cronbach permet de mesurer la cohrence dune dimension ou de
lchelle de mesure cons*tue par plusieurs dimensions (no*on de abilit de
lchelle). En outre, plus les variables (ou les items) sont corrles une
dimension, et plus les corrla*ons ont le mme signe, plus lalpha crot. Lalpha est
considr comme correct par*r de 0,7 et trs bon par*r de 0,9. Une dimension
qui nob*ent pas ce score doit tre remise en ques*on pour son appartenance
une chelle de mesure. Le retrait (une par une) des variables (ou items) saturant
peu sur les axes, permet dlever la valeur de lalpha, jusqu obtenir un rsultat
sa*sfaisant.

Lu*lisa*on de lanalyse factorielle


(exploratoire) pour la construc*on dchelle de
mesure
Lu*lisa*on de ceYe mthode ne pose pas de problme technique
cependant la per*nence des rsultats doit faire lobjet dune aYen*on
par*culire rela*vement la abilit de la mesure et sa validit.
Fiabilit : (Reliability) : la mesure doit tre able. Deux ou plusieurs
mesures dun mme concept sont cohrentes et le degr dagrment entre
les mesures est tabli.
Validit : (Construct Validity) : le disposi*f de recherche doit tre valide.
Cest lap;tude dune mesure es;mer avec exac;tude le construit quelle
est cense mesurer (Bagozzi, 1994a). Plusieurs types de valida*on peuvent
et doivent tre entrepris avant de prtendre a la valida*on d'un construit :
validit interne/externe/ de construit.
Le graphe suivant (ValeYe, 2011) reprend lensemble du chemin
parcourir pour vrier la qualit dune chelle de mesure.
Il va de soi, que le recours ceYe mthode parfois essen*elle dans
certains cas, ncessite de votre part un contact suivi avec votre directeur
de mmoire.

6.3. Lanalyse des correspondances mul*ples (ACM)

Vido 17

Lintrt de lAnalyse des Correspondances Mul&ples : Elle permet d'tudier l'associa*on entre au
moins deux variables qualita*ves. L'ACM est aux variables qualita*ves ce que l'Analyse en
Composantes Principales est aux variables quan*ta*ves. Elle permet en eet d'abou*r des cartes
de reprsenta*on sur lesquelles ont peut visuellement observer les proximits entre les catgories
des variables qualita*ves et les observa*ons.
LACM sous XLSTAT : Choisir analyse des donnes puis Analyse des correspondances
mul&ples . Dans la fentre, il sut de slec&onner lensemble des colonnes des variables
qualita&ves dans le bandeau tableau observa&ons/variables et la colonne des individus dans
le bandeau libells des observa&ons . Toutes les autres slec&ons sont acceptables par dfaut.

Principaux commentaires dune sor&e


dACM :
Combien de facteurs retenir ?
La mthode graphique (comme dans lACP)
permet par*r du scree plot de choisir le
nombre de facteurs. Ici il y a deux points
dinflexion on retient donc potentiellement
5 facteurs. Le tableau prsentant linertie
cumule montre que ces 5 dimensions
restituent 68,249% de linformation initiale
produite par lensemble des variables
qualitatives.

Scree plot
100

Valeur propre

0,025

80

0,02

60

0,015
40

0,01

20

0,005
0

Inertie ajuste (%)

0,03

0
F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13

axe


Iner*e
ajuste
Iner*e
ajuste
(%)
% cumul

F1

F2

F3

F4

F5

F6

0,028

0,018

0,009

0,008

0,006

0,003

27,837 17,763 8,994 7,693 5,962 2,516


27,837 45,600 54,594 62,287 68,249 70,766

Principaux commentaires dune sor&e


dACM (suite):
Que reprsente les axes ?

Ltude des contributions permet de connatre les


variables qui participent la dfinition des
axes. En pratique, une modalit dfinit un axe
si sa contribution est suprieure aux poids
relatifs de la modalit (affiche en deuxime
colonne) et si son cosinus carr est
suffisamment lev (pour viter les erreurs
dinterprtation dues des effets de
projection). On retient en gnral un premier
seuil de 0,4 pour les contributions et un
second de 0,2 pour les cosinus carr. Enfin, le
signe (positif ou ngatif) de limpact de la
modalit sur un axe est prsent dans le
tableau des coordonnes des variables.

Le positionnement des individus sur les


axes ou la recherche de segmentation ?

Si le nombre daxes retenus est de 2 ou 3, il est


possible de faire des commentaires
graphiques. En revanche lorsque le nombre
daxes excde 3 on doit analyser
lappartenance des individus des axes de la
mme manire que pour les individus

(contribution, poids relatif, cosinus carrs).


Poids Poids (rela*f) F1 F2 F3 F4
vue de la
ville
l'horizon-0
26
0,026 0,008 0,005 0,032 0,002
vue de la
ville
l'horizon-1
20
0,020 0,007 0,003 0,016 0,006
vue de la
ville
l'horizon-2
1
0,001 0,010 0,017 0,116 0,016

Cosinus
carrs
vue de la
ville
l'horizon-0
vue de la
ville
l'horizon-1
vue de la
ville
l'horizon-2
graYe-ciel/
haut
b*ments-0
graYe-ciel/
haut
b*ments-1

F1

F2

F3

F4

F5

0,081 0,041 0,204 0,011

0,170

0,051 0,017 0,081 0,028

0,158

0,043 0,065 0,342 0,045

0,003

0,004 0,005 0,141 0,005

0,163

0,004 0,005 0,141 0,005

0,163

F5
0,030
0,036
0,001

Graphique asymtrique des variables


(axes F1 et F2 : 45,60 %)
4
activits urbaines de
HAMBURG
jeunes adultes-2
divertissement-5

F2 (17,76 %)

2
magasins-1
age moyen-2
BELFAST sport-1
activits
d'extrieur en lieu urbain ou
BIRMINGHAM
BRUXELLES
activits
d'extrieur
enenfants-2
lieu
urbain(logo
ou
PARIS
VIENNE
LISBONE
MADRID
symbole
de
lanon-3
fiert
nationale
DUBLIN
activits
urbaines
de
activits
de ou
LEEDS
btiments
historiques-2
HELSINKI
VARSOVIE
BUCAREST
GLASGOW
seniors-2
OSLO
activits
d'extrieur
enurbaines
lieu
urbain
environnement
naturel-0
image
de
travailleurs
privs
publics-0
TALLIN
ZAGREB
ZURICH
vue
de
la
ville
non-1
l'horizon-0
ST
PETERSBOURG
ABERDEEN
places
du
patrimoine
du
pays/ville-1
activits
urbaines
de
seniors-0
enfants-0
ROME
infrastructures-2
symboles
du
gouvernement-0
VILNIUS
SOFIA
art
publique-0
RIGA
LEIPZIG
infrastructures-0
GENEVE
MILAN
SARAJEVO
COPENHAGUE
ANKARA
jeunes
adultes-0
PRAGUE
gratte-ciel/haut
btiments-0
jeunes
adultes-1
etc)-1
btiment
phare-1
places
ethniques/symbles-1
FRANKFURT
btiments
historiques-0
divertissement-1
parcs
d'attractons-0
places
ethniques/symbles-0
LONDRES
divertissement-4
btiment
phare-0
age
moyen-3
btiments
historiques-1
age
moyen-0
places
du
patrimoine
du
pays/ville-0
ISTANBUL
magasins-0
EDINBOURG
non-0
sport-0
symbole
de
lanaturel-1
fiert
nationale (logo
BUDAPEST
gratte-ciel/haut
btiments-1
STOCKHOLM
vue
de
la
ville

l'horizon-1
divertissement-0
AMSTERDAM
BARCELONE
symboles
du
gouvernement-1
environnement
ANTWERP
MOSCOU
infrastructures-1
age moyen-1
etc)-0
MUNICH
BRATISLAVA
art ATHENES
publique-1
LJUBLJANA

seniors-1
enfants-1
image de travailleurs privs publics-1
BERLIN
vue de la ville l'horizon-2

-2

activits urbaines de
divertissement-2
environnement naturel-2
activits d'extrieur en lieu urbain ou
non-2

-4

DUSSELDORF
jeunes adultes-3
-6
-10

-8

-6

-4

-2

F1 (27,84 %)
Variables

Observations

Souvent la reprsenta*on de lACM nest pas trs claire. On


aYend des groupes dindividus et on ob*ent des idaux-types

LACM permet la transforma&on des variables


qualita&ves en variables quan&ta&ves
LACM fournit un tableau appel Coordonnes des observa*ons
ou ventuellement coordonnes des observa*ons aprs rota*on
Varimax si vous avez choisi ceYe op*on. Dans ce tableau, gurent
les coordonnes des individus observs sur les dimensions
dgages par lACM. Ces coordonnes varient dans un intervalle de
manire con*nue et peuvent donc tre considres comme des
variables quan*ta*ves. La dispersion des individus qui tait
ini*alement mesure par des variables qualita*ves et donc
dsormais mesurable par des variables quan*ta*ves.
On peut donc exporter ces coordonnes dans le tableau ini*al et
les subs*tuer aux variables qualita*ves. Dsormais, toutes les
variables sont quan*ta*ves et lu*lisa*on dune analyse factorielle
ou dune ACP est possible pour dcrire lensemble des
informa*ons.
AYen*on cependant, loccasion de lACM nous avons perdu une
part de linforma*on contenue dans lenqute ini*ale.