Vous êtes sur la page 1sur 36

UNIVERSITE DE DOUALA

Facult des Sciences Economiques et de Gestion Applique


(FSEGA)
Dpartement des techniques quantitatives

Anne acadmique 2012/2013

COURS ANALYSE DES DONNEES

CF4 - ECOMO4 - FICO4 - MARKETING4

Par M. NANA YAKAM Andr
Email : nanayakam@gmail.com


Programme :

1. Mthodologie danalyse des donnes
2. Analyse univarie
3. Analyse bivarie
4. Analyse multivarie

Bibliographie :

Quest ce que lanalyse de donnes ? Jean-Pierre FENELON, dition LEFONEN
Initiation lanalyse des donnes, Jean de Lagarde, dition DUNOD
Analyse des donnes multidimensionnelles, Patrice Bertier & J M Bouroche,
Presses Universitaire de France
Statistique applique la gestion, Vincent GIARD, dition ECONOMICA
Analyse statistique des donnes : application et cas pour le marketing, H.
Fernneleau, dition Ellipses


2
CHAPITRE I :
METHODOLOGIE DANALYSE DES DONNEES

INTRODUCTION
Lanalyse de donnes est un processus dextraction des connaissances partir des donnes (ECD). Elle vise
dcrire, rsumer et interprter des phnomnes dont le caractre essentiel est la variabilit. Elle
fournit de la manire la plus rigoureuse possible des lments d'apprciation utiles l'explication ou la
prvision de ces phnomnes. Lanalyse des donnes fournit toutes les personnes confrontes
l'interprtation de rsultats d'observation ou d'exprimentation, un outil d'interprtation adapt aux
conditions particulires de leur domaine d'activit.
Avant de se lancer dans le processus danalyse des donnes, lanalyste doit avoir un problme bien dlimit
rsoudre. Il ne se lance pas dans lanalyse sans avoir une ide des objectifs de son opration et des moyens
informationnels et technologiques dont il dispose. Par exemple, il cherche des liens entre certains phnomnes.
Une fois le problme pos, la premire phase vise cibler, mme de faon grossire, lespace des donnes
qui va tre explor. Lanalyste dfinit de ce fait des zones de prospection, tant persuad que certaines rgions
seront probablement vite abandonnes si elles ne reclent aucun ou peu dintrt. Lacquisition met en uvre
des mthodes pour collecter les donnes potentiellement utiles selon le point de vue de lanalyste.
NB : La collecte des donnes est la phase la plus dterminante en analyse de donnes, car toute analyse,
aussi srieuse soit-elle, faite sur de donnes errones ou de mauvaise qualit est biaise davance et ne peut
aboutir qu des conclusions errones. Par ailleurs, Le processus dECD nest pas linaire car il arrive aussi que
lon revienne, aprs analyse, rechercher de nouvelles donnes.
A lissue de la phase de collecte de donnes, il convient de les nettoyer. Par exemple, si lune des variables
retenues savre peu ou mal renseigne, on peut ne pas la prendre en considration. On peut galement
explicitement chercher limiter le nombre denregistrements que lon souhaite traiter. On construit alors un
filtre idoine, comme un chantillonnage selon une procdure de tirage alatoire simple ou systmatique par
exemple.
Aprs cette phase de pr-traitement des donnes, lanalyste est, a priori, en possession dun stock de
donnes contenant potentiellement linformation ou la connaissance recherche. Cest en ce moment quil peut
commencer son analyse. Selon que lanalyse porte sur une, deux ou plus de deux variables, et en fonction de la
nature de ces variables, de nombreux outils statistiques sont la disposition de lanalyste pour rsoudre son
problme. Le schma suivant rsume la mthodologie danalyse des donnes ainsi que les outils qui seront
dvelopps dans ce cours.

3























ORIGINE ET METHODES DE COLLECTE DES DONNEES

1. ORIGINE

Les donnes utilises en statistiques peuvent provenir dun recensement, dune enqute statistique, des
donnes administratives ou dun entrept de donnes dune organisation.
a) Recensement
Le recensement est une opration statistique dobservation exhaustive de tous les lments dune
population. Les donnes individuelles de tous les lments de la population sont prises en compte pour le
caractre tudi. Cest le cas par exemple des clients dune banque, des salaris dune entreprise,
b) Enqute statistique
Une enqute statistique est la collecte de donnes sur une partie ou la totalit des units d'une population
l'aide de concepts, de mthodes et de procdures bien dfinis. Le sondage en est lune de ces mthodes, qui
permet de construire un chantillon et qui ne prlve quune partie des informations existantes.
c) Donnes administratives
Les organismes et les Etats recueillent des donnes administratives dans le cadre de leurs activits
quotidiennes, ces donnes peuvent tre utilises titre de substitut pour une enqute par sondage ou pour
un recensement.
d) Entrept de donnes
Grce lvolution informatique, avec la fabrication des ordinateurs ayant des grandes capacits de
stockage, les entreprises, les institutions et les organisations conservent de nos jours, des quantits
importantes dinformation dans leurs bases de donnes. Ces entrepts de donnes renferment nen point
douter des informations dont la fouille par les techniques danalyse de donnes peut permettre dapporter
des rponses, mme aux questions les complexes que se poses ces organisations.

Remarque : Les sources potentielles peuvent tre regroupe en deux : Soit les donnes existent dj
quelque part et elles sont accessibles, au quel cas il faut aller sa recherche, sinon nous devons les
collecter nous mme auprs des individus concerns.

Origine et Collecte des Donnes
Prtraitement, Codification, Mise
des donnes en tableaux
Analyse descriptive
(Analyse Univarie)

- Estimation des paramtres de
tendance centrale (moyenne, mode,
mdiane)
Analyse Bivarie
- Estimation et signification des
paramtres de Dispersion (variance,
cart type, intervalle interquartile)
- Graphiques
- Tests dinfrence sur une variable
- ANOVA un facteur
- Test dassociation,
- Test de Corrlation
- Autres tests
- ANOVA 2 facteurs
- Modlisation (modle de
rgression, )
Analyse Multivarie
- Modlisation (modle de
rgression multiple)
- Analyse Factoriel (ACP,
AFC, ACM, Analyse
discriminante)
- Prvision
- Prvision
Problme rsoudre
4

2. METHODES DE COLLECTE DES DONNEES

La collecte des donnes vise rpondre aux questions suivantes : Quels sont les individus prendre en
compte dans mon tude ? O vais-je les retrouver ? Par quel moyen ? Combien en faut-il ? Comment vais-je les
slectionner ? Les rponses ces questions varient selon que les donnes sont dans des entrepts de donnes ou
alors sil faut les collecter auprs des individus concerns.

Trs souvent, les donnes issues des bases de donnes et des enqutes statistiques ne sont pas toutes
exploitables. On est parfois amen procder une slection pour choisir lchantillon propice pour lanalyse.
Parmi ces mthodes dchantillonnage nous pouvons citer :

Echantillonnage alatoire simple : lchantillon est choisi de telle sorte que chaque unit de la
population ait la mme probabilit dtre slectionne dans lchantillon et que chaque chantillon
de mme taille ait la mme probabilit dtre tir.

Echantillonnage Systmatique : On souhaite slectionner n individus parmi N sujets numrots de 1
N. pour ce faire, On calcule le pas :
n
N
p = , puis on tire un nombre alatoire entre 1 et Ent(p), cest du
premier individu choisi. Les autres seront obtenus en ajoutant Ent(p) au numro prcdemment choisi.

chantillonnage avec probabilit proportionnelle la taille : Si la base de sondage renferme
de l'information sur la taille de chaque unit (comme le nombre de filles) et si la taille de ces
units varie, on peut utiliser cette information dans le cadre de la slection de l'chantillonnage
afin d'en accrotre l'efficacit.

chantillonnage stratifi : on divise la population en groupes homognes appels strates, qui
sont mutuellement exclusifs (comme l'ge, la ville de rsidence, le revenu, etc.) puis on
slectionne partir de chaque strate des chantillons indpendants. On peut utiliser n'importe
quelle des mthodes d'chantillonnage pour slectionner l'chantillon l'intrieur de chaque strate.


3. PRETRAITEMENT DES DONNEES

Les donnes issues des entrepts ou des enqutes ne sont pas ncessairement toutes exploitables par des
techniques danalyse de donnes. Les donnes acquises peuvent tre de types diffrents pour la mme variable,
on peut avoir les donnes manquantes ou aberrantes. Dans certaines situations, les donnes exigent une
transformation telle quun centrage par rapport la moyenne ou une normalisation. La prparation consiste
homogniser les donnes et les disposer en tableau lignes/colonnes. Car il sagit presque toujours de la
structure la mieux adapte lexploitation des donnes. Les principales oprations de prparation peuvent tre
listes comme suit :

a) Slection de ligne/colonne.

Elle seffectue sur des donnes qui sont dj sous forme tabulaire. Il sagit de dfinir un filtre qui permet de
slectionner un sous-ensemble de lignes ou de colonnes. Lobjectif tant, soit de rduire le nombre de donnes
soit de slectionner les lignes ou colonnes les plus pertinentes par rapport aux proccupations de lutilisateur.
Les techniques mises en uvre dans ce but relvent des mthodes statistiques dchantillonnage. Cette
slection peut galement seffectuer selon des conditions exprimes par lutilisateur. Par exemple, il peut ne
garder que les attributs dont la moyenne est suprieure un seuil donn ou ne conserver que les attributs qui ont
un lien statistique significatif avec un attribut particulier.



5
b) Le traitement des donnes manquantes ou aberrantes.

Certaines donnes peuvent tre absentes ou aberrantes et gner ainsi lanalyse. Il convient alors de dfinir des
rgles pour grer ces donnes manquantes et les valeurs aberrantes ou anormales.

i.) Valeurs manquantes
Lorsquon est en face dune donne manquante, une des solutions consiste supprimer lobservation
correspondante, quand on en a suffisamment. On peut aussi envisager destimer cette dernire. De nombreuses
solutions sont proposes, comme le remplacement, dans le cas des variables qualitatives et quantitatives
continues, de toute donne manquante par la valeur la plus frquente de la variable concerne. On peut
galement chercher estimer ces valeurs manquantes par des mthodes dinduction comme la rgression pour
les variables quantitatives.

ii.) Valeurs aberrantes
Selon la mthode de lintervalle de confiance, est considre comme valeur aberrante pour une variable
quantitative X donne, toutes les donnes dont la valeur est extrieure lintervalle [ ]
X X
X X 96 . 1 ; 96 . 1 +
o X est la moyenne de X et
X
son cart type.

La valeur dtecte comme aberrante est ramene la limite haute ou basse de cet intervalle de confiance. On
peut galement chercher lestimer par des mthodes rgression.

c) Les transformations de variables

Il sagit de transformer un attribut A en une autre variable A qui serait, selon les objectifs de ltude, plus
approprie. Diffrentes mthodes sont pratiques comme la discrtisation qui consiste transformer des attributs
continus en dcoupant le domaine de valeurs de ces attributs en intervalles afin dobtenir des attributs qualitatifs.
On peut galement centrer les valeurs des variables continues par rapport la moyenne et rduire par lcart
type. Ce traitement leur confre certaines proprits mathmatiques intressantes lors de la mise en uvre de
mthodes danalyse des donnes multidimensionnelles.


6
CHAPITRE II :
ANALYSE UNIVARIEE


Introduction

Lanalyse univarie porte sur une variable. Elle peut tre subdivise en deux grandes parties : lanalyse
descriptive et les tests dinfrence.

I. ANALYSE DESCRIPTIVE

Elle comprend les tapes suivantes :
- Reprsentations Graphiques
- lestimation des paramtres de tendance centrale
- lestimation des paramtres de dispersion
- lestimation des paramtres de forme

1. Reprsentations graphiques

La reprsentation graphique des donnes relatives une variable repose sur la proportionnalit des
longueurs (ou des aires) des graphiques par rapport aux effectifs ou aux frquences, des diffrentes
modalits de la variable. A chaque type de variable correspond des types de graphiques. Parmi les
graphes les plus utiliss, nous pouvons citer :

- Diagramme en btons
- Histogramme
- Diagramme en secteurs
- Courbes
- Boite moustache (ou Boxplot en Anglais)

2. Paramtres de position (ou de tendance centrale)

Ce sont principalement : la moyenne, le mode et la mdiane. Ils permettent de savoir autour de quelles
valeurs se situent les modalits d'une variable statistique.

3. paramtres de dispersion

Ils permettent dapprcier comment les valeurs dune variable sont concentrer autour de la tendance
centrale. Il sagit principalement de ltendue, la variance, lcart type et les quartiles.

4. Schma dun box plot









Valeurs aberrantes
1
er
Quartile
Mdiane
3
e
Quartile
Maximum
Valeurs aberrantes
Minimum
7
Le box plot permet danalyser :

La symtrie de la courbe, (la symtrie du corps et la symtrie par rapport aux moustaches),
Lexistence de valeurs extrmes (aberrantes). Ces valeurs mritent une attention toute
particulire car elles pourraient reprsenter une erreur de mesure, denregistrement des
donnes ou dentre des donnes. Tout comme il pourrait sagir dune valeur lgitime qui est
tout simplement (et par hasard) extrme.

NB : la moyenne, lcart type et la variance sont largement influencs par la prsence de valeurs
extrmes.

5. Paramtres de formes

Ils permettent dapprcier la distribution en comparaison une loi normale de mme moyenne et de
mme cart-type. Ce principalement les coefficients dasymtrie et daplatissement.

- Coefficients dasymtrie

Il existe plusieurs coefficients d'asymtrie. Les principaux sont les suivants.
Le coefficient d'asymtrie de Pearson :
X
o
M X
P

=
Le coefficient d'asymtrie de Yule :
) ( 2
2
1 3
3 1
Q Q
M Q Q
Y
e

+
=
Lorsque le coefficient d'asymtrie est positif, la distribution est plus tale droite, lorsque le coefficient
d'asymtrie est ngatif, la distribution est plus tale gauche.

- Coefficient d'aplatissement.
Le coefficient le plus utilis est celui de Fisher : 3
) (
4
4
2
=
X
X

, avec ) (
4
X : le moment dordre 4 de
X,

=
=
n
i
i
m x
n
X
1
4
4
) (
1
) (
Il est dautant plus grand que les valeurs de la srie statistique sont plus regroupes autour de la moyenne.
Si 0
2
= , la distribution a le mme aspect quune loi normale de mme moyenne et de mme
cart-type
Si 0
2
> , la distribution est moins aplatie que la loi normale
Si 0
2
< , la distribution est plus aplatie que la loi normale


II. UTILISATION DE TESTS STATISTIQUES
Nous conduisons une recherche de faon dterminer l'acceptabilit d'hypothses dcoulant de nos
connaissances (thories). Aprs avoir slectionn une hypothse, qui nous parat importante, nous
rcoltons des donnes empiriques qui devraient nous apporter des informations directes sur
l'acceptabilit de cette hypothse. Notre dcision concernant la signification des donnes nous conduit
soit retenir, soit rviser ou soit rejeter l'hypothse et la thorie qui en est la source.
Pour atteindre une dcision objective concernant une hypothse particulire, nous devons suivre une
procdure objective (mthodes publiques et rptables par d'autres chercheurs) permettant soit
8
d'accepter soit de rejeter cette hypothse. Cela consiste formuler, en termes probabilistes, un jugement
sur une hypothse relative une population, partir des rsultats observs sur un chantillon extrait au
hasard de cette population.
Cette procdure suit les tapes suivantes :
1- tablir l'hypothse nulle (H
0
) [considrer l'hypothse alternative H
1
].
2- choisir le test statistique appropri pour tester H
0
,
3- spcifier un niveau de signification ( ) et la taille de l'chantillon (n),
4- trouver la distribution d'chantillonnage du test statistique sous H
0
,
5- sur la base de 2, 3, 4, dfinir la rgion de rejet, (Valeur critique)
6- calculer la valeur de la statistique du test l'aide des donnes de l'chantillon.
1. L'hypothse nulle
C'est la premire tape de la procdure. L'hypothse nulle H
0
est gnralement une hypothse de non
diffrence il n'y a pas de diffrence significative entre les chantillons A et B . Elle est formule de
faon tre rejete. Dans le cas de son rejet, l'hypothse alternative (H
1
) il y a une diffrence
significative entre les chantillons A et B doit tre accepte. Cette dernire est la prdiction drive de
la thorie tester. Un test d'hypothse constitue donc une sorte de dmonstration par l'absurde en
probabilit.
Supposons qu'une thorie scientifique nous conduise prdire que deux groupes spcifiques dindividus
diffrent par le temps qu'ils passent dans une activit donne. Cette prdiction sera notre hypothse de
recherche. Pour tester cette hypothse de recherche, nous la formulons en hypothse alternative H
1
.
Cette dernire pose que la moyenne de temps passe dans cette activit par les membres des deux
populations est diffrente (
2 1
), alors que pour H
0
la moyenne de temps passe dans cette activit
par les deux populations est la mme (
2 1
= ). Si les donnes nous permettent de rejeter H
0
, alors H
1

peut tre accepte, et cela supportera l'ide de la validit de l'hypothse de recherche et de sa thorie
sous-jacente.
La nature de l'hypothse de recherche dtermine comment H
1
doit tre formule :
Si elle pose que deux groupes diffreront simplement par leur moyenne, alors H
1
est telle que
2 1
. Les tests statistiques seront bilatraux.
Au contraire, si la thorie prdit la direction de la diffrence, c'est--dire qu'un des groupes
spcifis aura une moyenne suprieure celle de l'autre groupe, alors H
1
est telle que soit
2 1
> soit
2 1
< . Les tests applicables seront alors unilatraux.
Les tables statistiques (et maintenant les logiciels statistiques) fournissent les valeurs statistiques
critiques dans les deux cas. Pour tous les tests, on dfinit donc une hypothse nulle. Le calcul de
probabilit p correspond la probabilit que l'hypothse nulle soit vraie (ou la probabilit de se
tromper en rejetant l'hypothse nulle). Si p>0,05 (5%) ou p>0,01 (1%), on ne peut pas rejeter
l'hypothse nulle. On dit qu'on a une diffrence non significative entre les deux chantillons.
2. Choix du test statistique
On dispose actuellement de nombreux tests statistiques diffrents qui peuvent tre utiliss pour arriver
une dcision concernant une hypothse. Le choix doit se faire sur des bases rationnelles.
3. Niveau de signification et la taille de l'chantillon
9
L'ensemble des valeurs observes pour lesquelles l'hypothse nulle est admissible forme la rgion
d'acceptation ou de non-rejet et les autres valeurs constituent la rgion de rejet ou domaine de rejet ou
rgion critique. Mais le hasard de l'chantillonnage peut fausser les conclusions. Quatre situations
doivent tre envisages :
- l'acceptation de l'hypothse nulle alors qu'elle est vraie,
- le rejet de l'hypothse nulle alors qu'elle est vraie,
- l'acceptation de l'hypothse nulle alors qu'elle est fausse,
- le rejet de l'hypothse nulle alors qu'elle est fausse.
Dans le premier et le dernier cas, la conclusion obtenue est correcte, mais pas dans les deux cas
intermdiaires. L'erreur qui consiste rejeter une hypothse vraie est appele erreur de premire
espce ( ) et celle commise en acceptant une hypothse fausse est l'erreur de seconde espce ( ).
Idalement, et devraient tre dtermins par l'exprimentateur pralablement la recherche, ce qui
dtermine la taille de l'chantillon (N). Une diminution du risque alpha, augmente le risque bta pour
tout chantillon donn. La probabilit de commettre l'erreur de seconde espce dcrot lorsque la taille
de l'chantillon augmente.
Pratiquement, on se donne une limite suprieure du risque de premire espce, le plus souvent 5%
(significatif), 1% (trs significatif) ou l/oo (hautement significatif). Cette limite constitue aussi le
niveau de signification du test et permet de dfinir la condition de rejet de l'hypothse nulle. Le plus
souvent, les logiciels de statistique donnent le niveau de signification rel. On rejette alors l'hypothse
nulle au niveau de signification nominal choisi (par exemple 0,05) si (et seulement si) le niveau de
signification rel est infrieur ou gal au niveau de signification nominal (p = 0,003 < 0,05, rejet de H
0
).
Cette attitude est dite conservatrice.
Le risque de premire espce tant donn, on peut s'efforcer de calculer le risque de deuxime espce,
grce la notion de puissance de test (P = 1- ). Mais ce problme possde rarement une solution
simple et l'on perd souvent de vue l'existence mme de ce risque. Cependant, la puissance d'un test
dpend de la nature du test choisi, du niveau de signification du test, de la taille de l'chantillon, de la
vraie valeur du paramtre ou mesure teste. En particulier, elle est lie la nature de l'hypothse
alternative H
1
. Un test unilatral est plus puissant qu'un test bilatral. Aussi, souvent on se contente de
prciser l'importance du risque de premire espce, sans se soucier de l'existence d'une seconde
possibilit d'erreur.
4. Distribution d'chantillonnage
C'est une distribution thorique. Par exemple, celle que l'on obtiendrait si nous prenions tous les
chantillons possibles de mme taille tirs chacun au hasard de la mme population. Autrement dit, c'est
la distribution sous H
0
, de toutes les valeurs possibles qu'une statistique (ou variable statistique, la
moyenne par exemple) peut avoir lorsque cette statistique est calcule partir d'chantillons de mme
taille tirs au hasard.
5. Rgion de rejet
Cette rgion est constitue par le sous-ensemble des valeurs de la distribution d'chantillonnage qui sont
si extrmes que lorsque H
0
est vrai, la probabilit que l'chantillon observ ait une valeur parmi celles-ci
est trs faible (la probabilit est ).
La position de cette rgion de rejet est affecte par la nature de H
1
: Dans un test unilatral, la rgion de
rejet est entirement situe une des extrmits de la distribution d'chantillonnage, alors que dans un
test bilatral, cette rgion est situe aux deux extrmits de la distribution.
10
La taille de cette rgion de rejet est dfinie par . Si = 5%, la taille de la rgion de rejet correspond
5% de l'espace inclus dans la courbe de la distribution d'chantillonnage. Cela signifie que dans une
distribution suivant une loi normale, il n'y a que 5 chances sur 100 pour que l'cart entre la variable et
sa valeur moyenne dpasse 2 fois l'cart-type.
6. La dcision
Si le test statistique donne une valeur comprise dans la rgion de rejet, nous rejetons H
0
[on adopte alors
H
1
]. Quand la probabilit associe une valeur du test statistique est infrieure ou gale la valeur
alpha pralablement dtermine, nous concluons que H
0
est faux. En effet, en rejetant l'hypothse nulle
au niveau 5%, par exemple, nous avons 5 chances sur 100 seulement d'aboutir une telle conclusion par
le simple fait du hasard. Cette valeur est dite significative.
III. CHOISIR LE TEST STATISTIQUE APPROPRIE
Le plus souvent nous disposons de diffrents tests pour une recherche (validation d'hypothse) donne,
il est alors ncessaire d'employer une mthode rationnelle pour choisir le test le plus appropri.
Nous avons vu que l'un des critres de choix est la puissance du test utilis. Mais d'autres critres sont
importants pour dterminer l'adquation d'un test lors de l'analyse de donnes particulires. Ces critres
concernent :
la faon dont l'chantillon a t ralis ;
la nature de la population de laquelle a t tir l'chantillon ;
la nature des mesures ralises.
1. Le modle statistique
Lorsque nous dfinissons la nature de la population et le mode d'chantillonnage, nous tablissons un
modle statistique (c'est dire une formulation mathmatique des hypothses faites sur les observations).
A chaque test statistique est associ un modle et des contraintes de mesure. Ce test n'est alors valide que
si les conditions imposes par le modle et les contraintes de mesure sont respectes. Il est difficile de
dire si les conditions d'un modle sont remplies, et le plus souvent nous nous contentons d'admettre
qu'elles le sont. Aussi devrions nous prciser, chaque fois : "Si le modle utilis et le mode de mesure
sont corrects, alors....).
Il est clair que moins les exigences imposes par le modle sont nombreuses et restrictives, plus les
conclusions que l'on tire sont gnrales. De ce fait, les tests les plus puissants sont ceux qui ont les
hypothses les plus strictes. Si ces hypothses sont valides, ces tests sont alors les mieux mme de
rejeter H
0
quand elle est fausse et de ne pas rejeter H
0
quand elle est vraie.
2. Nature des observations et chelle de mesure

Il est trs important de considrer la nature des donnes (observations) que l'on va tester. D'elle dpend la
nature des oprations possibles et donc des statistiques utilisables dans chaque situation. Les observations
peuvent tre soit quantitatives soit qualitatives.
Les donnes quantitatives comprennent les dnombrements (ou comptages) et les mesures (ou
mensurations).
Dans le cas des dnombrements, la caractristique tudie est une variable discrte ou discontinue, ne
pouvant prendre que des valeurs entires non ngatives (nombre demploys par entreprise, nombre de
clients par catgorie, nombre darticles vendus par magasins..). Il suffit de compter le nombre d'individus
affects par chacune des valeurs (frquences) de la variable.
11

Dans le cas des mesures, la variable est de nature continue (hauteur, poids, surface, prix, temprature..).
Les valeurs possibles sont illimites mais du fait des mthodes de mesures et du degr de prcision de
l'appareil de mesure, les donnes varient toujours de faon discontinue.
Les mensurations peuvent tre ralises dans deux chelles de mesure : l'chelle de rapport et l'chelle
d'intervalle. Elles sont manipulables suivant les oprations de l'arithmtique.

Les donnes qualitatives peuvent tre ralises dans deux chelles de mesure : chelle de rangement et
l'chelle nominale. Ces donnes ne sont pas manipulables par l'arithmtique.
Dans l'chelle ordinale (de rangement), il existe une certaine relation entre les objets du type plus grand
que, suprieur , plus difficile que, prfre ....

Exemple : Les nombres de candidats un examen obtenant les degrs A, B, C. Le degr A est meilleur
que le degr B, lui-mme meilleur que le degr C. Une transformation ne changeant pas l'ordre des objets
est admissible. La statistique la plus approprie pour dcrire la tendance centrale des donnes est la
mdiane.

Dans l'chelle nominale, les nombres ou symboles identifient les groupes auxquels divers objets
appartiennent. C'est le cas des numros d'immatriculation des voitures ou de matricule dtudiants
(chanes de caractres). Le mme nombre peut tre donn aux diffrentes personnes habitant le mme
dpartement ou de mme sexe constituant des sous-classes. Les symboles dsignant les diffrentes sous-
classes dans l'chelle nominale peuvent tre modifis sans altrer l'information essentielle de l'chelle.
Les seules statistiques descriptives utilisables dans ce cas sont le mode, la frquence... et les tests
applicables seront centrs sur les frquences des diverses catgories.

3. Tests paramtriques et non paramtriques : avantages et inconvnients

Un test paramtrique requiert un modle fortes contraintes (normalit des distributions, galit des
variances) pour lequel les mesures doivent avoir t ralises dans une chelle au moins d'intervalle. Ces
hypothses sont d'autant plus difficiles vrifier que les effectifs tudis sont plus rduits.

Un test non paramtrique est un test dont le modle ne prcise pas les conditions que doivent remplir les
paramtres de la population dont a t extrait l'chantillon. Cependant certaines conditions d'application
doivent tre vrifies. Les chantillons considres doivent tre alatoires et simples [tous les individus
qui doivent former l'chantillon sont prlevs indpendamment les uns des autres]. Les variables
alatoires prises en considration sont gnralement supposes continues.

3.1. Avantages des tests non paramtriques
1. Leur emploi se justifie lorsque les conditions d'applications des autres mthodes ne sont pas
satisfaites, mme aprs d'ventuelles transformations de variables.
2. Les probabilits des rsultats de la plupart des tests non paramtriques sont des probabilits
exactes quelle que soit la forme de la distribution de la population dont est tir l'chantillon.
3. Pour des chantillons de taille trs faible jusqu' N = 6, la seule possibilit est l'utilisation d'un test
non paramtrique, sauf si la nature exacte de la distribution de la population est prcisment
connue. Ceci permet une diminution du cot ou du temps ncessaire la collecte des
informations.
4. Il existe des tests non paramtriques permettant de traiter des chantillons composs partir
d'observations provenant de populations diffrentes. De telles donnes ne peuvent tre traites par
les tests paramtriques sans faire des hypothses irralistes.
5. Seuls des tests non paramtriques existent qui permettent le traitement de donnes qualitatives :
soit exprimes en rangs ou en plus ou moins (chelle ordinale), soit nominales.
6. Les tests non paramtriques sont plus faciles apprendre et appliquer que les tests
paramtriques. Leur relative simplicit rsulte souvent du remplacement des valeurs observes
12
soit par des variables alternatives, indiquant l'appartenance l'une ou l'autre classe
d'observation, soit par les rangs, c'est--dire les numros d'ordre des valeurs observes ranges par
ordre croissant. C'est ainsi que la mdiane est gnralement prfre la moyenne, comme
paramtre de position.
3.2. Dsavantages des tests non paramtriques
1. Les tests paramtriques, quand leurs conditions sont remplies, sont les plus puissants que les tests
non paramtriques.
2. Un second inconvnient rside dans la difficult trouver la description des tests et de leurs tables
de valeurs significatives, surtout en langue franaise. Heureusement, les niveaux de significativit
sont donns directement par les logiciels statistiques courants.
On choisira les tests appropris en fonction du type de mesure, de la forme de la distribution de
frquences et du nombre d'chantillons dont on dispose.
IV. Quelques applications pratiques des mthodes de statistique non paramtrique
1. Cas d'un chantillon isol
Des tests permettent de vrifier si un chantillon observ peut tre considr comme extrait d'une
population donne (Test d'ajustement). Ces tests peuvent permettre de rpondre aux questions suivantes:
- Y a t-il une diffrence significative de localisation (tendance centrale) entre l'chantillon et la
population ?
- Y a t-il une diffrence significative entre les frquences observes et les frquences attendues sur
la base d'un principe ?
- Y a t-il une diffrence significative entre des proportions observes et des proportions espres?
- Est-il raisonnable de penser que cet chantillon a t tir d'une population d'une forme
particulire?
- Est-il raisonnable de penser que cet chantillon est un chantillon d'une certaine population
connue?
2. Cas de deux chantillons
Ce type de test est utile lorsque l'on veut tablir si deux traitements sont diffrents ou si un traitement est
"meilleur" qu'un autre. Dans tous les cas, le groupe qui a subi le traitement est compar celui qui n'en a
pas subi, ou qui a subi un traitement diffrent. Ce cas se prsente, par exemple, quand on compare deux
mthodes de mesure en soumettant ces deux mthodes les mmes individus, choisis dans une
population donne : chacune des mthodes correspond alors une population de mesures, mais ces
populations et les chantillons que l'on peut en extraire, ne sont pas indpendants.
Il est aussi possible de soumettre les mmes sujets deux traitements diffrents. Chaque sujet est alors
utilis comme son propre contrle et il suffit alors de contrebalancer l'effet d'ordre des traitements. Une
dernire faon de faire consiste apparier des sujets et d'assigner alatoirement les membres de chaque
paire aux deux conditions. Cet appariement est toujours dlicat. Il faut slectionner pour chaque paire
les sujets les plus semblables possibles par rapport aux variables trangres qui pourraient affecter le
rsultat de la recherche entreprise. En effet, dans de telles comparaisons de deux groupes apparis, des
diffrences significatives peuvent tre observes qui ne sont pas le rsultat du traitement.
Bien que l'utilisation de deux chantillons non indpendants soit prfrable, cette mthode est
frquemment impraticable. En effet, la nature de la variable tudie exclue l'utilisation des sujets comme
leur propre contrle.

13
V. TEST DINFERENCE POUR UNE VARIABLE

1. Test dAjustement du Khi-2

Ce test est applicable aux variables qualitatives nominales, il consiste analyser un chantillon
dobservation dune variable a fin de tester lajustement la distribution dune population standard.
On peut chercher par exemple tester si la frquence ou la proportion observe dans les classes dge
des personnes interroges lors dune enqute sont significativement diffrents de celles observes
pour les mmes classes dges dans la population de rfrence.

a) Hypothses tester

On teste lhypothse

Ho : il ny a pas de diffrence significative entre les frquences (ou proportions) observes et les
frquences (ou proportion) thoriques.

Contre lhypothse

H1 : il ya des diffrences significatives entre les frquences observes et les frquences thoriques

b) Statistique du test

La statistique du test mesure les carts entre la distribution observe et la distribution thorique.
Elle est donne par :
( )

=
k
i i
i i
T
T O
1
2
2

O T
i
est la frquence thorique de la catgorie i,
O
i
, la frquence observe de la catgorie i
et k, le nombre total de catgories

c) Valeur critique

Sous lhypothse Ho, la statistique
2
suit une loi de Khi-2 (k-1) degrs de libert. Ainsi, Pour
un coefficient de risque fix, la valeur critique : 1) - k (
2

est lue dans la table du Khi-2 (k-1)


degrs de libert.

d) Rgle de Dcision

On compare
2
la valeur critique :
Si 1) - k (
2 2

> , on rejette Ho
Si non on accepte Ho

e) Exemple :

On voudrait savoir si les clients de ce magasin apprcient plus les produits Alimentaires ou non.
Or les clients de ce magasin peuvent acheter, soit uniquement les produits Alimentaires, soit les
produits non alimentaires ou alors les deux. On veut tester si la frquence dachat est rpartie de
faon gale dans ces trois niveaux de frquence. Une enqute faite sur un chantillon de 60 clients de
ce magasin permis davoir les rsultats suivants :

14
Produits achets Frquences observes
Alimentaire 26
Non Alimentaire 18
Les deux 16
Rsolution :






Ici, k = 3, n = 60
8 , 2
20
) 20 16 (
20
) 20 18 (
20
) 20 26 (
2 2 2
2
=

=
5,9 2) ( 1) - k ( 5%, Pour
2 2
= = =



9,21 2) ( 1) - k ( 1%, Pour
2 2
= = =



On a 1) - k (
2 2

< donc on accepte Ho. En dautres termes, les clients de ce supermarch achtent
gale frquence les produits alimentaires, les produits non alimentaires ou alors les deux. On ne peut
donc conclure quils apprcient plus les produits Alimentaires.

2. Test de Kolmogorov-Smirnov

Cest un test dajustement tout comme le test du Khi-2, qui sapplique aux variables qualitatives
ordinales.

a) Hypothses tester

Les hypothses tester sont les suivantes :

Ho : les valeurs observes dans lchantillon ne sont pas significativement diffrentes des valeurs
thoriques.

H1 : ces valeurs sont significativement diffrentes.

b) Statistique du test

Le principe du test consiste calculer la distribution cumule des proportions thoriques et la
comparer avec celles observes de lchantillon. On considre comme statistique du test : D, lcart
maximum en valeur absolue entre les proportions cumules observes et les proportions cumules
thoriques
[ ] PcT PcO D = max .

c) Valeur critique

La valeur critique :

D , au seuil , pour un chantillon de taille n (n > 35) est donne par :



1% 5%

n
63 . 1

n
36 . 1

D
Produits achets Frquences observes Frquences thoriques
Alimentaire 26 20
Non Alimentaire 18 20
Les deux 16 20
15
d) Rgle de dcision :

Si > D , on rejette Ho, si non, on accepte Ho

NB. Le Test de Kolmogorov-Smirnov sapplique aussi pour dterminer si les frquences observes
pour deux chantillons indpendants sont significativement diffrentes.

a) Exemple :

On veut tester si la rpartition des frquences dachat dun produit est significativement diffrente
dune rpartition thorique o les produits seraient achets proportion gale chaque niveau de
frquence. Une enqute sur un chantillon de 46 consommateurs de ce produit a donn les rsultats
suivants :

Niveau Une fois Trs peu souvent De temps en temps Rgulirement
Frquence 21 16 8 1

Rsolution :

Niveau
Frquence
Observe
Proportion
Observe
Proportion
Observe cumule
Proportion
Thorique
Proportion
Thorique cumule
Diff.
1 21 0.46 0.46 0.25 0.25 0.21
2 16 0.35 0.81 0.25 0.50 0.31
3 8 0.17 0.98 0.25 0.75 0.23
4 1 0.02 1 0.25 1 0
D = 0.31 pour = 1% , 24 . 0
46
63 . 1
= =

D
> D , donc on rejette Ho, en dautre termes la rpartition des achats est significativement plus
importante chez les personnes dont les frquences dachats sont faibles.

3. Tests utilisant la loi normale ou de Student

Les tests de loi normale (Z) ou de Student permettent dvaluer si la tendance centrale des donnes
dun chantillon de taille n est significativement diffrente dune norme standard. Ces tests
sappliquent pour les variables quantitatives.

Le test de loi normale est appropri dans le cas o n>30 dans le cas contraire, on utilise le test de
Student.

a) Cas de la moyenne

Soit tester lhypothse Ho : m X = contre H1 : m X
On prend comme statistique du test :
n S
m X
Z

= pour n>30 ou
1

=
n S
m X
T pour n<30
O S est lcart type observ partir de lchantillon. (

=
=
n
i
i
X x
n
S
1
2 2
) (
1
)
La rgle de dcision est la suivante :

Pour n>30, Si
2 /
Z Z > on rejette Ho, si non, on accepte Ho

Pour n<30, si ) 1 (
2 /
> n t T

on rejette Ho, si non, on accepte Ho

D
16
O
2 /
Z et ) 1 (
2 /
n t

sont respectivement les fractiles de la loi normale et de la loi de Student.



1% 5% 10%
2

Z
2.576 1.960 1.645

b) Exemple

Sur un chantillon de 90 emballages, tir de la production dune entreprise, on a observ que le
poids moyen est de 22,84 kg, avec un cart type de 3,22 kg on voudrait savoir si la production de cette
entreprise est conforme la norme qui fixe le poids de lemballage en question 22 kg.

Rsolution

Ici, n = 90 > 30,
47 . 2
90 22 . 3
22 84 . 22
=

= Z
Au seuil % 5 = , 96 , 1
2
=

Z
On a
2
Z Z > , on rejette Ho
Donc le poids moyen des emballages fabriqus par cette entreprise est significativement diffrent de
la norme.

4. Analyse de variance un facteur pour chantillons indpendants.

Hypothses tester :

L'hypothse nulle () est l'galit des moyennes des populations dont sont extraits les chantillons :
H
0
: m
1
= m
2
= m
3
=... = m
k

Lhypothse alternative (H
1
) est lingalit dau moins deux de ces moyennes
H
1
: il ) ( , j i j i tel que
j i
m m

Statistique du test :

Considrons que le nombre d'chantillons est not k, le nombre de mesures par chantillon est dsign par
n et le nombre total de mesures, kn. Le tableau des donnes tant le suivant :

chantillon 1 chantillon j chantillon k
11
x
j
x
1

k
x
1

21
x
j
x
2

k
x
2

... ... ...
La dtermination de la statistique du test passe par la construction du tableau danalyse de la variance qui
se prsente ainsi quil suit :

Source de variation ddl SCE CM (Variance) F
Effet facteur k-1
F
S
1
=
k
S
V
F
F

R
F
V
V
F =
Effet Rsiduel kn-k
R
S
k kn
S
V
R
R

=

Total kn-1
T
S

17
Avec :
( )

=
=
k
j
j j F
x x n S
1
2
( )

= =
=
n
i
k
j
j ij R
x x S
1 1
2
( )

= =
=
n
i
k
j
ij T
x x S
1 1
2

= =
=
n
i
k
j
ij
x
kn
x
1 1
1

=
=
n
i
ij j
x
n
x
1
1

NB : S
T
= S
F
+ S
R

V
F
, est la variance inter-groupe et V
R,
la variance intra-groupe

Manuellement, les calculs intermdiaires raliser pour construire le tableau de lanalyse de la variance
sont les suivants :

chantillon 1 chantillon j chantillon k

11
x
j
x
1

k
x
1



21
x
j
x
2

k
x
2


... ... ...

1 i
x
ij
x
ik
x

... ... ...

1 n
x
nj
x
nk
x Total

=
n
i
ij
x
1

T
1
T
j
T
k

=
=
n
i
ij
x G
1

n
T
2

n
T
2
1

n
T
j
2

n
T
k
2

n
T

=
n
i
ij
x
1
2

=
n
i
i
x
1
2
1

=
n
i
ij
x
1
2

=
n
i
ik
x
1
2


|

\
|
=
n
i
j
x
1
2
1


kn
G
n
T
S
F
2
2
=


kn
G
x S
ij T
2
2

|
|

\
|
=




Seuil critique :

Pour un seuil fix, la valeur critique est donne par la table de Fisher Snedecor [(k-1), (kn-k)] ddl.
F
lu
= k)] - (kn 1), - [(k

F
Rgle de dcision :

Si F > F
lu
, on rejette H
0 .
Si non on laccepte

Exemple :

On veut savoir si les intrts boursiers varient d'une place boursire l'autre. Pour cela, on prlve les
intrts mensuels moyens enregistrs lors des 10 premiers mois de lanne (n = 10) dans 3 places
boursires diffrentes (k = 3). Les donnes se prsentent comme suit :

n
T
x S
ij R



|
|

\
|
=
2
2
18
1
re
place B 2
e
place B 3
e
place B
Janvier 50 162 120
Fvrier 52 350 120
Mars 123 125 122
Avril 100 320 221
Mai 200 112 253
Juin 250 200 141
Juillet 220 40 182
Aot 220 162 175
Septembre 300 160 160
Octobre 220 250 214
Rsolution :

1
re
place B 2
e
place B 3
e
place B

50 162 120
52 350 120
123 125 122
100 320 221
200 112 253
250 200 141
220 40 182
220 162 175
300 160 160
220 250 214 Total
T =

=
n
i
ij
x
1

1735 1881 1708 5324
n
T
2
301022,5 353816,1 291726,4 946565

=
n
i
ij
x
1
2

368033 435257 311560 1114850

47 , 1732 =
F
S 168285 =
R
S 47 , 170017 =
T
S

Tableau danalyse de la variance :

Source de variation ddl SCE CM F
Effet place boursire 2 1732,47 866,24 0,14
Effet Rsiduel 27 168285 6232,78
Total 29 170017,47

Pour % 5 = , F
lu
= 3,35 27] [2, =

F
F < F
lu
on accepte H
0
, donc il ny a pas de diffrence significative entre les intrts des trois places
boursires
19
CHAPITRE III :
ANALYSE BIVARIEE

Lorsque quune tude statistique porte sur deux variables, on parle danalyse bivarie. Il est gnralement
question ici de dcrire lvolution commune des deux variables, de rechercher dventuels liens entres
elles ou alors dexpliquer une variable par lautre. Selon lobjectif de ltude et de la nature des variables,
les techniques utilises dans ce cas sont les suivantes :

Variable Expliquer (Y)
Qualitative Quantitative
V
a
r
i
a
b
l
e

e
x
p
l
i
c
a
t
i
v
e

(
X
)

Qualitative
Correspondance

Tableaux deffectifs (tableau crois)
Test dassociation (Chi-2)
Description modlisation - prvision
Comparaison

Tableau des moyennes
Analyse de la variance
Test de Fisher
Modlisation - Prvision
Quantitative
Comparaison

Tableau de moyennes
Analyse de la variance (ANOVA)
Test de Fisher
Modlisation - Prvision
Corrlation

Nuage de points
Test de corrlation
Modlisation - Prvision


I. THEORIE DE LA CORRELATION

Lorsque deux phnomnes ont une volution commune, nous disons quils sont corrls. La
corrlation simple mesure le degr de liaison existant entre ces deux phnomnes. Cette corrlation peut
tre linaire ou non, ngative ou positive.

1. Coefficient de corrlation linaire simple

Soient X et Y deux variables alatoires quantitatives, le coefficient de corrlation linaire entre X et Y
est donn par la relation :








On dmontre que ce coefficient est compris entre -l et +1.

Sil est proche de +1, les variables X et Y sont corrls positivement
Sil est proche de -1 les variables X et Y sont corrls ngativement
Sil est proche de 0, les variables X et Y ne sont pas corrls

Dans la pratique, ce coefficient est rarement proche de ces trois valeurs, on est alors amen procder
un test pour vrifier la corrlation entre deux variables.
( )( )
( ) ( )
2
1 1
2
2
1 1
2
1 1 1
1 1
2 2
1
) , cov(
|

\
|
|

\
|

=


= =


= = = =
= = =
= =
=
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
n
i
n
i
i i
n
i
i i
Y X
XY
Y Y n X X n
Y X Y X n
Y Y X X
Y Y X X
Y X
r

20
) 2 (
2
0
= n t t

2. Test de corrlation

Les hypothses tester sont les suivantes

Ho : 0 =
XY
r
H1 : 0
XY
r
La statistique du test est donne par :



On dmontre que, sous lhypothse Ho, t suit une loi de Student, n-2 degrs de libert. Pour un
seuil fix, la valeur critique du test est donne par :


Si
0
t t > , on rejette Ho. Si non on laccepte

II. MODELE DE REGRESSION SIMPLE

Ayant dtect une corrlation entre deux variables quantitatives X et Y, on peut matrialiser le lien sous
forme dune quation mathmatique : cest la modlisation. Un des modles qui sadaptent sur la plupart
des donnes conomiques est le modle de rgression simple.
Il est question ici de rechercher un lien entre X et Y sous la forme : Y = aX + b + (1)

o a et b sont les coefficients inconnus du modle, et , une perturbation alatoire, appele ala ou rsidu.

On peut considrer que le terme alatoire: ~, rassemble toutes les influences autres que celle de la variable
explicative : X dincidence secondaire sur la variable expliquer: Y, et non explicitement prises en compte
dans le modle.

1. Estimation des coefficients du modle

Ayant suppos X et Y lis par le modle prcdent, cest dire chaque couple dobservations dans
une relation : y
i
= = a.x
i
+ b +
i
o les valeurs de a, b et
i
sont dterminer.
partir des n couples de donnes observes: (x
1
,y), il faut estimer ces diffrentes quantits, et
juger de la pertinence du modle.
On montre, par la mthode des moindres cans ordinaires, que les coefficients a et b peuvent tre
estims respectivement par :

=
=

= =
n
i
i
n
i
i i
x n x
y x n y x
x
y x
a
1
2 2
1
) var(
) , cov(


x a y b .

=

On suppose que les alas:
i
, suivent la mme loi normale: ( )
2
, 0 N et sont indpendants.

Remarque: Lestimateur des MCO est unique, sans biais et de moindre variance parmi les estimateurs
linaires.
Aprs avoir estim les coefficients a et b, il reste vrifier sils peuvent tre considrs comme
nuls ou pas. Pour cela on possde au test de Student.
2
1
2

=
n
r
r
t
XY
XY
21
2. Test de Student pour la significativit des coefficients a et b

a) hypothses
Ayant obtenu le modle (1) de la rgression linaire prcdente, on dsire tester les hypothses
H
O
: a = 0 (resp. b = 0) contre
H
1
: a 0 (resp. b 0)

b) Statistique du test
Soient:

=
n
i
i
n
1
2 2
2
1
, une estimation de la variance du rsidu ( )
( )

=
n
i
i
a
x x
1
2
2
2


, lestimateur empirique de la variance du coefficient a

( )
|
|
|
|

\
|

+ =

=
n
i
i
b
x x
x
n
1
2
2
2 2
1
, lestimateur empirique de la variance du coefficient b

La statistique du test est :
|
|

\
|
= =
b
b
a
a
b
t resp
a
t

* *


c) Valeur critique
On dmontre que, sous H
0
,
b a
b b
et
a a


suivent une loi de Student n- 2 degrs de libert
La valeur critique du test est donne par : ( ) 2
2
0
= n t t


d) Rgle de dcision

Pour un seuil fix,

- Si | a t
*
| > ( ) 2
2
n t

, on rejette lhypothse H
o
, et donc a est significativement diffrent de zro.

- Si ( ) ( ) 2 2
2
*
2
n t t n t a

, on accepte H
o

Il en est de mme pour b
Lintervalle de confiance de a, au seuil , est donn par ( ) 2 .
2
= n t a a
a

e) Exemple

Revenu (X) 8 9 9.5 9.5 9.8 11 12 13 15 16
Consommation (Y) 7.5 8.2 8.0 8.6 8.8 10.5 10.6 11.5 12 14.8

Test de corrlation

8 . 112 =

X 54 . 1336
2
=

X 5 . 100 =

Y 79 . 1056
2
=

Y 74 . 1186 =

XY
r
xy
= 0.969
t = 11.17
22
( ) 2
2
n t

= 2.3 ( = 5% et n = 10)
t > ( ) 2
2
n t

, donc X et Y sont corrles.



Estimation des coefficients de corrlation

a = 0,828
b = 0,714

Test de Student

=
n
i
i
1
2
=
2,82

2
=
0,35196501
a
2
=
0,00548608
b
2
=
0,43221304
( ) a t
*
=
11,1744494
( ) b t
*
=
1,085886884

t*(a) > ( ) 2
2
n t

, donc a est significativement diffrent de zro



t*(b)<) ( ) 2
2
n t

, donc b est nest pas significativement diffrent de zro


Le modle de rgression de la consommation en fonction du revenu est donc: + = X Y 828 . 0


III. MESURE DASSOCIATION POUR DEUX VARIABLES QUALITATIVES

1. Test dassociation du Khi-2

Etant donn deux variables qualitatives nominales X et Y, observes sur un chantillon de taille n,
lon dsire savoir si ces deux variables sont indpendantes ou sil existe une liaison entre elles. Le test de
khi-2 permet de mettre en vidence une ventuelle liaison entre les deux variables.

a) Tableau de contingence

Supposons que la variable X ait k catgories : X
1
, X
2
, . .,X
k
et que Y ait , m catgories : Y
1
,

,

Y
m
. La
premire tape du test consiste construire le tableau de contingence (ou tableau crois) de la manire
suivante :
X
Y
1
X
2
X
j
X

k
X
Total
1
Y
11
O
12
O
j
O
1


k
O
1
n
1
2
Y
21
O
22
O
j
O
2


k
O
2
n
2

i
Y
1 i
O
2 i
O

ij
O

ik
O n
i

m
Y
1 m
O

mj
O

mk
O n
m
Total
1
t
2
t
j
t

k
t n
23
O
ij
O est leffectif observ de la catgorie (
i
Y ,
j
X ),
j
t , leffectif total observ de la catgorie
j
X ,
n
i
, leffectif total observ de la catgorie
i
Y

b) Construction du test

Les hypothses tester sont les suivantes :
Ho : les deux variables X et Y sont indpendantes
H
1
: les variables X et Y ne sont pas indpendantes

La statistique du test est donne par :

( )

= =
|
|

\
|

=
m
i
k
j ij
ij ij
T
T O
1 1
2
2

O,
n
t n
T
j i
ij
= , est leffectif thorique de la catgorie ( )
i j
Y X ,

On dmontre que, sous lhypothse Ho, la statistique du test suit une loi de Khi-2 v degrs de libert.
(Avec v = (k-1)(m-1)).

Pour un coefficient de risque fix, la valeur critique du test est donne par :
( ) ( )

2 2
0
= , valeur lue dans la table du Khi2 v degrs de libert

Si
2
0
2
, on rejette Ho , Si non on laccepte.

c) Exemple

Une enqute a t ralise auprs de 332 touristes auxquels on a demand leurs modes dhbergement
durant le sjours dans un pays. Les donnes obtenues pour chaque catgorie socio professionnelle (CSP)
des personnes interroges se prsentent ainsi quil suit :

CSP
Hbergement
Agriculteur Cadre Ouvrier Profession librale Autre
Camping 2 17 20 6 22
Famille / amis 6 32 9 24 34
Htel 1 12 7 23 31
Location / gte 2 25 8 26 25

Peut-on rejeter l'hypothse d'indpendance entre le mode dhbergement et la CSP ?


24
Rsolution

Calcul des effectifs thoriques :
Agriculteur Cadre Ouvrier P. librale Autre
Camping
2
2,22
17
17,36
20
8,88
6
15,94
22
22,60
Famille / amis
6
3,48
32
27,20
9
13,92
24
24,98
34
35,42
Htel
1
2,45
12
19,17
7
9,81
23
17,61
31
24,96
Location / gte
2
2,85
25
22,28
8
11,40
26
20,46
25
29,01

Statistique du test :

0,022 0,007 13,927 6,201 0,016
1,827 0,848 1,736 0,039 0,057
0,860 2,681 0,804 1,651 1,460
0,253 0,333 1,013 1,498 0,555
76 , 35
2
= X
Valeur critique du test : k = 5 et m = 4 (k-1)(m-1) = 12
21 ) 12 (
2
% 5
=
Dcision : ) 12 (
2
% 5
2
> X , on rejette Ho, en dautres termes on rejette l'hypothse d'indpendance entre le
mode dhbergement et la CSP.

2. Test de Kruskal-Wallis

Ce test est applicable, soit aux variables qualitatives ordinales, soit aux variables quantitatives, pour
dterminer si k groupes sont significativement diffrents aux fluctuations dchantillonnage prs. Cest un
test non paramtrique, comparable au test danalyse de la variance un facteur.
Les hypothses tester sont les suivantes :

Ho : les k chantillons indpendants proviennent de la population dont les mesures de tendance
centrale sont identiques
H
1
: les k chantillons indpendants proviennent de la population dont les mesures de tendance
centrale ne sont pas identiques

Le processus dexcution dudit test consiste tout dabord ordonner de 1 n toutes les observations
combines des k chantillons (en affectant un rang moyen en cas dgalit), en suite on calcule la somme
des rangs R
j
(j = 1,,k) de chaque chantillons.

La statistique du test, donne par :
( )
( ) 1 3
1
12
1
2
+
+
=

=
n
n
R
n n
H
k
j j
j

O n
j
est la taille de lchantillon j (j = 1,,k) et

=
=
k
j
j
n n
1

On dmontre que, sous Ho, H suit une loi de khi-2 (k-1) degrs de libert lorsque n
j
> 5 k j ,..., 1 = .
Pour un seuil fix, si ( ) 1 > k H

alors on rejette Ho. Sinon on laccepte.
25
Exemple:

Pour valuer lefficacit relative des diffrentes mthodes de promotion dun produit de nettoyage
(Echantillons gratuit, Rabais de 30%, Annonce la radio et Emission la radio) applique 4 groupes de
potentiels consommateurs, ces derniers devraient indiquer, dans chacune des situations de promotion, par
une note allant de 1 7 jusqu quel point ils croyaient lefficacit de ce produit. Les rsultats se
prsentent ainsi quil suit :

Echantillon gratuit Rabais de 30% Annonce la radio Emission la radio
1 1 5 5
3 2 6 7
4 2 4 6
2 3 3 5
5 1 5 7
1 2 7 6
1 1 6 7

Rsolution:

Nous avons 4 chantillons et 28 observations au total. Aprs avoir combin et ordonn les
observations on obtient :

( )
( ) ( ) ( ) ( )
( ) [ ] 67 . 18 87 36 . 7150
812
12
1 28 3
7
5 . 160
7
134
7
48
7
5 . 63
1 28 28
12
2 2 2 2
= = +
(

+ + +
+
= H

Or ( ) ( ) ( ) 34 . 11 3 1 4 1
% 1 % 1 % 1
= = = k

( ) 3
% 1
> H do rejet de Ho, en dautres termes, les observations des 4 chantillons sont
significativement diffrentes et donc le degr de croyance dans lefficacit de ce produit de nettoyage
nest pas le mme pour les quatre mthodes de promotion.

3. Test de Wilcoxon pour sries apparies

Ce test est utilis lorsquon veut comparer deux sries dune variable ordinale ou quantitatives,
chaque observation dun chantillon tant lie une observation homologue de lautre chantillon. Cet
un test non paramtrique.
Les hypothses tester sont les suivantes :

Ho : la diffrence entre les deux sries nest pas significative
H
1
: la diffrence entre les deux sries est significative

Echantillon gratuit Rabais de 30% Annonce la radio Emission la radio
3.5 3.5 18 18
12 8.5 22.5 26.5
14.5 8.5 14.5 22.5
8.5 12 12 18
18 3.5 18 26.5
3.5 8.5 26.5 22.5
3.5 3.5 22.5 26.5
R
1
=63.5 R
2
=48 R
3
=134 R
4
=160.5
26
Pour dterminer la statistique du test, on calcule tout dabord la diffrence d
i
entre les scores de deux
observations jumeles (si la diffrence est nulle, on limine lobservation correspondante), ensuite on
indique le rang de toutes les diffrences d
i
en valeur absolue, de la plus petite la plus grande et on
affecte chaque rang le signe de la diffrence dont il provient (en cas dgalit des |di|, les rangs sont
attribus de la mme faon quau test prcdent).

La statistique du test : T est la plus petite des deux sommes de rangs positifs ou de rangs ngatifs.
Sous lhypothse Ho, lorsque n 8, on dmontre que T suit une loi normale ) , (
2
N

Avec,
( ) ( )( )
24
1 2 1
4
1 + +
=
+
=
n n n
et
n n

Do


=
T
Z suit une loi normale ) 1 , 0 ( N

Pour un seuil fix, si |Z| >
2
Z , on rejette Ho, si non on laccepte.

Le test de Wilcoxon est particulirement utilis pour valuer si on observe un changement
statistiquement significatif dans un plan dexprience avant-aprs sur les mmes sujets, lorsque lune
des deux variables est ordinale ou quantitative. Cest le cas par exemple lorsquon veut valuer leffet
dune promotion sur les prfrences des consommateurs lgard de certains produits.

Lhypothse nulle dans ce cas est :
Ho : lintention des individus ne change pas aprs lexprience

Exemple:

Lors de larrive des clients dans un magasin de commercialisation des produits alimentaires, il
leur est demand de donner un score dintention dachat dune marque de produit alimentaire, par une
note allant de 1 (trs incertain) 10 (presque certain). Aprs avoir fait goter le produit en question lors
dune dmonstration, on demande nouveau aux mmes consommateurs leur score dintention dachat.
Les donnes obtenues auprs de 10 consommateurs se prsentent comme suit :

Intention priori 3 9 5 5 4 8 8 6 3 4
Intention posteriori 10 8 9 7 5 8 9 4 6 9

Pouvons-nous conclure au seuil de confiance de 5% que cette promotion a chang lintention des
consommateurs ?

Rsolution :

Intention priori 3 9 5 5 4 8 8 6 3 4
Intention posteriori 10 8 9 7 5 8 9 4 6 9
diffrence ( di) -7 1 -4 -2 -1 0 -1 2 -3 -5
|di| 7 1 4 2 1 0 1 2 3 5
rang de |di| 9 2 7 4,5 2 - 2 4,5 6 8 somme
Rang ngatif -9 -7 -4,5 -2 - -2 -6 -8 38,5
rang positif 2 - 4,5 6,5

T = 6.5
27
( )
( )( )
( )
( )( )
90 . 1
44 . 8
16
24
19 10 9
4
10 9
5 . 6
24
1 2 1
4
1
=

=
+ +
+

=
n n n
n n
T
Z
Au seuil de 5%, Z < 1.96, donc, on accepte lhypothse Ho. En dautres termes, on ne peut pas
conclure que le fait de goter le produit alimentaire en question ait chang de faon statistiquement
significative les intentions dachat des consommateurs.

IV. ANALYSE DE LA VARIANCE A DEUX FACTEURS

Prenons lexemple suivant pour illustrer cette partie du cours : Une entreprise a dispos ses
produits dans des magasins situs dans cinq quartiers de la ville de Douala, dans chaque magasin, les
produits sont disposs sur des talages trois niveaux de hauteur (Bas, moyen, haut). A lissue dune
semaine dobservation, les ventes dans ces quartiers se rpartissent ainsi quil suit :

Hauteur talage
Quartier
Bas moyen Haut Total
Akwa 18 22 29 69
Bonandjo 17 20 26 63
Deido 16 17 24 57
New-Bell 15 16 21 52
Cit SIC 12 14 14 40
Total 78 89 114 281

Dans cet exemple, les ventes peuvent tre influences par le niveau dapprciation du produit en
question dans le quartier ou par la hauteur de ltalage.

Lanalyse de la variance consiste vrifier si ces effets sont significatifs ou pas.
La vente pour le Quartier i, hauteur de ltalage j, peut tre modlise par la variable
ij j i ij
Y + + + =
O
est la moyenne gnrale des ventes

i
, leffet Quartier (i =1, , n)

j
, leffet de la hauteur de ltalage (j =1, , p)

ij
, lerreur ou rsidu ( ~ ) , 0 (
2
N )




1. Hypothses du test

Le test statistique des diffrences dans les ventes causes par la hauteur de ltalage va consister
tester les hypothses suivantes :

Ho : 0 =
j
pour tout j =1, , p
H
1
. : il existe au moins un 0
j



De mme, le test des diffrences dans les ventes causes par le quartier consistera tester

Ho : 0 =
j
pour tout i =1, , n
28
H
1
. : il existe au moins un 0
i


2. Statistique du test

La dtermination des statistiques des deux tests en question ici passe par la construction du Tableau
danalyse de la variance suivant :

Source de
variation (SV)
Degr de
libert (DDL)
Somme des
Carrs (SCE)
Carr moyen
(CM)
Fisher (F)
Effet talage p-1 S
e
1
=
p
S
V
e
e

r
e
e
V
V
F =
Effet quartier n-1 S
q
1
=
n
S
V
q
q

r
q
q
V
V
F =
Rsidu (p-1)(n-1) S
r


Total np-1 S
T


Avec :
( )

=
=
p
j
j e
Y Y n S
1
2
.

( )

=
=
n
i
i q
Y Y p S
1
2
.

( )

= =
=
n
i
p
j
ij T
Y Y S
1 1
2



q e T r
S S S S =


= = = =
= = = =
p
j
ij i
n
i
ij j
n
i
p
j
ij
Y
p
Y Y
n
Y Y
np
Y Y
1
.
1
.
1 1
..
1
;
1
;
1


La statistique du test des diffrences dans les ventes causes par la hauteur de ltalage est donne par
e
F .
De mme, la statistique du test des diffrences dans les ventes causes par le quartier est donne par
q
F

3. Seuil critique

Pour un seuil fix, la valeur critique du test des diffrences dans les ventes causes par la hauteur de
ltalage est donne par ) , (
2 1

F , Avec 1
1
= p et ) 1 )( 1 (
2
= p n
La valeur critique du test des diffrences dans les ventes causes par le quartier est donne par ) , (
2 3

F ,
Avec 1
3
= n et ) 1 )( 1 (
2
= p n




( )( ) 1 1
=
n p
S
V
r
e
29
4. Rgle de dcision

Si
e
F > ) , (
2 1

F , On rejette Ho, et donc la hauteur de ltalage influence significativement les


ventes.
Si
q
F > ) , (
2 3

F , On rejette Ho, et donc le produit est plus vendu dans certains quartiers que dans
dautres.
Dans le cas contraire, ces on accepte Ho et donc ces effets sont non significatifs.

5. Application lexemple prcdent

j
i
1 2 3 . Yi
( )
2
. Y Yi
1 18 22 29 23 18.2
2 17 20 26 21 5.14
3 16 17 24 19 0.07
4 15 16 21 17.33 1.96
5 12 14 14 13.33 29.16
15.6 17.8 22.8
73 . 18 = Y
( )

= 53 , 54 .
2
Y Yi
( )
2
. Y j Y
9.82 0.87 16.54
( )

= 23 , 27 .
2
Y j Y


Tableau danalyse de la variance

SV ddl SCE CM F
Effet talage 2 136.13 68.07 18.65
Effet quartier 4 163.6 40.9 11.21
Rsidu 8 29.2 3.65
Total 14 328.93

Pour % 5 = et ( ) 84 . 3 8 , 4
% 5
= F

( ) 8 , 2
% 5
F F
e
> , donc la hauteur de ltalage influence significativement les ventes.
( ) 8 , 4
% 5
F F
q
> , donc le quartier influence significativement les ventes

Pour % 1 = ( ) 65 . 8 8 , 2
% 1
= F et ( ) 01 . 7 8 , 4
% 1
= F

( ) 8 , 2
% 5
F F
e
> et ( ) 8 , 4
% 1
F F
q
> , mme conclusion que prcdemment

j Y.
( ) 46 . 4 8 , 2
% 5
= F
30
CHAPITRE IV :
LES PRINCIPALES METHODES DANALYSE MULTIVARIEE

INTRODUCTION

Lanalyse des donnes multidimensionnelles recouvre un ensemble de mthodes destines synthtiser
linformation issue de plusieurs variables, pour mieux lexpliquer. Ces mthodes peuvent tre regroupes
en deux grandes catgories : les mthodes descriptives et les mthodes explicatives.

Les mthodes descriptives visent structurer et simplifier les donnes issues de plusieurs variables, sans
privilgier lune dentre elles. Les techniques les plus utilises ici sont : lanalyse en composantes
principales (ACP), lanalyse factorielle des correspondances (AFC), lanalyse des correspondances
multiples (ACM), la typologie et la classification.

Les mthodes explicatives visent expliquer une variable (variable expliquer) par plusieurs variables
explicatives. Les principales mthodes utilises sont : la rgression multiple, lanalyse discriminante et la
segmentation.

Ces mthodes danalyse multivarie permettent de rsoudre des problmes divers et varis. Le choix
dune mthode dpend de lobjectif de ltude, des types de variables manipules et de la forme des
rsultats obtenus (qui peuvent tre plus ou moins faciles interprter).Le tableau suivant prsente les
techniques utilises en analyse multivarie en fonction de lobjectif vis.

Objectif Types de variables Mthode
Rsumer linformation en
minimisant la dperdition
Variable quantitatives ou qualitative
ordinale
ACP
Deux variables qualitatives AFC
Plus de deux variables qualitatives ACM
Constituer des groupes
dindividus similaires
Tout type de variable
(Nombre de groupes fix au pralable)
Analyse Typologique
Tout type de variable
(Nombre de groupes non fix)
Classification
Expliquer une variable
par plusieurs autres
variables
Variable expliquer numrique Rgression multiple
Variable expliquer qualitative et
variables explicatives quantitatives
Analyse Discriminante
Variable expliquer qualitative et
variables explicatives qualitatives
Segmentation

I. LES METHODES DESCRIPTIVES

1. LACP

Le tableau de dpart de lACP comporte les individus en ligne et les variables en colonne, avec dans
chaque cellule, la valeur observe de lindividu sur la variable correspondante. Les variables ordinales
sont recodifies.

lACP permet de positionner les individus sur un ou plusieurs plans, en fonction de la proximit de leurs
valeurs observes sur les variables slectionnes. Elle permet galement de reprsenter les variables sur
un ou plusieurs plans, de manire indpendante des individus. Ce qui permet de mettre en vidence le
regroupement des individus ainsi que des variables.
31

Les axes du graphique correspondent gnralement un regroupement optimal de plusieurs variables. Par
exemple, le revenu et le niveau dtude peuvent participer ensemble la formation dun axe si elles sont
fortement corrles.
LACP est trs pratique lorsque lon travaille sur un ensemble limit et identifi dindividus. Par exemple,
si lon dsire analyser des points de ventes en fonction de plusieurs critres tels que la surface, le CA, les
quantits de vente, le personnel, lACP permet dobtenir une cartographie qui regroupe les points de
ventes selon tous les critres retenus, ce qui peut permettre didentifier les cas hors norme comme une
surface et un personnel important, mais un CA faible.

Lalgorithme de lACP effectue sur la matrice Individus/variables les oprations telles que le centrage et
la rduction des donnes, la diagonalisation de la matrice, lextraction des valeurs propres et vecteurs
propres, en vue de passer du nombre de variable initial un petit nombre de variables obtenues par
combinaison des premires. Ces nouvelles composantes forment les axes du graphique. La premire
composante est celle qui rsume le mieux les informations contenues dans le tableau, la deuxime apporte
un pourcentage dinformation infrieur, mais complmentaire et ainsi de suite.

Le graphique de lACP reprsente dabord la premire composante (axe horizontal) et la seconde (axe
vertical). La somme des pourcentages dexplication des deux composantes renseigne sur le taux de
dperdition dinformation partir des donnes initiales. Ainsi, si la premire composante rsume 60% du
tableau et la seconde 20%, linformation reprsente sur le graphique est de 80%. Linformation
perdue est donc de 20%.

Les points individus sont reprsents sont reprsents sur le graphique en fonction de leur coordonnes
sur les facteurs. Les points proches correspondent des individus ayant des profils proches, priori, quant
aux valeurs observes sur les variables prises en compte dans lanalyse.

Les points variables sont galement reprsents sur le graphique, mais de faon indpendante des
individus. Leur reprsentation indique leur corrlation avec les facteurs, lintrieur dun cercle de rayon
unit, avec une chelle arbitraire. Ces points variables renseignent su le sens donner aux axes : un point
proche du cercle de corrlation et proche dun axe participe beaucoup la formation de cet axe. Les
angles inter-variables (en partant de lorigine) renseignent sur les corrlations entre elles. Ainsi, deux
variables formant un petit angle sont fortement corrls alors quun angle droit signifierait quelles sont
indpendantes.

2. LAFC

Le tableau de dpart de lAFC simple est un tableau crois (tableau de contingence). LAFC sapplique
deux variables qualitatives nominales. Elle permet de positionner les modalits des deux variables sur un
graphique. Le graphique de lAFC affiche les points modalits. On peut par exemple positionner une srie
de marque dautomobile sur le mme plan avec la caractristique des clients (ges, CSP, Sexe,), ce qui
permet de reprer les affinits entre chaque marque et les diffrentes cibles.

En pratique, on utilise lAFC pour reprsenter graphiquement et expliquer le croisement de deux
variables. Si le test du khi-2 indique une dpendance entre ces deux variables, linterprtation du
graphique sera plus aise.

3. LACM

LACM est une gnralisation de lAFC un nombre quelconque de variables. Elle permet de reprsenter
sur le mme graphique, les modalits de plus de deux variables qualitatives. LACM part dun tableau
disjonctif complet (tableau de Burt) qui prsente en ligne les individus et en colonne toutes les modalits
des variables retenues pour lanalyse. Les cases dintersection (cellules) comportent la valeur 1 si
lindividu rpond au critre en colonne et 0 dans le cas contraire.
32

Comme lACP, les deux premiers axes du graphique de lACM fournissent une partie gnralement
importante de linformation contenue dans les donnes. La proximit des points renseigne sur leurs
associations. La disposition des modalits de chaque variable les unes par rapport aux autres aide
donner un sens chaque axe.

4. LA TYPOLOGIE

Lanalyse typologique sapplique tous types de variables. Elle permet de rpartir la population en un
nombre dfini de sous groupes aussi diffrents que possible les uns des autres et dans lesquels les
individus sont aussi semblables que possible entre eux.

Les diffrentes mthodes danalyse typologique partent des individus eux-mmes et essaient de les classer
progressivement selon la ressemblance de leurs observations sur les variables retenues.

Il existe plusieurs mthodes danalyse typologique, qui aboutissent toutes au classement des individus
dans le nombre de groupes dfini initialement. Leffectif de ces groupes peut tre trs diffrent. La
visualisation graphique du rsultat de lanalyse typologique est un graphique qui met en vidence les
diffrents groupes.

Certains logiciels danalyse de donnes permettent de crer partir des rsultats de la typologie, une
nouvelle variable indiquant, pour chaque individu, son numro de groupe dappartenance.

5. LA CLASSIFICATION

Tout comme la typologie, la classification est une mthode qui permet de regrouper les individus selon
leurs ressemblances. La diffrence ici est que le nombre de groupe nest fix davance et que le rsultat
est reprsent sous forme dun arbre de classification.

Llaboration de cet arbre peut tre ascendante par regroupement successif des individus (mthode
frquemment utilis) ou descendante par divisions successives.

Larbre de classification relie un individu un autre ou un sous-groupe dindividus issus eux-mmes de
regroupements. Lorsque lon coupe larbre un niveau, on obtient les groupes dindividus. Par exemple,
en coupant larbre ai niveau du dernier regroupement, on obtient deux groupes, au niveau de lavant-
dernier regroupement, on obtient trois groupes, ainsi de suite.

Il est galement possible dappliquer une classification pour regrouper des variables. On obtient ainsi des
groupes de variables dont les profils des valeurs/modalits observes se ressemblent.


II. LES METHODES EXPLICATIVES

1. LA REGRESSION MULTIPLE

Elle permet dexpliquer une variable quantitative (Y) par plusieurs autres variables quantitatives
indpendantes (X
1
, X
2
, , X
p
). Elle modlise la relation sous la forme :
p p 2 2 1 1
X b X b X b a Y + + + + =
, o a, b
1
, b
2
, , b
p
sont les coefficients du modle.

Si le modle de rgression est satisfaisant, On peut ainsi prdire les valeurs de la variable Y en fonction
des valeurs des variables explicatives.

Lapprciation de la qualit de la rgression se fait grce plusieurs indicateurs tels que :
33

Le coefficient de dtermination multiple (R) qui calcule le % de la variation de la variable Y d
aux variables explicatives. (la rgression est dautant satisfaisante que R est proche de 1).
Le coefficient de corrlation multiple (R) qui mesure le degr de la liaison entre la variable
expliquer et les diffrentes variables explicatives.
Le test de Fisher qui permet destimer la qualit de lajustement dans la population.

Certains logiciels calculent directement la probabilit que aucune des variables explicatives naient
deffet sur la variable expliquer. Cette probabilit doit tre trs faible pour conclure que lajustement est
valable.

2. LANALYSE DISCRIMINANTE (AD)

Cest une mthode factorielle qui cherche expliquer une variable qualitative par plusieurs variables
quantitatives. Comme la rgression, elle permet de mettre en quation une variable expliquer et des
variables explicatives. Cest donc une mthode prdictive dans la mesure o elle permet de dterminer
quelle modalit prendra un individu pour la variable qualitative expliquer, si on connat ses valeurs
observes sur les variables quantitatives.

Par exemple, lanalyse discriminante peut tre applique pour attribuer un score un client dune banque
ou dune compagnie dassurance, en dterminant automatiquement un niveau de risque en fonction de
diffrents paramtres connus tels que lge, le revenu, lendettement,

Les rsultats de lAD peuvent tre visualiss sur un graphique similaire celui de lACP o les points
individus sont runis en fonction de leur appartenance aux groupes.

3. LA SEGMENTATION

Elle partage les mmes objectifs que lAD mais sapplique lorsque les variables explicatives sont
qualitatives. Elle consiste dcouper une population en sous groupes homognes, mais uniquement par
rapport la variable expliquer.

Le processus de la segmentation est itratif : chaque tape, lalgorithme choisit la variable explicative la
plus corrle la variable expliquer pour raliser une partition partir des modalits de la premire.

Le rsultat de la segmentation est une sorte darbre de dcision, avec un dcoupage de chaque groupe en
deux sous-groupes. La premire partition permet dobtenir les deux premiers groupes. Chacun de ces
deux groupes est ensuite divise en deux laide de la variable permettant la meilleure partition et qui
nest gnralement pas la mme pour les deux groupes. Le processus se poursuit ainsi avec des
interruptions lorsque la taille du groupe tombe en dessous dun seuil ou quand le dcoupage optimal
expliquerait un faible % de variance.

III. FORMALISATION ET CAS PRATIQUES
1. Formalisation de lACP

On note X la matrice n.p des donnes (ie portant les observations en ligne, lments de R
p
, et les
variables, quantitatives, en colonnes, lments de R
n
), on suppose les colonnes de X pralablement
centres et rduites si ncessaire.
Soit u un vecteur (en colonne) unitaire de R
p
, le vecteur X.u de R
n
a pour composantes les produits
scalaires des observations avec u, cest dire encore, les distances lorigine des projections des
observations selon la direction de u, tandis que linertie totale du nuage dans cette direction est donne
par le produit matriciel : u.X.X.u .

34
La matrice symtrique X.X est la matrice dinertie du nuage, tandis que le produit u.X.X.u , qui donne
linertie dans cette direction, est lapplication de la forme bilinaire symtrique de matrice X'.X au vecteur
unitaire u. On remarque que X.X est simplement, au facteur 1/n prs, la matrice des corrlations entre les
variables-colonnes initiales.
La recherche des directions principales, cest dire des directions successives dinertie maximale du
nuage, se traduit donc par le problme de maximisation sous contrainte :

max

. . .

= 1

Les vecteurs u
k
successifs devant en outre tre orthogonaux.
Lalgbre linaire enseigne que les vecteurs propres norms : u
k
, associs la suite dcroissante des
valeurs propres (positives) de X'.X :
k
, apportent la solution du problme, la valeur propre
k
mesurant
linertie dans la k-ime direction principale u
k
:

u
k
.X.X.u
k
=
k
.u
k
.u
k
=
k


Les vecteurs c
k
= X.u
k
de R
n
sont les composantes principales successives du nuage, centres, de
variances respectives
k
/n et non corrles (de covariances : u
k
'.u
h
/n, nulles), ce sont les nouvelles
variables , dont les composantes donnent les coordonnes des points du nuage sur les axes factoriels.
Les diverses contributions, corrlations et autres aides linterprtation, enfin, sont aises crire, en
fonction des
k
, u
i
et c
j
. Ainsi, par exemple, la contribution de lobservation i laxe k est : c
k
(i)/
k
, o
c
k
(i) dsigne la i-me composante de c
k


Exemple : On tudie les donnes sur 50 clients dun hypermarch constitues de lge, du revenu, du
montant des achats, du nombre denfants.
La taille de ce tableau est insuffisante pour que les interprtations soient intressantes. Mais elle
permet de donner la totalit des rsultats concernant les variables et deffectuer des calculs sur
quelques units statistiques laide dune simple calculatrice.
Nous donnons ci-dessous la reprsentation graphique des 50 clients sur le plan principal 1x2. Au
groupe (25, 31, 43) dtect par la reprsentation graphique des couples (ge, revenu) sajoute le
client de rang 28. On peut dfinir un groupe oppos au prcdent : (9, 11, 37, 7, 6, 45). Le client de rang
10 est assez particulier.

35

Exemple : cercle de corrlation C1xC2 des donnes de lhypermarch.
Ce cercle de corrlation montre que la seconde composante principale est fortement corrle au revenu et
surtout lge : un client de lhypermarch dont la coordonne est leve sur laxe 2 aura trs
vraisemblablement un ge suprieur la moyenne et inversement. Cest le cas des n1 et 10. On retrouve
les clients n 25, 31 et 43 dont la coordonne leve sur laxe 1 montre que le nombre denfants et le
montant des achats sont faibles. Rciproquement, les clients 9 et 37 dont les coordonnes sur laxe 2 sont
fortement ngatives sont jeunes et ont un revenu faible. Rappelons que ces proprits peuvent tre
inexactes sur des cas particuliers, et que lorientation des axes peut tre inverse si lon utilise un autre
logiciel.

Formalisation de lAFC

LAFC, comme il a t dit, est une forme particulire de lACP applique aux tableaux de contingence :
non centre-rduite, avec pondrations, et utilisant la mtrique dite du chi-deux (ie des inverses des
frquences marginales) au lieu de la mtrique euclidienne usuelle.

On note K le tableau de contingence, ou tableau crois, initial, de dimension n.p, F
J/I
le tableau des profils
en ligne (frquences conditionnelles, conditionnes par les items en ligne) et F
I/J
celui des profils en
colonne. D
I
dsigne la matrice diagonale portant sur sa diagonale les totaux en ligne (ou totaux
marginaux) et D
J
celle des totaux en colonne.

Les diffrentes matrices prcdentes sont naturellement lies:

F
J/I
= D
I
-1
.K et F
I/J
= K.D
J
-1

36
Le produit scalaire de deux vecteurs u et v dans R
p
pour la mtrique du chi-deux est donn par le produit
matriciel: u.D
J
-1
.v , un facteur multiplicatif prs, par suite linertie dans la direction du vecteur D
J
-1
-
unitaire u du nuage des profils en ligne, pour la mtrique prcdente avec pour pondrations les totaux en
ligne, est donne, au mme facteur prs, par le produit matriciel:

u.D
J
-1
.F
J/I
.D
I
.F
J/I
.D
J
-1
.u = u.D
J
-1
.K.D
I
-1
.K.D
J
-1
.u

Les directions principales dinertie sont obtenues en maximisant la quantit prcdente sous la contrainte:
u.D
J
-1
.u = 1 , dans des directions D
J
-1
-orthogonales successives. La thorie indique que la solution est la
suite des vecteurs propres D
J
-1
-norms u
k
associe la suite dcroissante des valeurs propres
k
de la
matrice (non symtrique):

F
J/I
.D
I
.F
J/I
.D
J
-1
= K.D
I
-1
.K.D
J
-1

Les composantes principales :

c
k
= F
J/I
.D
J
-1
.u
k
= D
I
-1
.K.D
J
-1
.u
k

donnent nouveau les coordonnes des profils en ligne sur les axes factoriels, tandis que les diffrentes
aides l'interprtations s'obtiennent aisment en tenant compte de la mtrique D
J
-1
et des pondrations
donnes par D
I
.

Lanalyse des profils en colonne est troitement lie la prcdente, du fait des relations entre F
I/J
et F
J/I
.
Les directions principales de cette analyse sont donnes par les vecteurs propres D
I
-1
-norms et
orthogonaux:

v
k
=
k
-1/2
.K.D
J
-1
.u
k

de la matrice:

F
I/J
.D
J
.F
I/J
'.D
I
-1
= K.D
J
-1
.K'.D
I
-1

et les composantes principales par:

d
k
= F
I/J
'.D
I
-1
.v
k
=
k
-1/2
.F
I/J
'.c
k

La j-ime composante: d
k
(j), de d
k
est donc:

d
k
(j) =
k
-1/2
. (n
ij
/n
.j
).c
k
(i)

i

relation barycentrique, au facteur
k
-1/2
prs, qui relie les deux analyses et justifie la reprsentation
simultane.