Analyses de Données Master-1

CHAPITRE I : TESTS D ’HYPOTHESES , Tris
croisés
Objectifs :
- Expliquer l’analyse des données par tris croisés et les statistiques qui s’y
rapportent
- Expliquer l’analyse des données par tests d’ hypothèses paramétriques pour un
échantillon
I TESTS D ’HYPOTHESES
INTRODUCTION
L’analyse de base de données implique obligatoirement les tests d’hypothèses. Les exemples
d’hypothèses par les études sont légion.
 Le grand magasin est fréquenté par plus de 10% des foyers
 Un hôtel possède une image plus haut de gamme que son concurrent.
Les clients assidus et occasionnels d’une marque se différencient par leurs caractéristiques
psychographiques.
La procédure générale applicable à un test d’hypothèse portant sur un large éventail de
paramètres est abordée aux pages qui suivent.
2 - Procédure générale
Un test d’hypothèse implique les chapitres suivants
1) Formuler l’hypothèse nulle H0 et l’hypothèse alternative H1
2) Choisir une méthode statistique appropriée et la statistique du test correspondante
3) Choisir le niveau de signification x
4) Déterminer la taille de l’échantillon et collecter les données. Calculer la valeur de la
statistique du test.
5) Déterminer la probabilité souciée à la statistique du test dans le cadre de l’hypothèse
nulle, en utilisant la distribution d’échantillonnage de cette statistique.
Alternativement, déterminer les valeurs critiques de la statistique.
1 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

6) Comparer la probabilité associée à la statistique du test et le niveau de signification
spécifié.
7) Prendre la décision statistique le rejeter ou de ne pas rejeter H0
8) Expliquer ce que signifie cette décision au regard du problème d’étude posé.
2. 1 – formuler les hypothèses

La première étape consiste à formuler les hypothèses nulle et alternative. L’hypothèse nulle
exprime le statut quo, l’absence de différence ou d’objet si H0 n’est pas rejetée, aucun
changement ne se produit. L’hypothèse alternative exprime l’attente d’une différence ou d’un
effet quelconque. L’adoption de H1 engendre des changements en termes d’opinions ou de
comportements. H1 définie comme l’opposé de l’hypothèse nulle.
La vérification porte toujours sur H0, laquelle fait référence à une valeur spécifique d’un
paramètre de la population (U, б, Л) et non à une statistique de l’échantillon (comme x ) une
hypothèse nulle peut être rejetée mais ne peut jamais être acceptée sur la base d’un unique
test. Un test statistique peut avoir deux résultats. Dans le 1er cas, H0 et rejetée et H1 acceptée.
Dans l’autre cas, compte tenu des éléments disponibles, H0 n’est pas rejetée.
Pour autant, il faut se garder d’en conclure qu’elle puisse être considérée comme valide. Dans
le cadre d’un test unique classique, il n’existe aucun moyen de déterminer la véracité de
l’hypothèse nulle.
En étude, H0 se trouve formulée de telle sorte que son rejet aboutisse à l’adoption de la
conclusion souhaitée. H1 présente la conclusion que l’on cherche à motiver.
On peut imaginer par exemple qu’un magasin soit en train d’établir la mise en place d’un
service d’achat par internet et ne se décide à le lancer qu’à condition que plus de 40% des
intervenants effectuent leurs achats par ce biais là. La formulation correcte sera :
H0 : Л ≤ 0,40
H1 : Л > 0,40
ϕ H0 est rejetée, H1 est acceptée et le service d’achat par internet peut être lancé. A l’inverse si
H0 n’est pas rejetée, la mise en place de ce service doit être subordonnée à l’obtention
d’informations supplémentaires.
Le test de l’hypothèse nulle porte le nom de test unilatéral, du fait que l’expression
directionnelle de l’hypothèse alternative : la proportion d’intervenants effectuée leurs achats
sur internet est supérieur =40%
Si l’on suppose que le chargé d’étude s’attache à déterminer si cette proposition n’est pas
égale à 40% ; il faudra utiliser un test bilatéral et exprimer les hypothèses comme ceci :

: H0 : Л = 0,40
H1 : Л ≠ 0,40
2.2 – étape 2 : choisir un test approprié

Pour tester l’hypothèse nulle, il est nécessaire de choisir une technique statistique appropriée.
Le chargé d’études doit tenir compte du mode de calcul de la statistique du test et de la
distribution suivie par la statistique de référence (la moyenne par exemple). La statistique du
test mesure la proximité de l’échantillon vis-à-vis de l’hypothèse nulle. Elle s’aligne
généralement sur une distribution classique –normale (student ou encore khi-deux
P (1 )
Z
p бp = n
2.3 – étape 3 : choisir le niveau de signification

Dès que l’on cherche à dégager les inférences par rapport à une population on prend le risque
d’aboutir à une conclusion erronée. Fixer l’erreur 
à un niveau tolérable (généralement à
0,05) ;
2.4 – Collecter les données et calculées la statistique du test

On détermine la table de l’échantillon en fonction des erreurs souhaitées et hautes
considérations qualitatives, telles que les contrats budgétaires les données nécessaires sont
alors collectées, et la valeur de la stratégie du test calculée.
Dans l’exemple ici, sur 30 utilisateurs interrogés 17 ont déclaré qu’ils réalisent leurs achats
sur internet. La proportion s’élève à 0,567

(
1
) 0
 ,40
x
0,60

0,089
бp = n 30

p 0 0
,567,40

1,88
Z= p 0,089
2.5 – étape 5 : déterminer la probabilité valeur critique

Par la lecture de la table de loi normale carrée réduite, on peut calculer la probabilité d’obtenir
une valeur de Z de 1,88
P (Z < 1,88) = 0,9699 P (Z > 1,88) = 0,0301
Alternativement la valeur critique de Z permettant d’obtenir à droite une surface de 0,05 se
situe entre 1,64 1,65 soit 1,645.
NB : lors de la détermination de la valeur critique, la surface située à droite de la valeur
critique est égale à (  ) ou à (  /2) : (  ) pour un test unilatéral et (  /2.) pour un test
bilatéral.
2.6 - étape 6 : comparer la probabilité et prendre la décision

Elle s’observe très facilement :
Si probabilité de stat du test < niveau de signification ( )) alors rejeter H0 mais si STCAL

>STCR, alors rejeter H0
Exemple
Probabilité associée à la valeur calculée ou observée de la statistique du test est du 0,0301
Elle s’avère inférieur au niveau de la signification (0,05). H0 est donc rejetée.
La valeur calculée de la statistique test. Z (1,88) est supérieur à 1,645 appartient à la zone de
rejet. On aboutit à la même conclusion.
2.7 – étape : conclusion pour l’étude

La conclusion tirée du test d’hypothèse doit exprimer en des termes adaptés au problème de
l’étude. S’agissant de l’exemple, on peut conclure que la proportion d’internautes effectuant
leurs achats en ligne s’avère de toute évidence très supérieure à 0,40. On conseillera au
magasin d’ouvrir son nouveau service d’achat internet.

II TRIS CROISES
NOTION
Malgré l’intérêt qu’elles présentent, les études portant sur une variable unique soulèvent
souvent de nouvelles interrogations quant à la manière de relier cette variable aux autres.
Exemple : combien la possession d’un produit est-elle liée à l’âge et au niveau d’études.
Les réponses à ce genre de questions s’obtiennent par l’examen des tris croisés.
On peut supposer que l’on cherche à déterminer l’existence d’une dépendance entre
l’utilisation d’internet et le sexe des utilisateurs.
Hommes Femmes Total ligne
Faible 5 10 15
Importante 10 5 15
Total obtenu 15 15
Tableau contingence : les variables ne sont pas censées adopter qu’une échelle nominale
1. STATISTIQUES ASSOCIÉS
2.1 - Khi-deux
Il sert à tester la signification d’une association observée par tri croisé. Il offre le moyen
de vérifier l’existence d’une association systématique entre les deux variables. Selon
l’hypothèse nulle H0 elle n’existe pas.
L’effectif que l’on serait en droit d’attendre si les variables ne présentaient aucune
association, est appelé effectif théorique.
NrN
f e
n n = total ligne nc = total colonne ni = taille de l’échantillon
15 x15 15 x15 15 x15 15 x15
30 30 30 30
L’équation suivante permet d’obtenir la valeur de x2
X 
2 
(f o fe)2
fe
X2 = ?
ddl = (l-1)(c-1) l= nombre de lignes ; c = nombre de colonnes
L’hypothèse nulle H0 qui suppose l’absence d’association entre les deux variables ne sera
rejetée qu’à la condition que la valeur de la statistique du test soit supérieure à la valeur
critique de la distribution du khi-deux.

ddl = (2-1)(2-1) = 1
X2 = 3,333 valeur critique = 3,841
Il est donc impossible de rejeter H0 ce qui montre que l’association n’est pas
statistiquement significative pour un seuil de confiance de ∂ = 0,05
2.2 - COEFFICIENT ϕ hi
Ce coefficient sert à mesurer l’intensité d’association dans le cas particulier d’un tableau 2 x 2
x2
ϕ= n
L’absence d’association se traduit par une valeur de o, qui est également celle de x2.
Lorsque les variables sont parfaitement associées, ϕ prend la valeur 1.
On obtient phi
x2 3,3
 0,333
∅= n 30
L’association n’est pas très faite.
2.3 – COEFFICENT DE CONTINGENCE

Contrairement au coefficient phi spécifique des tableaux 2 x 2 le coefficient de contingence
permet d’évaluer l’intensité d’association sur un tableau de taille quelconque.
x2
C= x2 n
C varie entre 0 et 1. La valeur 0 correspond à une absence d’association de valeur 1 n’est en
réalité jamais atteinte.
3,333
0,316
C= 3
,33330
Cette valeur montre que l’association n’est pas très forte.
2.3 - V de CRAMER
C’est une version modifiée du coefficient phi, adaptée aux tableaux présentant une taille
supérieure à 2 x 2. Pour ce genre de tableau, ∅ n’a pas sa valeur supérieure, le V de cramer

s’obtient en ajustant ∅ par rapport au nombre de ligne ou de colonnes V est compris entre 0 et
1 ; une valeur importante de V signale un haut degré d’association.
 2
V= (v1),(c1)
x2
n

= (v 1),(c 1) 
33333
1
30 0,333
= l’association n’est pas donc forte
3 - Tests paramétriques
Les tests paramétriques fournissent des informations qui permettent d’énoncer des
conclusions sur les moyennes des populations d’origine. Dans cette optique là, on utilise
couramment le test t qui s’appui sur la statistique student suppose que la variable adopte une
distribution normale que la moyenne soit connue et que la variance soit estimée à partir de
l’échantillon
X → N (U, S x ) U moyenne

Sx  S
X→N(U,S x ) n
t= ( X – u) /S x sont une distribution t de student

La procédure de test se déroule comme suit
1. Formuler les hypothèses nulles H0 et alternative H1
2. Définir la formule appropriée pour le calcul de t
3. Calculer un niveau de signification (…) (0,05)
4. Rassembler un échantillon, calculer la moyenne et l’’écart type.
5. Calculer la statistique t en considérant H0 comme vraie
6. Calculer les degrés de liberté et évaluer la probabilité d’obtenir une valeur
supérieure (ou calculer la valeur critique)
7. Si la probabilité calculée est inférieure au niveau de signification choisi, rejeter
H0 ; ou si la valeur de t est supérieur à la valeur critique, rejeter H0.

8. Exprimer la conclusion tirée du test t en des termes adaptés au problème d’étude.
3.1 – Echantillon Unique

Dans une étude, l’objectif du chargé d’études consiste généralement souvent à juger une
variable par rapport à une norme. Connue ou fixée, et affirmer par exemple que la part du
marché d’un nouveau produit excède 15%, que 65% des partenaires financiers apprécient
notre nouvelle politique tarifaire.
La moyenne de la population s’avère-t-elle conforme à l’hypothèse définie (H0)
Annexe cas 1
∂
On peut supposer que l’on souhaite vérifier l’hypothèse d’une moyenne de connaissance
dépassant 4,0 (valeur neutre sur une échelle de 1 à 7 points.
∂ = 0,05
H0 : U≤ 4,0
H1 : U > 4
x u
SX  S
T= S x n
1
,579 0
,293
= 29
t = (4,721-4) / 0,293 = 2,471

tn-1 = t28 (28 dl)
La valeur critique 1,7011 < 2,471. L’hypothèse H0 est donc rejetée. Le niveau de connaissance
excède 4.01
Si écart-type connu par exemple б=1,5
Alors la statistique Z = ( x)/x

(4 4)
,729
= 1,5/ 29
= 2,595
Z critique = 1,645 < valeur calculée (2,595). H0 est donc rejetée et la conclusion reste la
même.

TABleau I
N° du Sex connaissanc Utilisatio Attitude Attitude Achat Opératio

répondan e e n vis-à-vis vis-à-vis sur n
t d’Internet d’Interne de la Interne bancaire
t technologi t sur
e internet
1 1,00 7,00 14,00 7,00 6,00 1,00 1,00
2 2,00 2,00 2,00 3,00 3,00 2,00 2,00
3 2,00 3,00 3,00 4,00 3,00 1,00 2,00
4 2,00 3,00 3,00 7,00 5,00 1,00 2,00
5 1,00 7,00 13,00 7,00 7,00 1,00 1,00
6 2,00 4,00 6,00 5,00 4,00 1,00 2,00
7 2,00 2,00 2,00 4,00 5,00 2,00 2,00
8 2,00 3,00 6,00 5,00 4,00 2,00 2,00
9 2,00 3,00 6,00 5,00 4,00 1,00 2,00
10 1,00 9,00 15,00 7,00 6,00 1,00 2,00
11 2,00 4,00 3,00 4,00 3,00 2,00 2,00
12 2,00 5,00 4,00 6,00 4,00 2,00 2,00
13 1,00 6,00 9,00 6,00 5,00 2,00 1,00
14 1,00 6,00 8,00 3,00 2,00 2,00 2,00
15 1,00 6,00 5,00 5,00 4,00 1,00 2,00
16 2,00 4,00 3,00 4,00 3,00 2,00 2,00
17 1,00 6,00 9,00 5,00 3,00 1,00 1,00
18 1,00 4,00 4,00 5,00 4,00 1,00 2,00
19 1,00 7,00 14,00 6,00 6,00 1,00 1,00
20 2,00 6,00 6,00 6,00 4,00 2,00 2,00
21 1,00 6,00 9,00 4,00 2,00 2,00 2,00
22 1,00 5,00 5,00 5,00 4,00 2,00 1,00
23 2,00 3,00 2,00 4,00 2,00 2,00 2,00
24 1,00 7,00 15,00 6,00 6,00 1,00 1,00
25 2,00 6,00 6,00 5,00 3,00 1,00 2,00
26 1,00 6,00 13,00 6,00 6,00 1,00 1,00
27 2,00 5,00 4,00 5,00 5,00 1,00 1,00
28 2,00 4,00 2,00 3,00 2,00 2,00 2,00

29 1,00 4,00 4,00 5,00 3,00 1,00 2,00
30 1,00 3,00 3,00 7,00 5,00 1,00 2,00
CHAPITRE II : ANALYSE DE LA VARIANC E et de la

covariance
OBJECTIFS
 Considérer la portée de l’analyse de la variance ANOVA et ses liens avec le test t.

 Décrire l’analyse univariée de la variance
 Exposer l’analyse de la variance à plusieurs facteurs.
INTRODUCTION
L’analyse de la variance et l’analyse de la covariance servent à évaluer les écarts des valeurs
moyennes d’une variable dépendante sous l’effet de variables indépendantes contrôlées en
tenant compte de l’influence de variables indépendantes non contrôlées. Pour l’essentiel,
l’ANOVA permet (d’apporter) un test sur les moyens de deux ou plusieurs populations.
L’hypothèse nulle suppose l’égalité de toutes les moyennes.
On peut imaginer par exemple qu’un chargé d’étude se demande si les personnes caractérisées
par une consommation importante, moyenne, occasionnelle ou nulles de céréales se disputent
les uns des autres quant à leur performance pour les céréales d’une marque X. L’hypothèse
nulle, selon laquelle aucun des quatre groupes ne favoriserait plus qu’un autre la marque X,
pourrait être isolée au moyen d’une analyse de la variance.
Dans sa forme la plus simple, l’ANOVA .réclame une variance dépendante (la préférence à la
Marque X) de nature métrique. Il faut également disposer d’une variable indépendante
(consommation importante, moyenne occasionnelle) qui doit être qualitative.
I. ANOVA
 Les divers milieux socioprofessionnels présentent-ils des différences en terme de
consommation ?

 Comment les intentions d’achats des consommateurs varient-elles en fonction du
prix ?
Les réponses à ce genre de questions peuvent être obtenues au moyen d’une analyse univariée
de la variance.
NOTIONs STATISTIQUES
Eta2 (η2) : mesure l’intensité des effets de x (variable indépendante, ou facteur) sur y (variable
dépendante)
Test F : permet de vérifier l’hypothèse nulle qui suppose l’égalité des moyennes au sein de la
population étudiée.
Carré moyen : représente la somme des carrés divisée par les degrés de libertés appropriés.
SSinter également notée SSx : il s’agit de la variation de y liée à la variation dans les
moyennes des modalités de x
SSintra également notée SSerreur : il s’agit de la variation de y imputable à la variation
externe aux modalités de x.
SSy : variation totale de Y
EXECUTION D’UNE ANOVA
Identification des VAR dépendantes et indépendantes
Décomposition de la variation totale
Mesure des effets
Vérification de la signification
Interprétation des résultats
Identification

La variable indépendante est notée Y, la variation indépendantes X. X est une variable
qualitative à C modalités. Pour chaque modalité de X, il existe n observations de Y. La taille
de l’échantillon pour chaque modalité de X est égale à n, soit une taille totale de N= n x c.
Décomposition
La variation totale sur Y, notée SSy, se décompose en deux éléments : SSy = SSnter + SSntra
SSy = SSx + S Serreur
SSy =
(Y Y)
ii
i
2
SSn =
n(Y Y)
j1
j
2
C n
S Serreur =
(Y Y)
j i
ij j
2
Mesure des effets

Les effets de x sur y sont mesurés par la variable SSx parce qu’elle se trouve liée à la
variation des moyennes des modalités de x
SSx SServeur
(SSy )
η2 = SSy SSy
la valeur de η2 varie entre 0 et 1. Lorsque les moyennes sont identiques, elle est égale à 0 ; ce
qui signifie que X n’exerce aucun effet sur Y. η2 est égale à 1 lorsqu’on n’observe aucune
variabilité au sein de chacune des modalités de x, mais qu’il existe une certaine variabilité
entre les catégories.
η2 mesure donc la variation de Y expliquée par X.
Niveau de signification
L’intérêt d’une analyse univariée de la variance consiste à vérifier l’hypothèse nulle, qui
suppose l’égalité des moyennes pour chaque groupe dans la population. En d’autres termes :
N0 :  1= 2
= …… c

Dans le cadre de l’hypothèse nulle, SSx et SSerreur proviennent de la même source de
variation. Dans ce cas l’évaluation de la variance de y sur la population peut s’appuyer
soit sur la variation inter-groupe, soit sur la variation intra-groupe
En d’autres termes
SSx

Sy2 = c  1 carré Moyen dû à X = MSx
SSerreur

ou Sy2 = (N c) carré Moyen dû à l’erreur = MSerreur
H0 peut être testée par le test F
SSx
/(
C1)  MS
x
S
C
F = Serreur
(N ) MServeur
Cette statistique suit une loi FISHER-SNEDECoR à (C-1) et (N-C)ddl
Interprétation de résultats
Si H0 n’est pas rejetée, on en déduit que la variable indépendante n’exerce aucun effet
significative sur la variable dépendante.
A l’inverse, le rejet H0 caractérisera un effet significatif de la variable indépendante.
Illustration par l’exemple : tableau I annexe I

Les concepts présentés dans ce chapitre seront illustrés à l’ordre des données du tableau I
issues d’une expérience visant à évaluer l’effet commercial des promotions sur le lieu de
vente et les bons achats dans les divers établissements d’une chaine de magasins.
 Niveau de promo : élève (1), moyen (2) et faible (3)
 Couponnage selon que les clients recevaient un bon achat de 90 000 F ou ne le
recevait pas.
 3 magasins choisis au hasard dans ce réseau
 Les ventes ont été normalisées en fonctions de facteurs externes et converties sur une
échelle de 1 à 10.
 Le niveau de la clientèle a fait l’objet d’une évaluation quotidienne mesurée elle aussi
sur une échelle de 1 à 10.
ANOVA

Pour les besoins de l’application, on considère la manipulation d’un facteur unique en
l’occurrence, le niveau des promotions sur le lieu de vente de chacun des magasins étudiés on
cherche à déterminer l’effet de ses promotions (x) sur ses ventes (Y).
Hypothèse nulle H0 = U1= U2 = U3
Calculs : Y = 6,067
SSy = (10-6,097)2 + …………………..(2-6,027)2
= 185,867
SSx = 10(8,3-6,061)2 + 10(6,2 – 6,061)2+10(3,7-6,067)2
= 106,067
S Serreur = (10-8,3)2 + …. + (8 -6,2)2 + ……………(5 -3,7)2
=79,80
SSx
0,571
2
Intensité = η = SSy
57,1% de la variation des ventes (Y) est expliqué par les promotions sur le lieu de vente en
(x). un effet modeste.
MSx
106
,
067
/(
3
1)
17
,9444
79
,800
/(
F = MServeur
30
3)
Valeur critique F 2,27 = 3,35 pour ∂ = 3,35

F calculé >F 2,27 = valeur critique alors H0 et rejetée
ON en déduit que les moyennes de la population pour les trois niveaux de populations sont
effectivement différents.
II. II – ANALYSE DE LA VARIANCE A PLUSIEURS FACTEURS

(……………) dans l’application Informatique

Tableau II
N° du magasin Couponnage Promotion Ventes Classement clientèle

1 1 1 10 9
2 1 1 9 10
3 1 1 10 8
4 1 1 8 4
5 1 1 9 6
6 1 2 8 8
7 1 2 8 4
8 1 2 7 10
9 1 2 9 6
10 1 2 6 9
11 1 3 5 8
12 1 3 7 9
13 1 3 6 6
14 2 3 4 10
15 2 3 5 4
16 2 1 8 10
17 2 1 9 6
18 2 1 7 8
19 2 1 7 4
20 2 1 6 9
21 2 2 4 6
22 2 2 5 8

23 2 2 5 10
24 2 2 6 4
25 2 2 4 9
26 2 3 2 4
27 2 3 3 6
28 2 3 2 10
29 2 3 1 9
30 2 3 2 8
CHAPITRE III : ANALYSE FACTORIELLE
OBJECTIFS
1. Décrire le concept d’analyse factorielle
2. Etudier les méthodes pour conduire une analyse factorielle
I. CONCEPT DE BASE
L’analyse factorielle se rapporte à un ensemble de méthodes utilisées pour la sélection et la

synthèse de données. En matière de gestion et surtout en marketing, il peut exister un grand
nombre de variables, souvent corrélées. Il convient alors de les synthétiser afin de pouvoir en
tirer une information utilisable pour le management.
L’analyse factorielle repose sur un examen des inter dépendances entre toutes les variables.
Cette méthode est utilisée dans les cas suivants :
 Pour identifier les dimensions ou facteurs fondamentaux qui expliquent les
corrélations entre plusieurs variables
 Pour identifier un nouvel et plus petit ensemble de variables non corrélées, afin de
remplacer le premier ensemble de variables corrélés dans une analyse multi variée.
 Pour identifier un ensemble plus petit de variables déterminants à partir d’un ensemble
plus large afin de pouvoir lui appliquer une analyse multi variée.
Exemple d’application
 Segmentation de marché ;
 Recherche produit ;
 Etude prix

II. MODE D’ANALYSE FACTORIELLE
D’un point de vue mathématique, l’analyse factorielle est en quelque sorte comparable à
l’analyse par régression multiple dans laquelle chaque variable est exprimée sous la forme
d’une combinaison linéaire de facteurs fondamentaux. Le degré de variance qu’une variable
partage avec toutes les autres est appelé communalité. Si les variables sont standardisées, le
mode factoriel peut être représenté ainsi :
X i = Ai 1F1 + Ai2F2+……AimFn + Vi Ui
Xi = i variable centré réduite
Aij = coefficient de régression multiple centré réduite de la variable i sur le facteur comme J
F= facteur commun
Vi = coefficient de régression de la VAR i sur la composante spécifique i
Ui = composante spécifique terme d’erreur de mesure
M = le nombre de facteurs
Les composants ne sont pas corrélés entre eux ni avec les facteurs communs lesquels
s’expriment comme combinaisons linéaires des variables observées.
Fi = W i1X1 + Wi2X2 + …….WikXk
Fi = estimateur du ième facteur

Wi = coefficient de pondération ou score factoriel
K = nombre de variables
Il est possible de choisir les coefficients afin que le 1er facteur explique la plus grande partie
de la variance totale. Un 2ème ensemble de coefficient peut alors être choisi afin que le 2ème
facteur représente la majeure partie de la variance résiduelle, celle-ci n’étant pas forcément
corrélée au 1er facteur.
III. STATISTIQUES ASSOCIES
Les principales statistiques associées à l’analyse factorielle sont les suivantes :

Le test de supériorité de Barlett : utilisé pour tester l’hypothèse que les variables de la
population ne sont pas corrélées.
Matrice de corrélation : matrice à base triangulaire montrant les corrélations simples ® entre
toutes les paires possibles.
Communauté : valeur de la variance qu’une var partage avec toutes les autres variables. C’est
aussi la proportion de variance expliquée par ces facteurs principaux.
Valeur propre : représente la variance totale expliquée par chaque (…)

Loadings : corrélations entre les variables et les facteurs
Projection des variables : représentation graphique des variables d’origine.
Tableau des valeurs de corrélation : parfois appelé matrice factorielle. Ce tableau recense les
corrélations de toutes les variables par rapport à tous les facteurs.
Scores factoriels : pour chaque individu de l’étude ; ce sont les nouvelles coordonnées sur les
facteurs principaux
Mesure de l’indice d’adéquation de Kaiser-Meyer- Olkin (KMO) indice utilisée pour évaluer
l’adéquation de l’analyse factorielle laquelle est révélée par des valeurs élevées (entre 0,5 et
1).
Pourcentage de variance ; part de la variance totale attribuée à chaque facteur.
Résidus : différences entre les corrélations observées apparaissant dans la matrice de
corrélation et les corrélations reconstituées, estimées à partir de la matrice factorielle.
Scree test : graphique des valeurs propres en fonction des facteurs pros dans leur ordre
d’importance.
IV. MENER UNE ANALYSE FACTORIELLE
4.1- formulation du problème

Elle se fait en plusieurs étapes : les objectifs de l’analyse seront d’abord identifiés. Ces
variables à considérer doivent être déterminés à partir des résultats théoriques, de recherches
préalables et le jugement du chargé d’études.
Prenons l’exemple d’une étude portant sur les avantages fondamentaux recherchés par les
consommateurs lors de l’achat d’un dentifrice
Des personnes ont donné leur avis sur les affirmations suivantes sur une échelle de 1 à 7 (1 en
total désaccord)
V1 : il est important d’utiliser un dentifrice

V2 : un dentifrice doit rendre les dents brillantes
V3 : un dentifrice doit renforcer les gencives
V4 : un dentifrice doit rafraîchir l’haleine
V5 : la prévention des carries n’est pas un avantage important
V6 : un dentifrice doit avant tout donner de belles dents.

TABLEAU III
Répondant V1 V2 V3 V4 V5 V6
1 7 3 6 4 2 4
2 1 3 2 4 5 4
3 6 2 7 4 1 3
4 4 5 4 6 2 5
5 1 2 2 3 6 2
6 6 3 6 4 2 4
7 5 3 6 3 4 3
8 6 4 7 4 1 4
9 3 4 2 3 6 3
10 2 6 2 6 7 6
11 6 4 7 3 2 3
12 2 3 1 4 5 4
13 7 2 6 4 1 3
14 4 6 4 5 3 6
15 1 3 2 2 6 4
16 6 4 6 3 3 4
17 5 3 6 3 3 4
18 7 3 7 4 1 4
19 2 4 3 3 6 3
20 3 5 3 6 4 6
21 1 3 2 3 5 3
22 5 4 5 4 2 4
23 2 2 1 5 4 4
24 4 6 4 6 4 7
25 6 5 4 2 1 4
26 3 5 4 6 4 7
27 4 4 7 2 5
28 3 7 2 6 4 3
29 4 6 3 7 2 7

30 2 3 2 4 7 2
4.2 – calcul de la matrice des corrélations

Pour que l’analyse soit pertinente, les valeurs doivent être annulées (corrélées). En pratique,
c’est généralement le cas. En revanche, elle peut ne pas l’être si les corrélations entre toutes
les variables sont petites. Les variables qui sont fortement corrélées entre elles sont supposées
l’être également avec le même facteur.
Matrice de corrélations
V1 V2 V3 V4 V5 V6
V1 1
V2 -0,053 1
V3 0,873 -0,155 1
V4 -0,086 0,572 -0,248 1
V5 -0,858 0,020 -0,778 -0,007 1
V6 0,004 0,610 -0,018 0,340 -0,136 1
4.3 – Choisir une méthode d’analyse

Les méthodes les plus connues sont l’analyse en composants principales ou la variance
totale des données est considérée, et l’analyse classique à l’analyse des facteurs reposent
uniquement sur la variance commune.
ACP : RESULTATS
Test de Sphéricité de Barlett
Approximation chi – 2 à 111,214, ddl = 15, signification 0,000
KMO = 0,66
 Communalité
Variables Initiale Extraction
V1 1 0,926
V2 1 0,723
V3 1 0,894
V4 1 0,739
V5 1 0,878
V6 1 0,790

 Valeurs propres initiales
Facteur Valeur propre % variance % cumul
1 2,731 45,520 45,520
2 2,218 39,969 82,488
3 0,442 7,360 89,848
4 0,341 5,688 95,536
5 0,183 3,044 98,58
6 0,085 1,420 100
 Somme des carrés …………………………

Facteur Valeur propre % variance % cumul
1 2,771 45,520 45,520
2 2,718 39,969 82,488
 Matrice factorielle
Facteur 1 Facteur 2
V1 0,928 0,253
V2 -0,301 0,795
V3 0,936 0,131
V4 -0,342 0,789
V5 -0,869 -0,351
V6 -0,177 0,871
 Somme des carrés des loadings après rotation

Facteur Valeur propre % de variance % cumulé
1 2,688 44,802 44,802
2 2,261 37,687 82,488
 Matrice factorielle après rotation

Facteur 1 Facteur 2
V1 0,962 -0,027
V2 -0,057 0,848
V3 0,934 -0,146
V4 -0,098 0,854
V5 0,933 -0,084
V6 0,083 0,855

CHAPITRE IV : LA PREVISION DES
VENTES
Dans une économie de marché, il n’y a production que pour répondre à une demande. Ce constat
macroéconomique reste vrai au niveau de l’entreprise et justifie la place première de la prévision
des ventes dans les processus global de prévision.
Le caractère turbulent des marchés rend aujourd’hui l’exercice particulièrement difficile en
raison :
- du rythme rapide des innovations technologiques ;

- de l’évolution des goûts des consommateurs ;
- du développement de la concurrence nationale et internationale.
Une simple extrapolation des tendances observées risque donc de conduire à une évaluation peu
fiable des ventes futures.
L’entreprise dispose cependant de nouveaux outils pour procéder à ces prévisions ; les
technologies de l’information permettent à la fois :
- l’accès à de nombreuses sources de données internes et externes dans les délais très
rapides ; avec la prise en compte de certaines de ces données, il est alors possible d’intégrer
de nombreuses variables dans les modèles de prévision ;
- le traitement rapide de ces informations afin de les traduire en prévisions.
 Comment prévoir l’évolution des ventes à partir de l’observation des données passées ?
 Quelles autres variables faut-il intégrer pour l’élaboration des prévisions ?

I – LA PREVISION DES VENTES A PARTIR DE L’OBSERVATION DES
DONNEES PASSEES
1. PRINCIPE
On suppose que l’évolution des ventes observées sur le passé se prolongera sur les périodes à
venir.
2. LES BESOINS DE PREVISIONS DE LA SOCIETE BMT
La société BMT a pour activité la vente de systèmes d’alarme. Son activité commerciale est
segmentée en deux marchés distincts :
- le marché des particuliers (maisons et appartements) : P ;

- le marché des entreprises : E.
Le caractère porteur de ce marché lui a permis sur les cinq dernières années d’enregistrer les
ventes suivantes (en k €) :
Année N-4 N-3 N-2 N-1 N
Marché P 71 697 90 574 94 550 125 257 138 150
Marché E 77 328 85 235 108 556 142 341 192 529
Afin de déterminer sa production et les budgets associés, elle doit procéder à une estimation de
ses ventes pour l’année N+1.
3. LA PREVISION FONDEE SUR L’HYPOTHESE D’UNE TENDANCE LINEAIRE DES VENTES
L’observation sur le graphique d’une croissance continue peut suggérer la recherche d’une droite
d’ajustement linéaire entre le chiffre d’affaires y et le rang de l’année x à partir de la méthode des
moindres carrés.
3.1. Mise en œuvre de la méthode
a) Principe

Si y = ax + b est l’équation de la droite d’ajustement linéaire, les valeurs de a et b s’obtiennent à
partir des formules suivantes :
a  x y nxy
i i
x nx y ax
2 2
i et b =
n désigne le nombre de points,
 yyi
x xi et
n n désignent respectivement la moyenne des xi et la moyenne des yi.
b) Application au marché P de la société BMT
Le tableau de calcul serait ici le suivant :
2 2
xi yi xi yi x i y i
1 71 697 71 697 1 5 140 425 489
2 90 574 181 148 4 8 203 613 387
3 94 550 283 650 9 8 939 702 500
4 125 257 501 028 16 15 689 316 049
5 138 150 690 750 25 19 085 422 500
Somme 15 520 228 1 728 272 55 57 058 479 925
Moyenne 3 104 046

a

1728272
53104046

16759
2

55
5
3
b = 104 046 – 16 759 x 3 = 53 769
Le chiffre d’affaires y s’exprimerait ainsi en fonction du rang x de l’année :

Y = 16 759x + 53 769
Pour l’année N+1 (rang 6), la prévision serait la suivante :

y = 16 759 x 6 + 53 769 soit 154 323 €

3.2. Intérêt et limites du modèle
La réalisation de prévisions à partir du modèle linéaire repose sur un certain nombre

d’hypothèses qu’il convient d’expliciter.
 Le facteur temps (représenté ici par le rang de l’année) est l’unique facteur déterminant du
montant des ventes. On fait donc abstraction des effets que peuvent avoir les actions
mercatiques propres à l’entreprise (prix, publicité, promotions, etc.) ; celle-ci est censée
seulement « suivre son marché ».
 La tendance observée sur les années sera confirmée dans le futur. On suppose donc qu’aucun
élément déterminant n’est susceptible de perturber ce marché dans les prochaines années
(innovations technologiques majeures, arrivée de nouveaux concurrents, évolutions
sociologiques des consommateurs, etc.).
 Une évolution linéaire représente correctement la tendance observée. Dans un premier

temps, la validité de cette hypothèse peut être appréciée visuellement à partir du graphique :
existe-t-il une droite qui passe à proximité de l’ensemble des points ? Elle peut être testée par
le coefficient de corrélation linéaire dont la formule de calcul est la suivante :
r  xynxy i i
xnx yny2
i
2 2
i
2
r 

1728272
53104046
 0
,
979
2 2
Soit ici : 55
5
3
 
5705847992
55
104046
Si une valeur proche de 1 est le signe d’un bon ajustement, cette conclusion doit être relativisée
en fonction du nombre de valeurs très faible ici (5 valeurs seulement).
4. LA PREVISION FONDEE SUR L’HYPOTHESE D’UNE TENDANCE EXPONENTIELLE DES VENTES
4.1. Présentation de la méthode
La relation entre y et x dans l’hypothèse d’une tendance exponentielle est donnée par l’équation
suivante : y = B.Ax
Le rang de la période (donc le temps) figure en exposant.
La formule précédente s’écrit comme suit en passant aux logarithmes :
log y = log B + x log A.
Si on pose b = log B et a = log A, on obtient log y = ax + b.

Autrement dit, on est ramené à un ajustement linéaire entre log y et x.
Les formules données pour l’ajustement linéaire s’appliquent en remplaçant y par log y.
ynxlog
xlog i
yi
r
Soit a = xnx et b = logyax
2
i
2
 xi logy
x y
log i
avec n et n
4.2. Le cas du marché des entreprises de la société BMT
Les ventes passées ont été les suivantes (en k€) :
N-4 N-3 N-2 N-1 N

77 328 85 235 108 556 142 341 192 529
2
xi yi Log yi xi log yi x i
1 77 328 4,88834 4,88834 1
2 85 235 4,93062 9,86124 4
3 108 556 5,03565 15,10696 9
4 142 341 5,15333 20,61332 16
5 192 529 5,28450 26,42248 25
Somme 15 605 989 25,29243 76,89234 55
Moyenne 3 121 197,8 5,05849

a
76
, 
89234
535,
05849

0,
10150
2

55
5
3
b = 5,05849 – 0,10150 x 3 = 4,754

a = log A ↔ A = 10a = 100,10150 = 1,26329
b = log B ↔ B = 104,754 = 56 754
L’équation de la courbe d’ajustement s’écrira donc : y = 56 754 x 1,26329x

Pour l’année N+1 (x=6), la prévision est donc de : 56 754 x 1,263296 = 230 682 k€.

Sur le graphique page suivante, on a reporté la courbe correspondant à l’ajustement exponentiel.
On voit que cette courbe rend mieux compte qu’une droite de l’accélération de l’accroissement
des ventes.
En effet, l’équation y = 56 754 x 1,26329x traduit le fait que, lorsque x augmente d’une unité, les
ventes sont multipliées par 1,26329 soit un accroissement de 26,329 %.
La courbe exponentielle permet donc d’ajuster des phénomènes connaissant des taux
d’accroissement sensiblement constants ce qui est souvent le cas en économie, alors qu’avec une
droite d’ajustement ce sont les accroissements en valeur absolue qui sont supposés constants.
5. L’ARBITRAGE ENTRE AJUSTEMENT LINEAIRE ET AJUSTEMENT EXPONENTIEL
On retiendra l’ajustement exponentiel lorsque les valeurs numériques et/ou l’observation

graphique mettent en évidence sur chaque période une multiplication par un coefficient
sensiblement constant (progression géométrique). L’ajustement linéaire sera préféré lorsque ce
sont les variations en valeur absolue qui présenteront une certaine constance.
L’allure graphique des courbes obtenues à partir des séries de données aide à l’identification du
type d’évolution, linéaire ou exponentiel.
Indépendamment de ces observations, le choix peut parfois se fonder sur la notion de cycle de
vie du produit.
Les représentations de ce cycle mettent généralement en évidence quatre grandes phases :
démarrage, croissance, maturité, déclin.
Aux différentes phases du cycle de vie pourront donc correspondre des fonctions d’ajustement
différentes ; il convient pour la prévision de bien identifier dans quelle phase se situe
actuellement le produit.
6. AUTOMATISATION DE LA MISE EN ŒUVRE DES AJUSTEMENTS
6.1.Calculatrices disposant de fonctions statistiques
En entrant les deux séries de valeurs, on peut obtenir directement :
- La valeur des paramètres de l’ajustement linéaire ;

- La valeur du coefficient de corrélation.

Certaines disposent en plus des fonctionnalités relatives à l’ajustement exponentiel.
La procédure à suivre dépend évidemment du matériel utilisé.
6.2. Mise en œuvre des ajustements sur les logiciels outils
Les logiciels tableurs les plus courants (Excel, Open office) disposent de fonctions permettant
d’obtenir directement les principaux résultats relatifs aux ajustements linéaires et exponentiels.
a) Fonctions relatives à l’ajustement linéaire
Reprenons l’exemple du marché P de la société BMT (cas de l’ajustement linéaire), X et Y

désignant les zones contenant respectivement l’ensemble des valeurs de x et de y.
La fonction = DROITEREG(Y ; X ; VRAI ; VRAI) donnerait ici les valeurs suivantes :
Valeur de Valeur de
16 759 53 769
2 021 6 702
0,958 6 390,273
Valeur de
68,779 3 Variance
2 808 630 014 122 506 776
En plus des paramètres déjà calculés (a, b et r2), on obtient un certain nombre de données
caractéristiques de la valeur de l’ajustement.
La variance résiduelle est la somme des carrés des écarts entre :
Les valeurs réelles yi, et les valeurs

y ' irésultant de l’ajustement.
C’est cette somme que la droite des moindres carrés minimise.
Les autres paramètres obtenus sont significatifs de la valeur de l’ajustement mais leur
interprétation dépasserait le cadre de cet ouvrage.
La fonction = TENDANCE (Y ; X ; W) permet d’obtenir directement les prévisions pour un

ensemble de valeurs W de X.
Supposons que l’on veuille ici obtenir les prévisions pour les trois prochaines années (rang 6,7,8),
on rentrera dans la zone W ces trois valeurs.
X 1 2 3 4 5

Y 71 697 90 574 94 550 125 257 138 150
W 6 7 8
154 322 171 081 187 840
Formule :
= TENDANCE (Y ;X ;W)
b) Fonctions relatives à l’ajustement exponentiel
Cet ajustement s’écrit sous la forme : y = B.Ax

La fonction = LOGREG(Y ;X ;VRAI ; VRAI) donnerait ici les valeurs suivantes :
Valeur de Valeur de
1,2633 56 751,5475
0,0225 0,0747
0,9729 0,0712
Valeur de
107,7134 3,0000 Variance
0,5462 0,0152 résiduelle des log
La fonction = CROISSANCE(Y ; X ; W) permet d’obtenir directement les prévisions correspondant à

un ajustement exponentiel pour un ensemble de valeurs W de X.
Supposons que l’on veuille ici obtenir les prévisions de ventes du marché E pour les trois
prochaines années (rang 6,7,8), on rentrera dans la zone W ces trois valeurs.
X 1 2 3 4 5
Y 77 328 85 235 108 556 142 341 192 529
W 6 7 8
230 673 291 407 368 131
Formule :
= CROISSANCE (Y ;X ;W)
On obtient pour résultat : 230 763, 291 407, 368 131.

Ces trois valeurs correspondent bien (aux arrondis près) aux valeurs de la fonction

y = 56 754 x 1,2633x pour x prenant les valeurs 6,7 et 8.
II – LA PRISE EN COMPTE DES VARIATIONS SAISONNIERES

1. LA SAISONNALITE DES VENTES
Indépendamment des tendances d’évolution à moyen terme, l’activité de l’entreprise dans

l’année est pour beaucoup de secteurs, influencée par les saisons.
1.1.Le cas BMT
Supposons ici que les ventes aux particuliers de la société BMT soient ainsi détaillées sur les trois
dernières années :
N-2 N-1 N
Trimestre 1 18 912 25 052 27 635
Trimestre 2 28 362 37 579 41 440
Trimestre 3 33 098 43 837 48 357
Trimestre 4 14 178 18 789 20 718
Total 94 550 125 257 138 150
1.2.Mise en évidence de la saisonnalité
En numérotant les trimestres de 1 à 12 (1 pour le trimestre 1 de l’année N-2, 12 le trimestre 4 de

l’année N)
Le schéma fait ressortir clairement une tendance générale à la hausse, mais les ventes par
trimestre enregistrent des fluctuations saisonnières autour de cette tendance ; selon la position
du trimestre dans l’année, on observe des ventes :
- Proches de la tendance pour les premiers trimestres de l’année (1, 5, 9) ;

- Au-dessus de la tendance pour les deuxièmes et troisièmes trimestres (2, 3, 6, 7, 10,11) ;
- En dessous de la tendance pour les quatrièmes trimestres (4, 8, 12).
Selon ce modèle, on est donc amené à faire l’hypothèse que les ventes trimestrielles yt sont la
résultante :
- D’une composante tendancielle Wt (représentée sur le schéma par la droite) qui est une
fonction du numéro t du trimestre ;

- D’une composante saisonnière cr qui est une fonction de la position r du trimestre dans
l’année.
Dans ce qui suit, nous supposerons que ces composantes jouent de façon multiplicative, c’est-à-
dire que l’on peut écrire :
Y t = Wt x Cr
Ventes Tendanc Composant

du e
2. DETERMINATION D’UNE SERIE CORRIGEE DES VARIATIONS SAISONNIERES
2.1.Le principe de la désaisonnalisation
Afin de prévoir les ventes de la période t, il convient donc :
- De prévoir la valeur de la tendance Wt pour la période ;

- De multiplier par le coefficient Cr correspondant au rang de la période dans l’année.
La prévision de Wt suppose que l’on dispose d’une série corrigée des variations saisonnières.
Les valeurs de Cr sont telles que sur l’ensemble de l’année, leur moyenne est égale à 1.
Yt
Wt
L’équation Yt = Wt x Cr permet d’écrire : Cr
Autrement dit, en connaissant les données observées (Yt) et les coefficients saisonniers (Cr), on
peut reconstituer une série corrigée des variations saisonnières qui représentera la composante
tendancielle encore appelée « tendance » ou « trend ».
2.2.Application au cas BMT
Supposons que ces coefficients saisonniers soient ici les suivants :

Premier Deuxième Troisième Quatrième
trimestre trimestre trimestre trimestre
0,90 1,25 1,30 0,55
On obtient la série corrigée des variations saisonnières en divisant les données observées par le
coefficient saisonnier.
Trimest 1 2 3 4 5 6 7 8 9 1 1 12
re t 0 1
Données 1 2 3 14 25 375 4383 187 2 4 4 207
observée 8 8 3 17 052 79 7 89 7 1 8 18
s yt 9 3 0 8 6 4 3
1 6 9 3 4 5
2 2 8 5 0 7
Coefficien 0, 1, 1, 0, 0,9 1,2 1,3 0,5 0 1 1 0,5
t 9 2 3 55 5 5 , , , 5
saisonnie 5 9 2 3
r 5
Série 2 2 2 25 278 300 3372 341 3 3 3 376
corrigé 1 2 5 77 36 63 1 62 0 3 7 69
des 0 6 4 8 7 1 1
variations 1 9 6 0 5 9
saisonniè 3 0 0 6 2 8
res
Le report de cette série sur le graphique montre qu’elle est beaucoup plus régulière que la série
des données observées.
2 DETERMINATION DES COEFFICIENTS SAISONNIERS
2.3.Démarche générale
Afin de calculer ces coefficients saisonniers, il faut que l’on dispose d’une série qui élimine les
incidences saisonnières.
Le rapport entre les données observées et les valeurs de cette série pourra alors donner une
estimation de ces coefficients.
2.4.Obtention d’une série désaisonnalisée à partir des moyennes mobiles
a) Principe
Une moyenne mobile est une moyenne calculée sur un certain nombre de points adjacents.

Puisqu’il s’agit ici d’éliminer des variations saisonnières, il convient de retenir un nombre de
valeurs correspondant au nombre de périodes contenues dans l’année, soit 4 lorsque les données
sont trimestrielles.
Le nombre 4 étant pair, on serait ainsi amené à retenir Yt-2, Yt-1, Yt, Yt+1 ou Yt-1, Yt, Yt+1, Yt+2.
Dans les deux cas, on ne serait pas centré sur la période t.

On retient donc 5 valeurs de Yt-2 à Yt+2 en appliquant les coefficients ½ aux 2 valeurs extrêmes.
0,
5y y t
yy 
0,
5y
't

t2 
t1 
t1 
t 2
Y 4
On a donc :
De cette façon, chaque trimestre de l’année est représenté avec le même poids dans la moyenne.
Une telle moyenne mobile est dite centrée.
b) Application au cas BMT
Trimest 1 2 3 4 5 6 7 8 9 1 1 12
re t 0 1
Données 1 2 3 14 25 375 4383 187 2 4 4 207
observée 8 8 3 17 052 79 7 89 7 1 8 18
s yt 9 3 0 8 6 4 3
1 6 9 3 4 5
2 2 8 5 0 7
Moyenne 2 26 288 307 3163 324 3 3
mobile y’ t 4 32 19 38 7 43 3 4
4 5 4 2
0 9 9
5 0 6
Par exemple :
 
0
,
5  
18912
28362
33098
14178
0,
525052

24405
Y
'
3
4
Compte tenu de la structure de la formule, on ne peut évidemment pas l’appliquer aux deux
premières et aux deux dernières valeurs de t.
Graphiquement, la courbe des moyennes mobiles apparaît comme beaucoup plus régulière que
celle des données brutes (ou données observées), puisque l’on a éliminé, de par son mode de
calcul, l’influence des variations saisonnières.

2.5.Détermination des coefficients saisonniers à partir des moyennes mobiles
a) Principe
Le rapport entre données observées yt et moyennes mobiles yt’ donne une estimation des
coefficients saisonniers, à condition qu’ils présentent sur les différentes années une certaine
constance.
Si tel n’était pas le cas, cela signifierait qu’un facteur autre que les saisons, explique certaines
fluctuations périodiques.
b) Application au cas BMT
Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4

Yt Y’ Y Yt Y’ Y Yt Y’ Y Yt Y’ Y
t t t t t t t t
/ / / /
y y y y
’t ’t ’t ’t
A 1 2 3 2 1 1 2 0
n 8 8 3 4 , 7 6 ,
n 9 3 0 4 3 1 3 5
é 1 6 9 0 6 7 2 4
e 2 2 8 5 8 5
N
-2
A 2 2 0 3 3 1 4 3 1 1 3 0
n 5 8 , 7 0 , 3 1 , 8 2 ,
n 0 8 8 5 7 2 8 6 3 7 4 5
é 5 1 7 7 3 2 3 3 9 8 4 8
e 2 9 9 8 7 7 9 3
N
-1
A 2 3 0 4 3 1 4 2
n 7 3 , 1 4 , 8 0
n 6 4 8 4 2 2 3 7
é 3 9 3 4 9 1 5 1
e 5 0 0 6 7 8
N
On remarque que sur chacune des deux années pour laquelle on dispose du calcul, les
coefficients calculés sont relativement proches ce qui confirme les hypothèses du modèle.
On retient pour valeur définitive du coefficient de chaque trimestre la moyenne des deux valeurs
obtenues ; soit :
Trimestre 1 : 0,85 ; trimestre 2 : 1,215 ; trimestre 3 : 1,375 ; trimestre 4 :0,56.
Dans certains cas, il conviendra d’arrondir des coefficients pour que la somme soit exactement
égale à 4.

3. UTILSIATION DE CES DONNEES POUR LA PREVISION
3.1.Démarche
Que les coefficients saisonniers aient été fournis ou calculés, ils peuvent être mis en œuvre pour
une prévision des ventes. Cette prévision se fait en deux étapes :
- Prévision de la composante tendancielle à partir de la série corrigée des variations

saisonnières ;
- Prévision des ventes par trimestres par application des coefficients saisonniers.
3.2.Application au cas BMT
a) Prévision de la tendance
La prévision doit porter ici sur les quatre trimestres de l’année N+1 qui sont numérotés de 13 à
16.
La prévision de la tendance nécessite un ajustement de la série corrigée des variations
saisonnières (ici la série des moyennes mobiles centrées).
Trimest 3 4 5 6 7 8 9 10
re t
Moyen
ne 244 263 288 307 316 324 334 342
mobile 05 25 19 38 37 43 90 96
Y’t
La fonction DROITEREG donne la valeur des paramètres de l’ajustement de y en fonction de t : a =

1 391 et b = 21 228, soit y’ t = 1 391 t + 21 228.
On obtient les prévisions de la tendance en remplaçant t par les valeurs 13, 14, 15, 16.
Trimestre 13 14 15 16
Prévision 39311 40702 42093 43484
b) Prévision des ventes trimestrielles
Pour chaque trimestre, on multiplie la prévision de tendance par le coefficient saisonnier propre
au trimestre.

Trimestre 13 14 15 16
Prévision de la 39311 40702 42093 43484
tendance
Coefficient saisonnier 0,85 1,215 1,375 0,56
Prévision des ventes 33414 49453 57878 24351
du trimestre
III – L’INTEGRATION D’AUTRES VARIABLES DANS LA PREVISION
L’application de la démarche précédente de prévision repose implicitement sur deux hypothèses :
 Le temps, par sa composante tendancielle et par sa composante saisonnière, serait la seule

variable explicative de l’évolution des ventes. Or de nombreux phénomènes externes sont
susceptibles de contrarier cette évolution tendancielle :
- Facteurs macroéconomiques : croissance ou récession économique, inflation, évolution de la

consommation, de l’investissement, etc. ;
- Evolution de la concurrence ;
- Innovations technologiques qui peuvent rendre les produits vendus par l’entreprise obsolètes
ou, au contraire, en phase avec la demande.
 L’entreprise ne serait pas en mesure, par son action propre d’infléchir cette évolution
naturelle du marché. Or c’est précisément le rôle de l’action commerciale de jouer sur un
certain nombre de variables pour que son activité future soit compatible avec les orientations
stratégiques qu’elle a définies.
1. LA PRISE EN COMPTE DE DONNES EXTERNES
Les ventes de l’entreprise sont largement dépendantes de la situation de son environnement :
- Environnement macroéconomique ;
- Concurrence.
La connaissance de prévisions concernant cet environnement lui permettra dans tous les cas
d’affiner et de fiabiliser ses propres prévisions. Les nouvelles technologies de l’information
(Internet en particulier) facilitent cette connaissance.
1.1.Les sources d’informations macroéconomiques

Certaines variables macroéconomiques ont un impact direct sur l’activité de l’entreprise :
évolution du pouvoir d’achat des ménages, situation du marché de l’emploi, investissement des
entreprises.
Les instituts de statistiques sont dans ce domaine, le principal fournisseur d’informations et
permet d’anticiper l’évolution de ces variables macro économiques par le biais en particulier de
ses enquêtes conjoncturelles et trimestrielles.
Mais d’autres organismes sont aussi à même de fournir une information plus ciblée : les
chambres de commerce, les organismes professionnels.
L’activité de l’entreprise est souvent liée plus directement à certaines données sectorielles. Dans
le cas de BMT, on peut supposer que son activité est très dépendante de celle du secteur du
bâtiment. Or les données concernant ce secteur peuvent assez bien être anticipées par des
informations telles que les mises en chantier ou le nombre de permis de construire, données qui
sont accessibles localement et au niveau national.
Eventuellement, des études de corrélation entre les ventes et l’une ou plusieurs de ces variables
serviront de base aux prévisions.
1.2.L’étude de la concurrence
Une bonne connaissance de la concurrence est indispensable, tant pour prévoir les ventes de
l’entreprise que pour adapter son action commerciale.
Elle repose :
- En premier lieu sur la qualité de la veille informationnelle menée ; celle-ci doit porter à la fois
sur les aspects technologiques des produits offerts par les concurrents et sur les actions qu’ils
mènent pour vendre ces produits (publicité, promotion, réseau de distribution, etc.) ;
- Eventuellement sur des études spécifiques (type études de marché).
2. LA PRISE EN COMPTE DE DONNEES INTERNES
L’évolution des ventes de l’entreprise est avant tout liée à sa propre action commerciale. Les
choix qu’elle est amenée à faire en matière de prix, de budget publicitaire, de réseau de
distribution, ont une incidence directe sur ses ventes actuelles et futures.
2.1.L’action sur le prix
L’incidence du prix de vente sur le chiffre d’affaires est à la fois :

- Directe, puisque le prix est, avec les quantités vendues, l’un des deux facteurs constitutifs du
chiffre d’affaires ;
- Indirecte, dans la mesure où le niveau de prix retenu est susceptible d’influer sur les
quantités vendues.
Cette relation prix-quantité peut parfois être approchée à partir de la notion d’élasticité. Celle-ci
se définit comme le rapport entre la variation relative des quantités et la variation relative des
prix. Ce rapport est normalement négatif ; une valeur de -2 signifie, par exemple, qu’un
accroissement 10 % du prix de vente entraînera une réduction de 20 % des quantités vendues.
Mai l’approche du prix de vente peut être différente en fonction du marché et du mode de
management de l’entreprise :
- Dans un certain nombre de cas, le prix est imposé par le marché et l’entreprise n’a que le
choix entre vendre à ce prix ou ne pas vendre ;
- Souvent encore, l’entreprise fixe son prix de vente en fonction de son coût de revient complet
et d’un taux de rentabilité attendu. Cette pratique peut ne pas être optimale en termes de
résultat et conduire à des subventionnements croisés par produit, compte tenu de l’arbitraire
qu’il peut y avoir dans la répartition de charges indirectes.
2.2.La prise en compte d’autres variables de l’action commerciale
La concurrence s’exerce aujourd’hui non seulement sur le prix, mais sur l’ensemble des variables
de l’action commerciale : promotion, publicité, réseau de distribution, etc. En fonction des
moyens qu’elle a décidé de consacrer à ces différentes actions, l’entreprise pourra
éventuellement affiner ses prévisions de vente. Des études de corrélation peuvent être menées
dans cette optique.
Exemple : Pour un produit de grande consommation distribué en grande surface, la société Z a pu

observer sur 6 périodes la relation entre ses ventes et le budget consacré à des actions de
promotion sur les lieux de ventes.
Les résultats ont été les suivants :
Période 1 2 3 4 5 6
Ventes 164 163 163 161 162 165
Yt 701 350 032 145 141 239
Budget 6 5 5 5 5 7
Xt 394 707 893 070 573 057

L’application sur tableur de la fonction = DROITEREG aux données Yi et Xi donne pour résultat y =
2,12x + 150 622 avec un coefficient de corrélation de 0,96.
On peut en déduire, toutes choses, étant égales par ailleurs, que chaque euro supplémentaire
consacré à la promotion sur les lieux de vente induit un chiffre d’affaires de 2,12 €.
Si le budget prévu pour la prochaine période est de 8 000 €, on peut attendre un chiffre d’affaires
global de 2,12 x 8 000 + 152 000 = 167 582 €.

Analyses de Données Master-1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyses de Données Master-1

Transféré par

Droits d'auteur :

Formats disponibles

CHAPITRE I : TESTS D ’HYPOTHESES , Tris

1 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

2. 1 – formuler les hypothèses

2 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

2.2 – étape 2 : choisir un test approprié

2.3 – étape 3 : choisir le niveau de signification

2.4 – Collecter les données et calculées la statistique du test

2.5 – étape 5 : déterminer la probabilité valeur critique

3 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

2.6 - étape 6 : comparer la probabilité et prendre la décision

>STCR, alors rejeter H0

2.7 – étape : conclusion pour l’étude

4 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

5 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

2.3 – COEFFICENT DE CONTINGENCE

6 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

t= ( X – u) /S x sont une distribution t de student

7 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

3.1 – Echantillon Unique

t = (4,721-4) / 0,293 = 2,471

Alors la statistique Z = ( x)/x

8 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

N° du Sex connaissanc Utilisatio Attitude Attitude Achat Opératio

9 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

CHAPITRE II : ANALYSE DE LA VARIANC E et de la

 Considérer la portée de l’analyse de la variance ANOVA et ses liens avec le test t.

10 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

EXECUTION D’UNE ANOVA

Identification des VAR dépendantes et indépendantes

Décomposition de la variation totale

Mesure des effets

Interprétation des résultats

11 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

SSy = SSx + S Serreur

Mesure des effets

12 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

Cette statistique suit une loi FISHER-SNEDECoR à (C-1) et (N-C)ddl

Illustration par l’exemple : tableau I annexe I

13 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

Valeur critique F 2,27 = 3,35 pour ∂ = 3,35

II. II – ANALYSE DE LA VARIANCE A PLUSIEURS FACTEURS

14 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

N° du magasin Couponnage Promotion Ventes Classement clientèle

15 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

CHAPITRE III : ANALYSE FACTORIELLE

L’analyse factorielle se rapporte à un ensemble de méthodes utilisées pour la sélection et la

16 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

Fi = estimateur du ième facteur

III. STATISTIQUES ASSOCIES

Les principales statistiques associées à l’analyse factorielle sont les suivantes :

17 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

IV. MENER UNE ANALYSE FACTORIELLE

4.1- formulation du problème

V1 : il est important d’utiliser un dentifrice

18 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

19 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

4.2 – calcul de la matrice des corrélations

4.3 – Choisir une méthode d’analyse

20 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur

 Somme des carrés …………………………

 Somme des carrés des loadings après rotation

 Matrice factorielle après rotation

21 Année académique 2010-2011 – M. GAYE – les Cahiers du Formateur