Académique Documents
Professionnel Documents
Culture Documents
croisés
Objectifs :
- Expliquer l’analyse des données par tris croisés et les statistiques qui s’y
rapportent
- Expliquer l’analyse des données par tests d’ hypothèses paramétriques pour un
échantillon
I TESTS D ’HYPOTHESES
INTRODUCTION
L’analyse de base de données implique obligatoirement les tests d’hypothèses. Les exemples
d’hypothèses par les études sont légion.
Le grand magasin est fréquenté par plus de 10% des foyers
Un hôtel possède une image plus haut de gamme que son concurrent.
Les clients assidus et occasionnels d’une marque se différencient par leurs caractéristiques
psychographiques.
La procédure générale applicable à un test d’hypothèse portant sur un large éventail de
paramètres est abordée aux pages qui suivent.
2 - Procédure générale
Un test d’hypothèse implique les chapitres suivants
1) Formuler l’hypothèse nulle H0 et l’hypothèse alternative H1
2) Choisir une méthode statistique appropriée et la statistique du test correspondante
3) Choisir le niveau de signification x
4) Déterminer la taille de l’échantillon et collecter les données. Calculer la valeur de la
statistique du test.
5) Déterminer la probabilité souciée à la statistique du test dans le cadre de l’hypothèse
nulle, en utilisant la distribution d’échantillonnage de cette statistique.
Alternativement, déterminer les valeurs critiques de la statistique.
(
1
) 0
,40
x
0,60
0,089
бp = n 30
p 0 0
,567,40
1,88
Z= p 0,089
critique est égale à ( ) ou à ( /2) : ( ) pour un test unilatéral et ( /2.) pour un test
bilatéral.
Exemple
Probabilité associée à la valeur calculée ou observée de la statistique du test est du 0,0301
Elle s’avère inférieur au niveau de la signification (0,05). H0 est donc rejetée.
La valeur calculée de la statistique test. Z (1,88) est supérieur à 1,645 appartient à la zone de
rejet. On aboutit à la même conclusion.
Tableau contingence : les variables ne sont pas censées adopter qu’une échelle nominale
1. STATISTIQUES ASSOCIÉS
2.1 - Khi-deux
Il sert à tester la signification d’une association observée par tri croisé. Il offre le moyen
de vérifier l’existence d’une association systématique entre les deux variables. Selon
l’hypothèse nulle H0 elle n’existe pas.
L’effectif que l’on serait en droit d’attendre si les variables ne présentaient aucune
association, est appelé effectif théorique.
NrN
f e
n n = total ligne nc = total colonne ni = taille de l’échantillon
15 x15 15 x15 15 x15 15 x15
30 30 30 30
L’équation suivante permet d’obtenir la valeur de x2
X
2
(f o fe)2
fe
X2 = ?
ddl = (l-1)(c-1) l= nombre de lignes ; c = nombre de colonnes
L’hypothèse nulle H0 qui suppose l’absence d’association entre les deux variables ne sera
rejetée qu’à la condition que la valeur de la statistique du test soit supérieure à la valeur
critique de la distribution du khi-deux.
2.2 - COEFFICIENT ϕ hi
Ce coefficient sert à mesurer l’intensité d’association dans le cas particulier d’un tableau 2 x 2
x2
ϕ= n
L’absence d’association se traduit par une valeur de o, qui est également celle de x2.
Lorsque les variables sont parfaitement associées, ϕ prend la valeur 1.
On obtient phi
x2 3,3
0,333
∅= n 30
L’association n’est pas très faite.
x2
C= x2 n
C varie entre 0 et 1. La valeur 0 correspond à une absence d’association de valeur 1 n’est en
réalité jamais atteinte.
3,333
0,316
C= 3
,33330
Cette valeur montre que l’association n’est pas très forte.
2.3 - V de CRAMER
C’est une version modifiée du coefficient phi, adaptée aux tableaux présentant une taille
supérieure à 2 x 2. Pour ce genre de tableau, ∅ n’a pas sa valeur supérieure, le V de cramer
2
V= (v1),(c1)
x2
n
= (v 1),(c 1)
33333
1
30 0,333
= l’association n’est pas donc forte
3 - Tests paramétriques
Les tests paramétriques fournissent des informations qui permettent d’énoncer des
conclusions sur les moyennes des populations d’origine. Dans cette optique là, on utilise
couramment le test t qui s’appui sur la statistique student suppose que la variable adopte une
distribution normale que la moyenne soit connue et que la variance soit estimée à partir de
l’échantillon
X → N (U, S x ) U moyenne
Sx S
X→N(U,S x ) n
Annexe cas 1
∂
On peut supposer que l’on souhaite vérifier l’hypothèse d’une moyenne de connaissance
dépassant 4,0 (valeur neutre sur une échelle de 1 à 7 points.
∂ = 0,05
H0 : U≤ 4,0
H1 : U > 4
x u
SX S
T= S x n
1
,579 0
,293
= 29
OBJECTIFS
INTRODUCTION
L’analyse de la variance et l’analyse de la covariance servent à évaluer les écarts des valeurs
moyennes d’une variable dépendante sous l’effet de variables indépendantes contrôlées en
tenant compte de l’influence de variables indépendantes non contrôlées. Pour l’essentiel,
l’ANOVA permet (d’apporter) un test sur les moyens de deux ou plusieurs populations.
L’hypothèse nulle suppose l’égalité de toutes les moyennes.
On peut imaginer par exemple qu’un chargé d’étude se demande si les personnes caractérisées
par une consommation importante, moyenne, occasionnelle ou nulles de céréales se disputent
les uns des autres quant à leur performance pour les céréales d’une marque X. L’hypothèse
nulle, selon laquelle aucun des quatre groupes ne favoriserait plus qu’un autre la marque X,
pourrait être isolée au moyen d’une analyse de la variance.
Dans sa forme la plus simple, l’ANOVA .réclame une variance dépendante (la préférence à la
Marque X) de nature métrique. Il faut également disposer d’une variable indépendante
(consommation importante, moyenne occasionnelle) qui doit être qualitative.
I. ANOVA
Les divers milieux socioprofessionnels présentent-ils des différences en terme de
consommation ?
NOTIONs STATISTIQUES
Eta2 (η2) : mesure l’intensité des effets de x (variable indépendante, ou facteur) sur y (variable
dépendante)
Test F : permet de vérifier l’hypothèse nulle qui suppose l’égalité des moyennes au sein de la
population étudiée.
Carré moyen : représente la somme des carrés divisée par les degrés de libertés appropriés.
SSinter également notée SSx : il s’agit de la variation de y liée à la variation dans les
moyennes des modalités de x
SSintra également notée SSerreur : il s’agit de la variation de y imputable à la variation
externe aux modalités de x.
SSy : variation totale de Y
Vérification de la signification
Identification
SSy =
(Y Y)
ii
i
2
SSn =
n(Y Y)
j1
j
2
C n
S Serreur =
(Y Y)
j i
ij j
2
Niveau de signification
L’intérêt d’une analyse univariée de la variance consiste à vérifier l’hypothèse nulle, qui
suppose l’égalité des moyennes pour chaque groupe dans la population. En d’autres termes :
N0 : 1= 2
= …… c
Interprétation de résultats
Si H0 n’est pas rejetée, on en déduit que la variable indépendante n’exerce aucun effet
significative sur la variable dépendante.
A l’inverse, le rejet H0 caractérisera un effet significatif de la variable indépendante.
ANOVA
Calculs : Y = 6,067
SSy = (10-6,097)2 + …………………..(2-6,027)2
= 185,867
SSx = 10(8,3-6,061)2 + 10(6,2 – 6,061)2+10(3,7-6,067)2
= 106,067
S Serreur = (10-8,3)2 + …. + (8 -6,2)2 + ……………(5 -3,7)2
=79,80
SSx
0,571
2
Intensité = η = SSy
57,1% de la variation des ventes (Y) est expliqué par les promotions sur le lieu de vente en
(x). un effet modeste.
MSx
106
,
067
/(
3
1)
17
,9444
79
,800
/(
F = MServeur
30
3)
OBJECTIFS
1. Décrire le concept d’analyse factorielle
2. Etudier les méthodes pour conduire une analyse factorielle
I. CONCEPT DE BASE
D’un point de vue mathématique, l’analyse factorielle est en quelque sorte comparable à
l’analyse par régression multiple dans laquelle chaque variable est exprimée sous la forme
d’une combinaison linéaire de facteurs fondamentaux. Le degré de variance qu’une variable
partage avec toutes les autres est appelé communalité. Si les variables sont standardisées, le
mode factoriel peut être représenté ainsi :
X i = Ai 1F1 + Ai2F2+……AimFn + Vi Ui
Xi = i variable centré réduite
Aij = coefficient de régression multiple centré réduite de la variable i sur le facteur comme J
F= facteur commun
Vi = coefficient de régression de la VAR i sur la composante spécifique i
Ui = composante spécifique terme d’erreur de mesure
M = le nombre de facteurs
Les composants ne sont pas corrélés entre eux ni avec les facteurs communs lesquels
s’expriment comme combinaisons linéaires des variables observées.
Fi = W i1X1 + Wi2X2 + …….WikXk
Matrice de corrélations
V1 V2 V3 V4 V5 V6
V1 1
V2 -0,053 1
V3 0,873 -0,155 1
V4 -0,086 0,572 -0,248 1
V5 -0,858 0,020 -0,778 -0,007 1
V6 0,004 0,610 -0,018 0,340 -0,136 1
ACP : RESULTATS
Test de Sphéricité de Barlett
Approximation chi – 2 à 111,214, ddl = 15, signification 0,000
KMO = 0,66
Communalité
Variables Initiale Extraction
V1 1 0,926
V2 1 0,723
V3 1 0,894
V4 1 0,739
V5 1 0,878
V6 1 0,790
Matrice factorielle
Facteur 1 Facteur 2
V1 0,928 0,253
V2 -0,301 0,795
V3 0,936 0,131
V4 -0,342 0,789
V5 -0,869 -0,351
V6 -0,177 0,871
Dans une économie de marché, il n’y a production que pour répondre à une demande. Ce constat
macroéconomique reste vrai au niveau de l’entreprise et justifie la place première de la prévision
des ventes dans les processus global de prévision.
Le caractère turbulent des marchés rend aujourd’hui l’exercice particulièrement difficile en
raison :
Une simple extrapolation des tendances observées risque donc de conduire à une évaluation peu
fiable des ventes futures.
L’entreprise dispose cependant de nouveaux outils pour procéder à ces prévisions ; les
technologies de l’information permettent à la fois :
- l’accès à de nombreuses sources de données internes et externes dans les délais très
rapides ; avec la prise en compte de certaines de ces données, il est alors possible d’intégrer
de nombreuses variables dans les modèles de prévision ;
Comment prévoir l’évolution des ventes à partir de l’observation des données passées ?
On suppose que l’évolution des ventes observées sur le passé se prolongera sur les périodes à
venir.
La société BMT a pour activité la vente de systèmes d’alarme. Son activité commerciale est
segmentée en deux marchés distincts :
Le caractère porteur de ce marché lui a permis sur les cinq dernières années d’enregistrer les
ventes suivantes (en k €) :
Année N-4 N-3 N-2 N-1 N
Marché P 71 697 90 574 94 550 125 257 138 150
Marché E 77 328 85 235 108 556 142 341 192 529
Afin de déterminer sa production et les budgets associés, elle doit procéder à une estimation de
ses ventes pour l’année N+1.
L’observation sur le graphique d’une croissance continue peut suggérer la recherche d’une droite
d’ajustement linéaire entre le chiffre d’affaires y et le rang de l’année x à partir de la méthode des
moindres carrés.
a) Principe
a x y nxy
i i
x nx y ax
2 2
i et b =
yyi
x xi et
n n désignent respectivement la moyenne des xi et la moyenne des yi.
2 2
xi yi xi yi x i y i
1 71 697 71 697 1 5 140 425 489
2 90 574 181 148 4 8 203 613 387
3 94 550 283 650 9 8 939 702 500
4 125 257 501 028 16 15 689 316 049
5 138 150 690 750 25 19 085 422 500
Somme 15 520 228 1 728 272 55 57 058 479 925
Moyenne 3 104 046
a
1728272
53104046
16759
2
55
5
3
Le facteur temps (représenté ici par le rang de l’année) est l’unique facteur déterminant du
montant des ventes. On fait donc abstraction des effets que peuvent avoir les actions
mercatiques propres à l’entreprise (prix, publicité, promotions, etc.) ; celle-ci est censée
seulement « suivre son marché ».
La tendance observée sur les années sera confirmée dans le futur. On suppose donc qu’aucun
élément déterminant n’est susceptible de perturber ce marché dans les prochaines années
(innovations technologiques majeures, arrivée de nouveaux concurrents, évolutions
sociologiques des consommateurs, etc.).
r xynxy i i
xnx yny2
i
2 2
i
2
r
1728272
53104046
0
,
979
2 2
Soit ici : 55
5
3
5705847992
55
104046
Si une valeur proche de 1 est le signe d’un bon ajustement, cette conclusion doit être relativisée
en fonction du nombre de valeurs très faible ici (5 valeurs seulement).
La relation entre y et x dans l’hypothèse d’une tendance exponentielle est donnée par l’équation
suivante : y = B.Ax
Le rang de la période (donc le temps) figure en exposant.
La formule précédente s’écrit comme suit en passant aux logarithmes :
log y = log B + x log A.
Si on pose b = log B et a = log A, on obtient log y = ax + b.
ynxlog
xlog i
yi
r
Soit a = xnx et b = logyax
2
i
2
xi logy
x y
log i
avec n et n
2
xi yi Log yi xi log yi x i
1 77 328 4,88834 4,88834 1
2 85 235 4,93062 9,86124 4
3 108 556 5,03565 15,10696 9
4 142 341 5,15333 20,61332 16
5 192 529 5,28450 26,42248 25
Somme 15 605 989 25,29243 76,89234 55
Moyenne 3 121 197,8 5,05849
a
76
,
89234
535,
05849
0,
10150
2
55
5
3
La courbe exponentielle permet donc d’ajuster des phénomènes connaissant des taux
d’accroissement sensiblement constants ce qui est souvent le cas en économie, alors qu’avec une
droite d’ajustement ce sont les accroissements en valeur absolue qui sont supposés constants.
Les logiciels tableurs les plus courants (Excel, Open office) disposent de fonctions permettant
d’obtenir directement les principaux résultats relatifs aux ajustements linéaires et exponentiels.
Valeur de Valeur de
16 759 53 769
2 021 6 702
0,958 6 390,273
Valeur de
68,779 3 Variance
2 808 630 014 122 506 776
En plus des paramètres déjà calculés (a, b et r2), on obtient un certain nombre de données
caractéristiques de la valeur de l’ajustement.
La variance résiduelle est la somme des carrés des écarts entre :
X 1 2 3 4 5
W 6 7 8
Formule :
= TENDANCE (Y ;X ;W)
Valeur de Valeur de
1,2633 56 751,5475
0,0225 0,0747
0,9729 0,0712
Valeur de
107,7134 3,0000 Variance
0,5462 0,0152 résiduelle des log
X 1 2 3 4 5
Y 77 328 85 235 108 556 142 341 192 529
W 6 7 8
Formule :
= CROISSANCE (Y ;X ;W)
Supposons ici que les ventes aux particuliers de la société BMT soient ainsi détaillées sur les trois
dernières années :
N-2 N-1 N
Trimestre 1 18 912 25 052 27 635
Trimestre 2 28 362 37 579 41 440
Trimestre 3 33 098 43 837 48 357
Trimestre 4 14 178 18 789 20 718
Total 94 550 125 257 138 150
Selon ce modèle, on est donc amené à faire l’hypothèse que les ventes trimestrielles yt sont la
résultante :
- D’une composante tendancielle Wt (représentée sur le schéma par la droite) qui est une
fonction du numéro t du trimestre ;
Dans ce qui suit, nous supposerons que ces composantes jouent de façon multiplicative, c’est-à-
dire que l’on peut écrire :
Y t = Wt x Cr
La prévision de Wt suppose que l’on dispose d’une série corrigée des variations saisonnières.
Les valeurs de Cr sont telles que sur l’ensemble de l’année, leur moyenne est égale à 1.
Yt
Wt
L’équation Yt = Wt x Cr permet d’écrire : Cr
Autrement dit, en connaissant les données observées (Yt) et les coefficients saisonniers (Cr), on
peut reconstituer une série corrigée des variations saisonnières qui représentera la composante
tendancielle encore appelée « tendance » ou « trend ».
On obtient la série corrigée des variations saisonnières en divisant les données observées par le
coefficient saisonnier.
Trimest 1 2 3 4 5 6 7 8 9 1 1 12
re t 0 1
Données 1 2 3 14 25 375 4383 187 2 4 4 207
observée 8 8 3 17 052 79 7 89 7 1 8 18
s yt 9 3 0 8 6 4 3
1 6 9 3 4 5
2 2 8 5 0 7
Coefficien 0, 1, 1, 0, 0,9 1,2 1,3 0,5 0 1 1 0,5
t 9 2 3 55 5 5 , , , 5
saisonnie 5 9 2 3
r 5
Série 2 2 2 25 278 300 3372 341 3 3 3 376
corrigé 1 2 5 77 36 63 1 62 0 3 7 69
des 0 6 4 8 7 1 1
variations 1 9 6 0 5 9
saisonniè 3 0 0 6 2 8
res
Le report de cette série sur le graphique montre qu’elle est beaucoup plus régulière que la série
des données observées.
2.3.Démarche générale
Afin de calculer ces coefficients saisonniers, il faut que l’on dispose d’une série qui élimine les
incidences saisonnières.
Le rapport entre les données observées et les valeurs de cette série pourra alors donner une
estimation de ces coefficients.
a) Principe
Une moyenne mobile est une moyenne calculée sur un certain nombre de points adjacents.
0,
5y y t
yy
0,
5y
't
t2
t1
t1
t 2
Y 4
On a donc :
De cette façon, chaque trimestre de l’année est représenté avec le même poids dans la moyenne.
Une telle moyenne mobile est dite centrée.
Trimest 1 2 3 4 5 6 7 8 9 1 1 12
re t 0 1
Données 1 2 3 14 25 375 4383 187 2 4 4 207
observée 8 8 3 17 052 79 7 89 7 1 8 18
s yt 9 3 0 8 6 4 3
1 6 9 3 4 5
2 2 8 5 0 7
Moyenne 2 26 288 307 3163 324 3 3
mobile y’ t 4 32 19 38 7 43 3 4
4 5 4 2
0 9 9
5 0 6
Par exemple :
0
,
5
18912
28362
33098
14178
0,
525052
24405
Y
'
3
4
Compte tenu de la structure de la formule, on ne peut évidemment pas l’appliquer aux deux
premières et aux deux dernières valeurs de t.
Graphiquement, la courbe des moyennes mobiles apparaît comme beaucoup plus régulière que
celle des données brutes (ou données observées), puisque l’on a éliminé, de par son mode de
calcul, l’influence des variations saisonnières.
a) Principe
Le rapport entre données observées yt et moyennes mobiles yt’ donne une estimation des
coefficients saisonniers, à condition qu’ils présentent sur les différentes années une certaine
constance.
Si tel n’était pas le cas, cela signifierait qu’un facteur autre que les saisons, explique certaines
fluctuations périodiques.
On remarque que sur chacune des deux années pour laquelle on dispose du calcul, les
coefficients calculés sont relativement proches ce qui confirme les hypothèses du modèle.
On retient pour valeur définitive du coefficient de chaque trimestre la moyenne des deux valeurs
obtenues ; soit :
Trimestre 1 : 0,85 ; trimestre 2 : 1,215 ; trimestre 3 : 1,375 ; trimestre 4 :0,56.
Dans certains cas, il conviendra d’arrondir des coefficients pour que la somme soit exactement
égale à 4.
3.1.Démarche
Que les coefficients saisonniers aient été fournis ou calculés, ils peuvent être mis en œuvre pour
une prévision des ventes. Cette prévision se fait en deux étapes :
a) Prévision de la tendance
La prévision doit porter ici sur les quatre trimestres de l’année N+1 qui sont numérotés de 13 à
16.
La prévision de la tendance nécessite un ajustement de la série corrigée des variations
saisonnières (ici la série des moyennes mobiles centrées).
Trimest 3 4 5 6 7 8 9 10
re t
Moyen
ne 244 263 288 307 316 324 334 342
mobile 05 25 19 38 37 43 90 96
Y’t
On obtient les prévisions de la tendance en remplaçant t par les valeurs 13, 14, 15, 16.
Trimestre 13 14 15 16
Prévision 39311 40702 42093 43484
Pour chaque trimestre, on multiplie la prévision de tendance par le coefficient saisonnier propre
au trimestre.
L’entreprise ne serait pas en mesure, par son action propre d’infléchir cette évolution
naturelle du marché. Or c’est précisément le rôle de l’action commerciale de jouer sur un
certain nombre de variables pour que son activité future soit compatible avec les orientations
stratégiques qu’elle a définies.
- Environnement macroéconomique ;
- Concurrence.
La connaissance de prévisions concernant cet environnement lui permettra dans tous les cas
d’affiner et de fiabiliser ses propres prévisions. Les nouvelles technologies de l’information
(Internet en particulier) facilitent cette connaissance.
1.2.L’étude de la concurrence
Une bonne connaissance de la concurrence est indispensable, tant pour prévoir les ventes de
l’entreprise que pour adapter son action commerciale.
Elle repose :
- En premier lieu sur la qualité de la veille informationnelle menée ; celle-ci doit porter à la fois
sur les aspects technologiques des produits offerts par les concurrents et sur les actions qu’ils
mènent pour vendre ces produits (publicité, promotion, réseau de distribution, etc.) ;
L’évolution des ventes de l’entreprise est avant tout liée à sa propre action commerciale. Les
choix qu’elle est amenée à faire en matière de prix, de budget publicitaire, de réseau de
distribution, ont une incidence directe sur ses ventes actuelles et futures.
- Indirecte, dans la mesure où le niveau de prix retenu est susceptible d’influer sur les
quantités vendues.
Cette relation prix-quantité peut parfois être approchée à partir de la notion d’élasticité. Celle-ci
se définit comme le rapport entre la variation relative des quantités et la variation relative des
prix. Ce rapport est normalement négatif ; une valeur de -2 signifie, par exemple, qu’un
accroissement 10 % du prix de vente entraînera une réduction de 20 % des quantités vendues.
Mai l’approche du prix de vente peut être différente en fonction du marché et du mode de
management de l’entreprise :
- Dans un certain nombre de cas, le prix est imposé par le marché et l’entreprise n’a que le
choix entre vendre à ce prix ou ne pas vendre ;
- Souvent encore, l’entreprise fixe son prix de vente en fonction de son coût de revient complet
et d’un taux de rentabilité attendu. Cette pratique peut ne pas être optimale en termes de
résultat et conduire à des subventionnements croisés par produit, compte tenu de l’arbitraire
qu’il peut y avoir dans la répartition de charges indirectes.
La concurrence s’exerce aujourd’hui non seulement sur le prix, mais sur l’ensemble des variables
de l’action commerciale : promotion, publicité, réseau de distribution, etc. En fonction des
moyens qu’elle a décidé de consacrer à ces différentes actions, l’entreprise pourra
éventuellement affiner ses prévisions de vente. Des études de corrélation peuvent être menées
dans cette optique.