Académique Documents
Professionnel Documents
Culture Documents
APPLIQUEE
SEMESTRE 5
Professeur : M. HOUSSAS
Département : ITQAG
Année universitaire
2021-2022
1
Table des matières
CHAPITRE 1 : LA REGRESSION SIMPLE....................................................................................................... 4
1.1. INTRODUCTION. .................................................................................................................... 4
1.2. LA REGRESSION SIMPLE .................................................................................................... 4
1.2.1. Identification du modèle. ...................................................................................................... 4
1.2.2. Ajustement du modèle. ......................................................................................................... 5
1.2.3. Qualité de l’ajustement. ........................................................................................................ 9
a) Définition ...................................................................................................................................... 9
b) Estimation ..................................................................................................................................... 9
c) Test de signification.................................................................................................................... 10
1.2.3.2. Coefficient de détermination............................................................................................... 10
1.2.3.3. Analyse de la variance. ....................................................................................................... 12
1.2.4.1. Intervalle de confiance pour E ( Y | x0 ). ......................................................................... 13
1.2.4.2. Intervalle de prévision pour une valeur individuelle de Y, quand X= xo ........................ 13
1.2.5. Application numérique. ....................................................................................................... 13
Chapitre 2 : REGRESSION MULTIPLE. .............................................................................................. 19
1 Introduction ................................................................................................................................. 19
2 Identification du modèle. ............................................................................................................. 19
3 Ajustement du modèle. ................................................................................................................ 19
4 Qualité de l’ajustement. ............................................................................................................... 20
4.1. Coefficient de corrélation. ....................................................................................................... 20
4.2. Coefficient de détermination multiple. .................................................................................... 20
4.3. Analyse de la variance. ............................................................................................................ 22
4.4. Test d’hypothèses sur un coefficient particulier ßj. ................................................................. 22
4.5. Indice de la qualité prévisionnelle d’un modèle. ..................................................................... 23
5 Les coefficients standardisés (ou coefficients « bêta »). ............................................................. 23
6 Coefficient de détermination partielle. ........................................................................................ 23
7 Choix des variables explicatives. ................................................................................................ 24
7.1. Sélection progressive. .............................................................................................................. 24
7.2. Sélection régressive. ................................................................................................................ 24
7.3. Sélection pas à pas (in and out stepwise regression). .............................................................. 24
8 Test de signification d’un sous-ensemble de variables explicatives. .......................................... 25
9 Application numérique. ............................................................................................................... 25
9.1. Méthode entrée : Modèle avec toutes les variables explicatives. .......................................... 27
2
9.2. Sélection progressive des variables explicatives. .................................................................... 30
9.3. Sélection régressive des variables explicatives. ...................................................................... 33
9.4. Sélection pas à pas des variables explicatives. ........................................................................ 36
3
CHAPITRE 1 : LA REGRESSION SIMPLE
1.1. INTRODUCTION.
En analyse de régression, on cherche à expliquer une variable métrique Y qui dépend d’une
ou de plusieurs variables explicatives métriques X1, X2,..., Xp. A cette fin, un modèle
mathématique peut représenter convenablement la relation entre Y et les Xi, ce modèle
servira aussi pour faire des prévisions.
Y = f ( X1, X2,..., Xp )
La variable Y s’appelle la variable expliquée, dépendante, endogène, tandis que les X1,
X2,..., Xp sont les variables explicatives, indépendantes, exogènes.
S’appuyant sur des données observées, l’analyse de régression consiste à élaborer un modèle
explicatif, ensuite on passe à l'analyse statistique du modèle qui comporte l'estimation des
paramètres et divers tests d'hypothèses.
S’il n’y a qu’une seule variable explicative, on dira que le modèle de régression est simple.
Son but est de confirmer empiriquement une relation de cause à effet entre deux variables.
Ensuite, si cette relation est confirmée évaluer son intensité.
On doit préciser la variable dont on veut expliquer les variations (variable dépendante
Y), puis celle qui est la cause de ces variations (variable explicative X).
Bien que la relation entre deux variables ne soit pas nécessairement linéaire, il est souvent postulé
que cette relation est linéaire et ce pour la principale raison : la théorie de la régression linéaire
est beaucoup plus développée et surtout beaucoup plus simple à appliquer et à interpréter que
celle de la régression non linéaire.
Y 0 1 X
4
c’est à dire la valeur prise par Y lorsque X = 0.
représente l'erreur aléatoire, elle est non observable et comprend à la fois les erreurs de
mesure sur les valeurs observées de Y et tous les autres facteurs explicatifs non pris en
compte dans le modèle.
- Les erreurs aléatoires sont distribuées selon une loi normale de moyenne
nulle et de variance constante inconnue.
Le diagramme de dispersion d'une variable Y en fonction d'une autre variable X est formé des
points moyens conditionnels (xi , yi), et donne une idée de la façon dont varie, en moyenne, la
variable Y enfonction de la variable X.
Diagramme de dispersion
5
A partir du diagramme de dispersion, on peut souvent représenter une courbe continue
approchant les données. Cette courbe est appelée courbe d'ajustement. La régression linéaire
permet donc de déterminer la droite qui s'ajuste au mieux aux valeurs observées. Cette
droite est appelée droite de régression de Y en fonction de X.
Il existe différentes méthodes pour déterminer cette droite de régression. La méthode la plus
utilisée est la méthode des moindres carrés.
La méthode des moindres carrés est une méthode d'ajustement qui consiste à minimiser la
somme des carrés des différences entre les valeurs observées, yi, et les valeurs estimées
par la droite, ŷi , différence appelée résidu.
Le modèle empirique, estimé à partir des observations, sera désigné de cette façon :
La méthode des moindres carrées est celle qui minimise la somme des carrés des résidus ;
symboliquement, on cherche à :
Avec le critère des moindres carrés, tous les résidus deviennent positifs ; il est donc
impossible que des résidus positifs annulent des résidus négatifs.
Les démonstrations algébriques sont facilitées par le recours aux outils du calcul différentiel.
La minimisation d’une fonction quadratique à plusieurs variables s’effectue en annulant les
dérivées partielles de premier ordre et en vérifiant le signe des dérivées partielles de
deuxième ordre.
Les estimateurs obtenus par cette méthode sont des estimateurs linéaires non biaisés à
variance minimale c’est à dire efficace. (BLUE [ Best Linear Unbiased Estimators]).
Les estimateurs des moindres carrés sont les mêmes que ceux que l’on obtiendrait si l’on se
servaitde la méthode du maximum de vraisemblance en supposant que les erreurs théoriques
sont normalement distribuées.
Par calcul différentiel, on cherche les 2 valeurs b0 et b1 qui minimisent la somme des carrés
des résidus, cette somme quadratique est notée f( b0 , b1), puisqu’elle est fonction de 2 termes
inconnus :
6
En annulant simultanément les dérivées partielles de f par rapport à b0 et b1, on obtient le
système d’équations linéaires homogène suivant :
Ces estimateurs sont des fonctions linéaires des observations Y1 , Y2 , ..., Yn.Ces estimateurs
sont non biaisés :
E(b1) = 1
E(b0) = 0
7
Connaissant la moyenne et la variance des estimateurs et ayant supposé que les erreurs, et
donc les Yi, sont distribuées normalement, on peut conclure que les estimateurs b0 et b1,
étant des fonctions linéaires des observations, obéissent eux-mêmes à une loi normale.
On peut donc construire des intervalles de confiance pour chacun des paramètres ßo et ß1;
pour cela, il faut au préalable estimer la variance des erreurs, ².
Les résidus étant des estimations des erreurs théoriques, on doit se servir de la variance des
résidus (notée S²e ) comme estimation de la variance des erreurs, la formule est donnée par :
Les estimateurs des paramètres de la droite de régression sont des statistiques qui obéissent à
des lois de Student à ( n - 2 ) degrés de liberté :
Les intervalles de confiance à un seuil pour les paramètres ß0 et ß1 sont donnés par :
8
1.2.3. Qualité de l’ajustement.
a) Définition
E(XE(X)(YE(Y)
=
VAR(X)VAR(Y)
Cette définition montre que le coefficient de corrélation possède le même signe que la
covariance etqu'il est toujours compris entre -1 et 1.
= 1 : dans ce cas les points se trouvent tous sur une même droite croissante, on
parle de corrélation linéaire positive parfaite.
= -1 : dans ce cas les points se trouvent tous sur une même droite décroissante, on
parle de corrélation linéaire négative parfaite.
= 0 : dans ce cas il n'y a aucune dépendance linéaire entre les deux variables, on
parle de corrélation linéaire nulle.
-1 < < 0 : dans ce cas les deux variables varient en sens inverse, la relation
linéaire est faible ou forte selon que le coefficient de corrélation linéaire est proche de
0 ou de -1.
0 < < 1 : dans ce cas les deux variables varient dans le même sens, la relation
linéaire est faible ou forte selon que le coefficient de corrélation linéaire est proche de
0 ou de 1.
Le problème de la régression est intimement lié à celui de la corrélation : plus la corrélation est
forte entre deux variables, mieux l’on pourra prédire ou expliquer la valeur de la variable
dépendante.
b) Estimation
Le calcul du coefficient de corrélation exige que les deux variables soient distribuées
conjointement selon une loi normale. Un test d’ajustement de Khi deux peut tester la
normalité des distributions individuelles. Dans le cas où la normalité n’est pas vérifiée on
peut utiliser d’autres mesure de corrélation moins exigeantes, telle que la corrélation des rangs
de Spearman ou le tau de Kendall.
c) Test de signification
Ce test a pour but de vérifier que, dans la population, la vraie corrélation est différente de 0.
Les hypothèses à tester sont :
H0 : = 0
H1 : 0
Cette statistique obéit à une loi de Student à ( n - 2 ) degrés de liberté, quand l’hypothèse
nulle est vraie. On rejettera celle-ci chaque fois que la statistique sera trop grande en valeur
absolue.
10
La variation totale observée sur la variable expliquée Y peut être
décomposée en 2 parties :
On pourrait montrer par ailleurs que R2 est égal au carré du coefficient de corrélation.
- Cas où R2 = 0 :
Il faut pour cela que SCR = 0 et alors le modèle utilisé n'explique aucune variation dans la
variable dépendante Y. En outre, SCR = 0 implique que toutes les valeurs prédites sont
égales à la moyenne des Y, c’est-à-dire
Graphiquement, dans le cas d’une régression simple, on aura la situation suivante, dans
laquelle onpeut voir clairement que la variable explicative X n’est d’aucune utilité pour
prédire Y.
- cas où R2 =1 :
Il faut pour cela que SCR = SCT, ce qui revient à écrire : SCE = 0. S’il en est ainsi, le modèle
utilisé explique toute la variation observée sur Y. En outre, SCE = 0 implique que toutes les
valeurs prédites sont égales aux valeurs observées correspondantes de Y, c’est-à-dire
11
Graphiquement, en régression simple, on a la situation suivante dans laquelle on voit que le
modèle de régression explique parfaitement les variations de Y; quand l’ajustement est parfait
comme ici, la variable explicative X peut prédire sans erreur les valeurs de Y, au moins pour
les valeurs de l’échantillon.
12
1.2.4. Calcul de prévisions.
L’intervalle de confiance au seuil pour la moyenne est donné par l’expression suivante :
L’amplitude de l’intervalle est minimale quand ; c’est donc pour cette valeur de X
que la précision de l’estimation est la plus élevée. A mesure qu’on s’éloigne de la moyenne
des X dans une direction ou dans l’autre, la précision de l’estimation diminue, ce qui se traduit
par des intervalles de plus en plus larges.
L’intervalle de prévision est plus large que l’intervalle de confiance pour une même valeur
Xo de X. Il est plus difficile en effet de prévoir une valeur individuelle que d’estimer la
moyenne d’un groupe.
Au cours de 12 mois, une entreprise a noté le montant des frais de publicité et le volume du
chiffre d'affaires réalisé. Les résultats sont consignés dans le tableau suivant :
13
Mois Frais de Chiffre
publicité d'affaires
Janvier 25000 280000
Février 17000 250000
Mars 18000 255000
Avril 28000 292500
Mai 22000 265000
Juin 20000 260000
Juillet 19000 262500
Août 22000 280000
Septembre 30000 285000
Octobre 30000 296000
Novembre 27000 285000
Décembre 24000 270000
On s’intéresse à expliquer le chiffre d’affaires par les dépenses publicitaires. Le logiciel SPSS
offre la possibilité d’effectuer ce type d’analyse. La variable dépendante Y correspond donc
au chiffre d’affaires alors que les frais de publicité représentent la variable explicative X.
Les sorties informatiques se présente comme suit :
Analyse
Corrélation
Bivariée...
14
la méthode de sélection des variables explicatives.
Identification du modèle :
D’après ce nuage de points, on voit bien que le modèle de régression linéaire simple Y 0
1 X devrait représenter convenablement la relation entre les deux variables.
Coefficient de corrélation :
Corrélations
Frais de chiffre
publicité d'affaires
Frais de publicité Corrélation de 1,000 ,937**
Pearson
Sig. (bilatérale) , ,000
N 12 12
chiffre d'affaires Corrélation de ,937** 1,000
Pearson
Sig. (bilatérale) ,000 ,
N 12 12
**. La corrélation est significative au niveau 0.01 (bilatéral).
SPSS évalue que la corrélation entre les frais de publicité et le chiffre d’affaires est égale à
0,937 et qu’elle est significative au seuil de 1 % puisque la probabilité de signification (sig =
0,000) est inférieure au seuil de 1%.
Coefficient de détermination R-deux :
15
Récapitulatif du modèle
Erreur standard
de l'estimation
Modèle R R-deux R-deux
ajusté
1 ,937a ,879 ,866 5507,30
a. Valeurs prédites : (constantes), Frais de publicité
Le R-deux calculé par SPSS est de 0,866. Les frais de publicité expliquent donc 86,6 % de
la variation du chiffre d’affaires. Ce pourcentage traduit une très bonne qualité d’ajustement.
Analyse de la variance :
La statistique F = 72,374 dépasse largement la valeur critique 4,96 lue dans la table de la loi
de Fisher à 1 et 10 degrés de liberté, pour un seuil de signification de 5%. En comparant la
signification associée (0,000) au seuil de signification, on atteint la même conclusion, à
savoir que la régression est très significative.
Ajustement du modèle :
Coefficientas
Coefficient
s
Coefficients non standardisé Intervalle de confiance 95%
standardizes s de B
Erreur Borne Borne
Modèle B standard Bêta T Significatio inférieure supérieure
n
1 (constante) 00659,0 8698,923 23,067 ,000 81276,62 20041,433
Frais de public 3,096 ,364 ,937 8,507 ,000 2,285 3,907
a.Variable dépendante : chiffre d'affaires
16
Les estimations des 2 paramètres de la droite de régression sont données par :
Par conséquent, la droite de régression estimée par la méthode des moindres carrés se lit
comme suit :
Dans la sortie informatique on peut vérifier que les intervalles de confiance à 95% pour
l’ordonnée à l’origine et la pente de la droite de régression sont donnés respectivement par :
On peut conclure donc que sans dépenses publicitaires, on peut espérer un chiffre d’affaires
entre 181276 dh et 22042 dh. Par ailleurs, il est permis de conclure avec un niveau élevé de
confiance que chaque dirham additionnel en dépenses publicitaires entraîne une augmentation
dans le chiffre d’affaires, augmentation qui se situerait entre 2 et 4 dh, en moyenne.
Test de signification :
18
Chapitre 2 : REGRESSION MULTIPLE.
1 Introduction
La régression multiple a pour but d’expliquer les variations d’une variable dépendante Y
et p variables explicatives X1 , X2 , ..., Xp (p > 1). Ensuite, si cette relation est confirmée
évaluer son intensité.
2 Identification du modèle.
i représente l'erreur aléatoire, elle est non observable et comprend à la fois les erreurs de
mesure sur les valeurs observées de Y et tous les autres facteurs explicatifs non pris en compte
dans le modèle.
L’analyse de régression repose sur les mêmes postulats présentés dans la régression simple
auxquels il faut ajouter qu’il n’y a pas de colinéarité parfaite entre les variables explicatives,
c’est à dire leurs coefficients de corrélation linéaire doivent être nuls ou proches de zéro.
3 Ajustement du modèle.
De la même manière que la régression simple, la méthode des moindres carrés consiste à
minimiser la somme des carrés des différences entre les valeurs observées, yi, et les valeurs
estimées par le modèle, ̂ différence appelée résidu.
Le modèle empirique, estimé à partir des observations, sera désigné de cette façon :
19
b0 , b1 … et bp sont des estimations des paramètres 0 , 1 … et p du modèle théorique.
On définit le i-ème résidu ei par :
La méthode des moindres carrées minimise la somme des carrés des résidus, somme désignée
par f( b0 , b1,..., bp ), une fonction de ( p + 1 ) inconnues :
En annulant simultanément les dérivées partielles par rapport à b0, b1, ... , bp, on obtient un
système de ( p + 1 ) équations linéaires homogène semblable à celui montré dans le cas de la
régression linéaire simple et qu’on peut écrire sous forme matricielle comme suit :
X Xb X Y
1
b X X X Y
Dans le cas de la régression multiple, les calculs deviennent très complexes, et pratiquement
impossibles à faire sans l’aide de l’ordinateur. Il existe un nombre important de logiciels
informatiques qui traitent le problème de la régression. Les logiciels fournissent en plus des
estimations des coefficients du modèle, toutes les statistiques et tests nécessaires pour juger
de la validité du modèle.
4 Qualité de l’ajustement.
Les valeurs des coefficients de corrélation s’interprètent de la même manière que pour la
régression simple.
20
De la même manière que pour la régression simple, le coefficient de détermination indique
le pourcentage de la variation totale de Y autour de sa moyenne qui est expliquée par la
régression.
La variation totale observée sur la variable expliquée Y peut être décomposée en 2
parties :
On pourrait montrer par ailleurs que R2 est égal au carré du coefficient de corrélation multiple.
Le coefficient de détermination multiple ne peut être inférieur au plus élevé des coefficients
de détermination simple entre Y et chacune des variables explicatives. Si les variables
explicatives sont parfaitement indépendantes entre elles, le coefficient de détermination
multiple sera égal à la somme des coefficients de détermination simple entre Y et chacune des
variables explicatives.
Le R² ajusté est inférieur au R². Ce dernier est un estimateur biaisé, tandis que le premier est
non biaisé.
Le R² ajusté est préférable à R² si la taille de l’échantillon est faible. Quand n sera supérieur
à 30, il n’y aura habituellement pas beaucoup de différence entre les 2 indices.
Le R² ajusté est plus approprié pour comparer des modèles de régression d’une
variable expliquée Y en fonction de différents sous-groupes de variables explicatives.
21
4.3. Analyse de la variance.
Ho : ß1 = ß2 = ... = ßp = 0
H1 : au moins un des coefficients ßi est différent de zéro
De la même manière que pour la régression simple, ce test calcule le rapport de la variance
expliquée par le modèle à la variance résiduelle. Cette statistique obéit à une à une loi de
Fisher à p et (n–p-1) degrés de liberté. On compare la valeur calculée de F à sa valeur critique
lue dans la table de Fisher à un seuil (1-). Une valeur élevée de F indique que le modèle de
régression est globalement significatif, ce qui conduit au rejet de H0 ; donc, au moins un des
coefficients ßi est différent de zéro.
Sous l’hypothèse nulle, cette statistique obéit à une loi de Student à ( n - p - 1 ) degrés de
liberté. On compare la valeur calculée de t à sa valeur critique lue dans la table de Student à
un seuil (1- Une valeur élevée de t indique que le coefficient ßj est significatif, ce qui
22
conduit au rejet de H0.
L’indice servant à mesurer le pouvoir prédictif d’un modèle est la somme des carrés des
résidus de prédictions désigné par l’indice PRESS (Predicted Residual Sum of Squares). Le
principe est de calculer des prévisions pour de Yi à partir du modèle de régression
calculé avec toutes les observations sauf la ième (n-1 observations). Cette prévision sera
désignée par ̂(i). Le résidu obtenu est appelé résidu supprimé e(i).
e(i) = Yi - ̂(i)
Les 2 éléments Yi et ̂(i) servant à calculer les résidus supprimés sont indépendants.
L’indice PRESS est défini par :
Le fait que les coefficients de régression sont exprimés dans des unités de mesure
différentes les unes des autres et la présence d’une multicolinéarité entre variables
explicatives ne permet pas de comparer les coefficients de régression non standardisés entre
eux pour déterminer l’importance relative des variables explicatives. Pour pallier à ce
problème, on utilise les coefficients standardisés qui, comme leur nom l’indique, sont les
coefficients de régression que l’on obtient quand toutes les variables sont centrées réduites,
c’est-à-dire standardisées et donc sans unité de mesure.
Comme les coefficients standardisés sont des nombres purs ou sans unité de mesure, on
pourrait être tenté de les comparer entre eux afin de déterminer quelles sont les variables
explicatives les plus importantes. Il faut signaler que ces comparaisons sont très hasardeuses
quand les variables explicatives sont fortement corrélées entre elles d’une part, c’est le
problème de multicolinéarité, et d’autre part parce que les unités de mesure, elles-mêmes
arbitraires, ont une incidence directe sur les valeurs des coefficients standardisés.
Ce coefficient mesure l’effet marginal produit par l’introduction d’une nouvelle variable
explicative sur la somme des carrés résiduelle, il exprime le pourcentage de réduction de la
23
variation inexpliquée de la variable dépendante due à l’ajout d’une nouvelle variable
explicative. Ce coefficient est utilisé dans les méthodes de choix des variables explicatives
pour déterminer l’ordre d’entrée des variables.
Avant l’identification et l’ajustement du modèle de régression, une décision doit tout d’abord
être prise quant au nombre de variables explicatives qui interviennent dans l’équation de
régression et de choisir ces variables. Les variables explicatives doivent être choisies de façon
à assurer une précision maximum du modèle de régression, c’est à dire une variance résiduelle
minimum. Pour cela on opte pour les variables explicatives fortement corrélées avec la
variable dépendante et faiblement corrélées entre elles.
Une façon de trouver le meilleur modèle de régression est de comparer toutes les équations de
régression possibles. Ce qui est pratiquement impossible lorsque le nombre de variables
explicatives est élevé. En effet pour p variables explicatives, il faut comparer 2p-1 équations
(1023 équations pour 10 variables explicatives). Heureusement, les statisticiens ont
développé des procédés de sélection systématique des variables.
Appelée aussi sélection ascendante, La première variable explicative à entrer dans le modèle
est celle qui est la plus fortement corrélée avec la variable dépendante. Ensuite, on introduit
une deuxième variable à condition qu’elle soit significative et choisie de façon à maximiser la
corrélation partielle entre Y et cette nouvelle variable. Et il en est ainsi jusqu’à l’inclusion de
toutes les variables explicatives marginalement significatives dans un dernier modèle.
Appelée aussi élimination descendante, Au début, toutes les variables explicatives font partie
du modèle, et celui-ci est significatif. On retire une première variable non significative, celle
qui contribue le moins à l’explication de la variation de la variable dépendante, compte tenu
que les p-1 autres sont encore dans le modèle. A l’étape suivante, on retire une deuxième
variable marginalement non significative, puis une troisième de même nature,..., jusqu’à
l’obtention d’un modèle ne comprenant que des variables explicatives significatives.
Désignons comme suit les éléments nécessaires pour effectuer le test en question :
Cette statistique obéit à une à une loi de Fisher avec (p-k) et (n-p-1) degrés de liberté. On
compare la valeur calculée de F à sa valeur critique lue dans la table de Fisher à un seuil (1-
élevée de F conduit au rejet de H0.
9 Application numérique.
Une étude a été effectuée durant un mois auprès d’un échantillon de 25 entreprises
informatique tous des revendeurs. Les variables mesurées sont :
Y = chif_aff : Chiffre d'affaires en dirhams réalisés pendant un mois.
X1 = dem_info : Nombre de demandes d'informations sur les prix par visite ou par
25
téléphone durant un mois
X2 = age : Nombre d'années d'existence de l'entreprise.
X3 = fac_pmt : Possibilité d'avoir une facilité de paiement, 1 si oui et 0 si non.
X4 = nb_comm : Nombre de commerciaux dans l'entreprise (une secrétaire qui fait
aussi le commercial compte pour 0,5).
X5 = chg_fix : Charges fixes hors salaires d'un mois.
A partir de ces données, on cherche à expliquer le chiffre d’affaires par les cinq autres
variables.Pour cela on utilise la méthode de régression multiple.
Les calculs et résultats de la régression multiple ont été effectués à l’aide du logiciel SPSS
qui nous a fourni les résultats ci-dessous.
26
Coefficients de corrélation :
Corrélations
27
Erreur
standard
Modèl R R-deux R-deux de
e ajusté
l'estimati
on
1 ,831 ,691 ,610 10229,2
a 4
a. Valeurs prédites : (constantes),
CHG_FIX, FAC_PMT, AGE,
NB_COMM, DEM_INFO
Le R-deux calculé par SPSS est de 0,691. Les cinq variables explicatives expliquent donc
69,1 % de la variation du chiffre d’affaires. Le coefficient de détermination multiple tend à
augmenter avec le nombre de variables explicatives. Pour pallier à cet inconvénient, on
calcule un coefficient de détermination ajusté qui tient compte du nombre de variables
explicatives (p) et de la taille de l’échantillon (n). Le R² ajusté est donc plus approprié pour
comparer des modèles de régression d’une variable expliquée Y en fonction de différents
sous-groupes de variables explicatives. Le R- deux ajusté calculé par SPSS est de 0,691. Les
cinq variables explicatives expliquent donc 69,1 % de la variation du chiffre d’affaires. On
voit bien que le R-deux est supérieur au R-deux ajusté.
Analyse de la variance :
ANOVAb
Somme
Modèle des carrés dd Carré F Significati
l moyen on
1 Régressio 4,444E+0 5 888778346 8,494 ,000
a
n 9
Résidu 1,988E+0 19 104637277
9
Total 6,432E+0 24
9
a. Valeurs prédites : (constantes), CHG_FIX, FAC_PMT, AGE, NB_COMM,
DEM_INFO
b. Variable dépendante : CHIF_AFF
Ho : ß1 = ß2 = ß3 = ß4 = ß5 = 0
H1 : au moins un des coefficients ßi est différent de zéro
La statistique F = 8,494 dépasse largement la valeur critique 2,96 lue dans la table de la loi de
Fisher à 5 et 19 degrés de liberté, pour un seuil de signification de 5%. En comparant la
signification associée (0,000) au seuil de signification, on atteint la même conclusion, à
28
savoir qu’au moins une des cinq variables explicatives explique significativement le chiffre
d’affaires.
Ajustement du modèle :
Coefficientsa
Coefficients
standardi
Coefficients non sés Intervalle de
standardisés confiance à 95%
de B
Erreur Borne Borne
Modèle B standar Bêta t Signification inférieure supérieur
d e
1 (constante) 224678,4 15988,434 14,053 ,000 191214,20 258142,548
DEM_INFO 49,674 23,114 ,501 2,149 ,045 1,296 98,052
AGE 947,151 852,747 ,155 1,111 ,281 -837,668 2731,970
FAC_PMT 16025,913 4230,138 ,499 3,789 ,001 7172,132 24879,694
NB_COMM 11711,778 5767,309 ,334 2,031 ,057 -359,337 23782,894
CHG_FIX -,942 1,456 -,125 -,647 ,525 -3,991 2,106
a. Variable dépendante : CHIF_AFF
Les estimations ponctuelles et par intervalle de confiance sont fournis par SPSS. Le modèle
de régression multiple estimé par les moindres carrés se retrouve dans le tableau identifié
par le terme « coefficients », dans la deuxième colonne intitulée « Coefficients non
standardisés » et se lit comme suit :
H0 : βi = 0
H1 : βi ≠ 0
L’essentiel du test se trouve aussi sur la sortie informatique. Pour la variable demande
d’informations sur les prix, la valeur de la statistique [t = 49,674/23,114 = 2,149], la
probabilité associée qui apparaît aussi dans la sortie informatique, [Signification = 0,045] est
inférieure au seuil de signification α utilisé (0,05 ici), il faut rejeter l’hypothèse nulle. Les
demandes d’informations sur les prix expliquent donc significativement le chiffre d’affaires.
En même temps, la variable facilitée de paiement dont la probabilité de signification est de
0,001, expliquent donc significativement le chiffre d’affaires. La contribution des trois
autres variables dans le modèle n’est pas significative.
29
Les coefficients standardisés (ou coefficients « bêta »)
L’imprimé informatique contient aussi les coefficients standardisés qui permettent d’écrire
le modèle sous cette autre forme dans laquelle toutes les variables ont été ramenées à une
moyenne nulle et à une variance unitaire :
La fausse impression que X2 jouait un rôle beaucoup plus important que X1 dans le modèle
original(b2=947,15 et b1 = 49,67 s’est modifiée à la lecture des
coefficients standardisés = 0,155 versus = 0,501).
Les données sur le chiffre d’affaires et les 5 variables explicatives déjà analysées sont
soumises cette fois à la procédure ascendante de SPSS, seulement 3 variables explicatives ont
été retenues dans le modèle final (dans l’ordre : nombre de commerciaux, facilité de
paiement et demandes d’informations sur les prix). Les principaux résultats de cette analyse se
présentent comme suit :
Variables sélectionnées :
Variables introduites/éliminée Sa
La première variable explicative à entrer dans le modèle est celle qui est la plus fortement
30
corrélée avec la variable dépendante chiffre d’affaires, il s’agit de variable nombre de
commerciaux (corrélation = 0,620). Ensuite, on introduit une deuxième variable à condition
qu’elle soit significative et choisie de façon à maximiser la corrélation partielle entre Y et
cette nouvelle variable, il s’agit de la variable facilitée de paiement (voir tableau variables
exclues plus bas : signification = 0,003 et corrélation partielle = 0,581). Ensuite, on introduit
une troisième variable qui est nombre de demandes d’informations sur les prix (signification
= 0,04 et corrélation partielle = 0,43). La sélection s’arrête puisque les variables explicatives
restantes ne sont pas significatives.
Qualité d’ajustement :
Récapitulatif du modèle
Le premier modèle à une seule variable explicative, nombre de commerciaux, explique 35,8 %
de la variation du chiffre d’affaires. En introduisant la deuxième variable, facilité de
paiement, la part expliquée a augmenté à 55,5 %. Le modèle final à trois variables explicatives
(dans l’ordre : nombre de commerciaux, facilité de paiement et demandes d’informations sur
les prix) explique 62,1 %.
Analyse de la variance :
ANOVAd
Somme des
Modèle carrés ddl Carré moyen F Significatio
n
1 Régression 2,476E+09 1 2475803435 14,393 ,001a
Résidu 3,956E+09 23 172008546
Total 6,432E+09 24
2 Régression 3,811E+09 2 1905569356 15,996 ,000b
Résidu 2,621E+09 22 119130059
Total 6,432E+09 24
3 Régression 4,296E+09 3 1432163755 14,084 ,000c
Résidu 2,136E+09 21 101690892
Total 6,432E+09 24
a. Valeurs prédites : (constantes), NB_COMM
31
b. Valeurs prédites : (constantes), NB_COMM, FAC_PMT
c. Valeurs prédites : (constantes), NB_COMM, FAC_PMT, DEM_INFO
Les trois modèles sont significatifs, ce qui est normale puisqu’on n’introduit que les
variables significatives. Mais le modèle final à trois variables explicatives est le plus significatif
(signification = 0,000).
Identification des modèles :
Coefficientsa
Pour les trois modèles, les tests de Student sur les coefficients sont tous significatifs.
32
Variables excluesd
Statistiqu es
Corrélation de
partielle colinéarité
Modèle Bêta T Significati Tolérance
dans on
1 DEM_INFO ,279a 1,371 ,184,280 ,624
AGE ,087a ,513 ,613,109 ,952
FAC_PMT ,460a 3,348 ,003,581 ,983
CHG_FIX ,189a 1,053 ,304,219 ,827
2 DEM_INFO ,350b 2,185 ,040,430 ,615
AGE ,046b ,321 ,751,070 ,945
CHG_FIX ,159b 1,062 ,300,226 ,824
3 AGE ,136c 1,010 ,325,220 ,870
CHG_FIX -,079c -,416 ,682
-,093 ,455
a. Valeurs prédites dans le modèle : (constantes), NB_COMM
DEM_INFO
d. Variable dépendante : CHIF_AFF
Les mêmes données sur le chiffre d’affaires et les 5 variables explicatives sont soumises
cette fois à la procédure descendante de SPSS, seulement 3 variables explicatives ont été
retenues dans le modèle final. Les principaux résultats de cette analyse se présentent comme
suit :
Variables sélectionnées :
Variables introduites/éliminée Sb
Variables Variables
Modèle introduites éliminées Méthode
1
CHG_FIX,
FAC_PMT,
AGE, , Introduire
NB_COMMa,
DEM_INFO
2 Elimination descendante (critère:
, CHG_FIX Probabilité de F pour éliminer >= ,100).
33
3 Elimination descendante (critère:
, AGE
Probabilité de F pour éliminer >= ,100).
a. Toutes variables requises introduites
b. Variable dépendante : CHIF_AFF
Le premier modèle contient les cinq variables explicatives. Le test de Student sur les
coefficients indique que la variable charges fixes hors salaires est la moins significative
(tableau des coefficients ou tableau des variables exclues plus bas : signification= 0,525). On
exclut donc cette variable du modèle.
Le deuxième modèle contient donc les quatre variables explicatives restantes. Pour ce
modèle, le test de Student sur les coefficients indique que la variable age n’est pas
significative (tableau des coefficients ou tableau des variables exclues plus bas :
signification= 0,325). On exclut donc cette variable du modèle.
Le troisième modèle contient donc les trois variables explicatives restantes. Pour ce modèle, le
test de Student sur les coefficients indique que les trois variables explicatives sont toutes
significatives (tableau des coefficients ou tableau des variables exclues plus bas :
signification < 0,325). Il s’agit donc du modèle final qui exprime le chiffre d’affaires en
fonction du nombre de commerciaux, de la facilité de paiement et du nombre de demandes
d’informations sur les prix.
Qualité d’ajustement :
Récapitulatif du modèle
Erreur
standard
Modèl R R-deux R-deux de
e ajusté
l'estimati
on
1 ,831a ,691 ,610 10229,24
2 ,827b ,684 ,621 10079,46
3 ,817c ,668 ,621 10084,19
a. Valeurs prédites : (constantes), CHG_FIX, FAC_PMT, AGE, NB_COMM,
DEM_INFO
b. Valeurs prédites : (constantes), FAC_PMT, AGE, NB_COMM, DEM_INFO
Analyse de la variance :
34
ANOVAd
Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 4,444E+09 5 888778346 8,494 ,000a
Résidu 1,988E+09 19 104637277
Total 6,432E+09 24
2 Régression 4,400E+09 4 1100022286 10,827 ,000b
Résidu 2,032E+09 20 101595543
Total 6,432E+09 24
3 Régression 4,296E+09 3 1432163755 14,084 ,000c
Résidu 2,136E+09 21 101690892
Total 6,432E+09 24
a. Valeurs prédites : (constantes), CHG_FIX, FAC_PMT, AGE, NB_COMM,
DEM_INFO
b. Valeurs prédites : (constantes), FAC_PMT, AGE, NB_COMM, DEM_INFO
Les trois modèles sont significatifs, ce qui est normale puisqu’on exclut toutes les variables
non significatives.
Ajustement des modèles :
Coefficientsa
C.
standa
Coefficients non rdisés Intervalle de
standardisés confiance à 95%
de B
Erreur Borne Borne
Modèle B standard Bêta t Signific inférieure supérieur
ation e
1 (constante) 224678,4 15988,434 14,053 ,000 191214,20 258142,548
DEM_INFO 49,674 23,114 ,501 2,149 ,045 1,296 98,052
AGE 947,151 852,747 ,155 1,111 ,281 -837,668 2731,970
FAC_PMT 16025,913 4230,138 ,499 3,789 ,001 7172,132 24879,694
NB_COMM 11711,778 5767,309 ,334 2,031 ,057 -359,337 23782,894
CHG_FIX -,942 1,456 -,125 -,647 ,525 -3,991 2,106
2 (constante) 225481,0 15706,843 14,356 ,000 192717,07 258244,877
DEM_INFO 39,395 16,543 ,398 2,381 ,027 4,887 73,904
AGE 828,724 820,676 ,136 1,010 ,325 -883,176 2540,623
FAC_PMT 15547,588 4104,051 ,484 3,788 ,001 6986,688 24108,489
NB_COMM 12034,960 5661,510 ,344 2,126 ,046 225,257 23844,664
35
3 (constante) 234468,8 12947,711 18,109 ,000 207542,52 261394,996
DEM_INFO 34,702 15,884 ,350 2,185 ,040 1,669 67,734
FAC_PMT 15791,874 4098,837 ,492 3,853 ,001 7267,875 24315,872
NB_COMM 11978,091 5663,886 ,342 2,115 ,047 199,395 23756,787
a. Variable dépendante : CHIF_AFF
Statistiqu es
Corrélati de
Modèle Bêta t Significati on colinéarité
dans on partielle Tolérance
2 CHG_FIX -,125a -,647 ,525 -,147 ,434
3 CHG_FIX -,079b -,416 ,682 -,093 ,455
AGE ,136b 1,010 ,325 ,220 ,870
a. Valeurs prédites dans le modèle : (constantes), FAC_PMT, AGE, NB_COMM,
DEM_INFO
b. Valeurs prédites dans le modèle : (constantes), FAC_PMT, NB_COMM,
DEM_INFO
c. Variable dépendante : CHIF_AFF
Qualité d’ajustement :
Récapitulatif du modèle
Le premier modèle à une seule variable explicative, nombre de commerciaux, explique 35,8 %
de la variation du chiffre d’affaires. En introduisant la deuxième variable, facilité de
paiement, la part expliquée a augmenté à 55,5 %. Le modèle final à trois variables explicatives
(dans l’ordre : nombre de commerciaux, facilité de paiement et demandes d’informations sur
les prix) explique 62,1 %.
Analyse de la variance :
ANOVAd
Somme des
37
Modèle carrés ddl Carré moyen F
Significatio
n
1 Régression 2,476E+09 1 2475803435 14,393 ,001a
Résidu 3,956E+09 23 172008546
Total 6,432E+09 24
2 Régression 3,811E+09 2 1905569356 15,996 ,000b
Résidu 2,621E+09 22 119130059
Total 6,432E+09 24
3 Régression 4,296E+09 3 1432163755 14,084 ,000c
Résidu 2,136E+09 21 101690892
Total 6,432E+09 24
a. Valeurs prédites : (constantes), NB_COMM
Les trois modèles sont significatifs, ce qui est normale puisqu’on n’introduit que les
variables significatives. Mais le modèle final à trois variables explicatives est le plus significatif
(signification = 0,000).
38
- Modèle à deux variables explicatives :
Ŷ = 254429,1 + 9653,25 NB_COMM + 4752,659 FAC_PMT
Pour les trois modèles, les tests de Student sur les coefficients sont tous significatifs.
Variables excluesd
Statistiqu es
Corrélation de
Modèle Bêta T Significati partielle colinéarité
on Tolérance
1 DEM_INFO ,279a 1,371 ,184 ,280 ,624
AGE ,087a ,513 ,613 ,109 ,952
FAC_PMT ,460a 3,348 ,003 ,581 ,983
CHG_FIX ,189a 1,053 ,304 ,219 ,827
2 DEM_INFO ,350b 2,185 ,040 ,430 ,615
AGE ,046b ,321 ,751 ,070 ,945
CHG_FIX ,159b 1,062 ,300 ,226 ,824
3 AGE ,136c 1,010 ,325 ,220 ,870
CHG_FIX -,079c -,416 ,682 -,093 ,455
a. Valeurs prédites dans le modèle : (constantes), NB_COMM
b. Valeurs prédites dans le modèle : (constantes), NB_COMM, FAC_PMT
DEM_INFO
d. Variable dépendante : CHIF_AFF
39
40
41