Polycope Statistique Appliquee

COURS DE STATISTIQUE
APPLIQUEE
SEMESTRE 5
Professeur : M. HOUSSAS
Département : ITQAG
Année universitaire
2021-2022
1
Table des matières
CHAPITRE 1 : LA REGRESSION SIMPLE....................................................................................................... 4
1.1. INTRODUCTION. .................................................................................................................... 4
1.2. LA REGRESSION SIMPLE .................................................................................................... 4
1.2.1. Identification du modèle. ...................................................................................................... 4
1.2.2. Ajustement du modèle. ......................................................................................................... 5
1.2.3. Qualité de l’ajustement. ........................................................................................................ 9
a) Définition ...................................................................................................................................... 9
b) Estimation ..................................................................................................................................... 9
c) Test de signification.................................................................................................................... 10
1.2.3.2. Coefficient de détermination............................................................................................... 10
1.2.3.3. Analyse de la variance. ....................................................................................................... 12
1.2.4.1. Intervalle de confiance pour E ( Y | x0 ). ......................................................................... 13
1.2.4.2. Intervalle de prévision pour une valeur individuelle de Y, quand X= xo ........................ 13
1.2.5. Application numérique. ....................................................................................................... 13
Chapitre 2 : REGRESSION MULTIPLE. .............................................................................................. 19
1 Introduction ................................................................................................................................. 19
2 Identification du modèle. ............................................................................................................. 19
3 Ajustement du modèle. ................................................................................................................ 19
4 Qualité de l’ajustement. ............................................................................................................... 20
4.1. Coefficient de corrélation. ....................................................................................................... 20
4.2. Coefficient de détermination multiple. .................................................................................... 20
4.3. Analyse de la variance. ............................................................................................................ 22
4.4. Test d’hypothèses sur un coefficient particulier ßj. ................................................................. 22
4.5. Indice de la qualité prévisionnelle d’un modèle. ..................................................................... 23
5 Les coefficients standardisés (ou coefficients « bêta »). ............................................................. 23
6 Coefficient de détermination partielle. ........................................................................................ 23
7 Choix des variables explicatives. ................................................................................................ 24
7.1. Sélection progressive. .............................................................................................................. 24
7.2. Sélection régressive. ................................................................................................................ 24
7.3. Sélection pas à pas (in and out stepwise regression). .............................................................. 24
8 Test de signification d’un sous-ensemble de variables explicatives. .......................................... 25
9 Application numérique. ............................................................................................................... 25
9.1. Méthode entrée : Modèle avec toutes les variables explicatives. .......................................... 27
2
9.2. Sélection progressive des variables explicatives. .................................................................... 30
9.3. Sélection régressive des variables explicatives. ...................................................................... 33
9.4. Sélection pas à pas des variables explicatives. ........................................................................ 36
3
CHAPITRE 1 : LA REGRESSION SIMPLE
1.1. INTRODUCTION.
En analyse de régression, on cherche à expliquer une variable métrique Y qui dépend d’une
ou de plusieurs variables explicatives métriques X1, X2,..., Xp. A cette fin, un modèle
mathématique peut représenter convenablement la relation entre Y et les Xi, ce modèle
servira aussi pour faire des prévisions.
Y = f ( X1, X2,..., Xp )
La variable Y s’appelle la variable expliquée, dépendante, endogène, tandis que les X1,
X2,..., Xp sont les variables explicatives, indépendantes, exogènes.
S’appuyant sur des données observées, l’analyse de régression consiste à élaborer un modèle
explicatif, ensuite on passe à l'analyse statistique du modèle qui comporte l'estimation des
paramètres et divers tests d'hypothèses.
1.2. LA REGRESSION SIMPLE
S’il n’y a qu’une seule variable explicative, on dira que le modèle de régression est simple.
Son but est de confirmer empiriquement une relation de cause à effet entre deux variables.
Ensuite, si cette relation est confirmée évaluer son intensité.
1.2.1. Identification du modèle.
On doit préciser la variable dont on veut expliquer les variations (variable dépendante
Y), puis celle qui est la cause de ces variations (variable explicative X).
Bien que la relation entre deux variables ne soit pas nécessairement linéaire, il est souvent postulé
que cette relation est linéaire et ce pour la principale raison : la théorie de la régression linéaire
est beaucoup plus développée et surtout beaucoup plus simple à appliquer et à interpréter que
celle de la régression non linéaire.
Le modèle théorique en régression linéaire simple s’écrit :
Y  0  1 X  
Le paramètre 1 donne la pente de la droite appelée coefficient de régression, il mesure la

variation de Y lorsque X augmente d’une unité. Le paramètre 0 est l'ordonnée à l'origine,
4
c’est à dire la valeur prise par Y lorsque X = 0.
 représente l'erreur aléatoire, elle est non observable et comprend à la fois les erreurs de
mesure sur les valeurs observées de Y et tous les autres facteurs explicatifs non pris en
compte dans le modèle.
L’analyse de régression repose sur un certain nombre de postulats :

- La variable explicative X est mesurée sans erreur.
- Les erreurs aléatoires  sont distribuées selon une loi normale de moyenne
nulle et de variance constante inconnue.
- Les erreurs aléatoires  sont non corrélées avec la variable explicative.
- Les erreurs aléatoires  sont non corrélées entre elles.
1.2.2. Ajustement du modèle.
Le diagramme de dispersion d'une variable Y en fonction d'une autre variable X est formé des
points moyens conditionnels (xi , yi), et donne une idée de la façon dont varie, en moyenne, la
variable Y enfonction de la variable X.
Diagramme de dispersion
5
A partir du diagramme de dispersion, on peut souvent représenter une courbe continue
approchant les données. Cette courbe est appelée courbe d'ajustement. La régression linéaire
permet donc de déterminer la droite qui s'ajuste au mieux aux valeurs observées. Cette
droite est appelée droite de régression de Y en fonction de X.
Il existe différentes méthodes pour déterminer cette droite de régression. La méthode la plus
utilisée est la méthode des moindres carrés.
La méthode des moindres carrés est une méthode d'ajustement qui consiste à minimiser la
somme des carrés des différences entre les valeurs observées, yi, et les valeurs estimées
par la droite, ŷi , différence appelée résidu.
Le modèle empirique, estimé à partir des observations, sera désigné de cette façon :
b0 et b1 sont des estimations des paramètres 0 et 1 du modèle théorique. On définit le i-ème

résidu ei par :
La méthode des moindres carrées est celle qui minimise la somme des carrés des résidus ;
symboliquement, on cherche à :
Avec le critère des moindres carrés, tous les résidus deviennent positifs ; il est donc
impossible que des résidus positifs annulent des résidus négatifs.
Les démonstrations algébriques sont facilitées par le recours aux outils du calcul différentiel.
La minimisation d’une fonction quadratique à plusieurs variables s’effectue en annulant les
dérivées partielles de premier ordre et en vérifiant le signe des dérivées partielles de
deuxième ordre.
Les estimateurs obtenus par cette méthode sont des estimateurs linéaires non biaisés à
variance minimale c’est à dire efficace. (BLUE [ Best Linear Unbiased Estimators]).
Les estimateurs des moindres carrés sont les mêmes que ceux que l’on obtiendrait si l’on se
servaitde la méthode du maximum de vraisemblance en supposant que les erreurs théoriques
sont normalement distribuées.
Par calcul différentiel, on cherche les 2 valeurs b0 et b1 qui minimisent la somme des carrés
des résidus, cette somme quadratique est notée f( b0 , b1), puisqu’elle est fonction de 2 termes
inconnus :
6
En annulant simultanément les dérivées partielles de f par rapport à b0 et b1, on obtient le
système d’équations linéaires homogène suivant :
La solution générale est donnée par :
L’estimation de ßo et ß1 par la méthode des moindres carrés conduit aux formules

équivalentes suivantes :
Ces estimateurs sont des fonctions linéaires des observations Y1 , Y2 , ..., Yn.Ces estimateurs
sont non biaisés :
E(b1) = 1
E(b0) = 0
Sans démonstration mathématique, les variances théoriques de ces estimateurs sont :
7
Connaissant la moyenne et la variance des estimateurs et ayant supposé que les erreurs, et
donc les Yi, sont distribuées normalement, on peut conclure que les estimateurs b0 et b1,
étant des fonctions linéaires des observations, obéissent eux-mêmes à une loi normale.
On peut donc construire des intervalles de confiance pour chacun des paramètres ßo et ß1;
pour cela, il faut au préalable estimer la variance des erreurs, ².
Les résidus étant des estimations des erreurs théoriques, on doit se servir de la variance des
résidus (notée S²e ) comme estimation de la variance des erreurs, la formule est donnée par :
On peut montrer que cet estimateur est non biaisé, c’est-à-dire :
Les estimateurs des paramètres de la droite de régression sont des statistiques qui obéissent à
des lois de Student à ( n - 2 ) degrés de liberté :
Les intervalles de confiance à un seuil pour les paramètres ß0 et ß1 sont donnés par :
8
1.2.3. Qualité de l’ajustement.
1.2.3.1. Coefficient de corrélation de pearson.
a) Définition
Le coefficient de corrélation linéaire, désigné par , a pour objet de mesurer l'intensité de la

liaison linéaire entre deux variables statistiques X et Y. Il exige des données mesurées selon
une échelle métrique.
E(XE(X)(YE(Y)
 =
VAR(X)VAR(Y)
Cette définition montre que le coefficient de corrélation possède le même signe que la
covariance etqu'il est toujours compris entre -1 et 1.
Le signe du coefficient de corrélation linéaire indique le sens de la relation entre X et Y.
  = 1 : dans ce cas les points se trouvent tous sur une même droite croissante, on
parle de corrélation linéaire positive parfaite.
  = -1 : dans ce cas les points se trouvent tous sur une même droite décroissante, on
parle de corrélation linéaire négative parfaite.
  = 0 : dans ce cas il n'y a aucune dépendance linéaire entre les deux variables, on
parle de corrélation linéaire nulle.
 -1 <  < 0 : dans ce cas les deux variables varient en sens inverse, la relation
linéaire est faible ou forte selon que le coefficient de corrélation linéaire est proche de
0 ou de -1.
 0 <  < 1 : dans ce cas les deux variables varient dans le même sens, la relation
linéaire est faible ou forte selon que le coefficient de corrélation linéaire est proche de
0 ou de 1.
Le problème de la régression est intimement lié à celui de la corrélation : plus la corrélation est
forte entre deux variables, mieux l’on pourra prédire ou expliquer la valeur de la variable
dépendante.
b) Estimation
Le coefficient de corrélation de X et Y peut être estimé à l’aide d’un échantillon aléatoire

9
de ncouples d’observations par la formule suivante :
Le calcul du coefficient de corrélation exige que les deux variables soient distribuées
conjointement selon une loi normale. Un test d’ajustement de Khi deux peut tester la
normalité des distributions individuelles. Dans le cas où la normalité n’est pas vérifiée on
peut utiliser d’autres mesure de corrélation moins exigeantes, telle que la corrélation des rangs
de Spearman ou le tau de Kendall.
c) Test de signification
Ce test a pour but de vérifier que, dans la population, la vraie corrélation  est différente de 0.
Les hypothèses à tester sont :
H0 :  = 0
H1 :   0
L’expression de la statistique du test est :
Cette statistique obéit à une loi de Student à ( n - 2 ) degrés de liberté, quand l’hypothèse
nulle est vraie. On rejettera celle-ci chaque fois que la statistique sera trop grande en valeur
absolue.
1.2.3.2. Coefficient de détermination.
Le coefficient de détermination noté R2 est le pourcentage de la variation totale dans la

variable Y qui est expliquée par la régression. Il synthétise la capacité de la droite de
régression à retrouver les différentes valeurs de la variable dépendante Yi
10
La variation totale observée sur la variable expliquée Y peut être
décomposée en 2 parties :
Le premier terme désigné par SCR mesure la variation autour de la droite de
régression, on l’appelle Somme des Carrés due à la Régression. L’autre terme,

désigné par SCE, mesure la variation résiduelle, on l’appelle la somme des carrés due à
l’erreur.La somme des carrées totale s’écrit :
SCT = SCR + SCE
Puisqu’on cherche à expliquer la variation totale de Y autour de sa moyenne, SCT, on peut

utiliser le coefficient de détermination R2 comme indice de la qualité de l'ajustement de la
droite aux données.
On pourrait montrer par ailleurs que R2 est égal au carré du coefficient de corrélation.
- Cas où R2 = 0 :
Il faut pour cela que SCR = 0 et alors le modèle utilisé n'explique aucune variation dans la
variable dépendante Y. En outre, SCR = 0 implique que toutes les valeurs prédites sont
égales à la moyenne des Y, c’est-à-dire
Graphiquement, dans le cas d’une régression simple, on aura la situation suivante, dans
laquelle onpeut voir clairement que la variable explicative X n’est d’aucune utilité pour
prédire Y.
- cas où R2 =1 :
Il faut pour cela que SCR = SCT, ce qui revient à écrire : SCE = 0. S’il en est ainsi, le modèle
utilisé explique toute la variation observée sur Y. En outre, SCE = 0 implique que toutes les
valeurs prédites sont égales aux valeurs observées correspondantes de Y, c’est-à-dire
11
Graphiquement, en régression simple, on a la situation suivante dans laquelle on voit que le
modèle de régression explique parfaitement les variations de Y; quand l’ajustement est parfait
comme ici, la variable explicative X peut prédire sans erreur les valeurs de Y, au moins pour
les valeurs de l’échantillon.
1.2.3.3. Analyse de la variance.
L’analyse de la variance a pour but d’évaluer la qualité du R² en testant la signification du

coefficient de régression. L’hypothèse à tester est :
H0 : 1 = 0
H1 : 1  0
Dans le cas de la régression simple ce test coïncide avec le test de signification du

coefficient de corrélation. Dont les hypothèses sont :
H0 :  =0
H1 : 0
Le test calcule le rapport de la variance expliquée par le modèle à la variance résiduelle.

Cette statistique obéit à une à une loi de Fisher à un et (n - 2) degrés de liberté. On compare
la valeur calculée de F à sa valeur critique lue dans la table de Fisher à un seuil (1-). Une
valeur élevée de F indique que la pente de la droite de régression n’est pas nulle, ce qui
conduit au rejet de H0 ; donc, seules les grandes valeurs de la statistique F sont significatives.
Tableau d’analyse de la variance en régression linéaire simple
12
1.2.4. Calcul de prévisions.
1.2.4.1. Intervalle de confiance pour E ( Y | x0 ).
Pour obtenir une prévision ponctuelle de Y pour une valeur particulière x0 de X, il

suffit de remplacer X par x0 dans le modèle empirique, ce qui s’écrit :
L’intervalle de confiance au seuil pour la moyenne est donné par l’expression suivante :
L’amplitude de l’intervalle est minimale quand ; c’est donc pour cette valeur de X
que la précision de l’estimation est la plus élevée. A mesure qu’on s’éloigne de la moyenne
des X dans une direction ou dans l’autre, la précision de l’estimation diminue, ce qui se traduit
par des intervalles de plus en plus larges.
1.2.4.2. Intervalle de prévision pour une valeur individuelle de Y, quand X= xo
L’intervalle de prévision est donné par :
L’intervalle de prévision est plus large que l’intervalle de confiance pour une même valeur
Xo de X. Il est plus difficile en effet de prévoir une valeur individuelle que d’estimer la
moyenne d’un groupe.
1.2.5. Application numérique.
Au cours de 12 mois, une entreprise a noté le montant des frais de publicité et le volume du
chiffre d'affaires réalisé. Les résultats sont consignés dans le tableau suivant :
13
Mois Frais de Chiffre
publicité d'affaires
Janvier 25000 280000
Février 17000 250000
Mars 18000 255000
Avril 28000 292500
Mai 22000 265000
Juin 20000 260000
Juillet 19000 262500
Août 22000 280000
Septembre 30000 285000
Octobre 30000 296000
Novembre 27000 285000
Décembre 24000 270000
On s’intéresse à expliquer le chiffre d’affaires par les dépenses publicitaires. Le logiciel SPSS
offre la possibilité d’effectuer ce type d’analyse. La variable dépendante Y correspond donc
au chiffre d’affaires alors que les frais de publicité représentent la variable explicative X.
Les sorties informatiques se présente comme suit :
Procédure SPSS pour une corrélation linéaire :
A partir du menu, sélectionnez :
Analyse
Corrélation
Bivariée...
Sélectionnez deux variables numériques ou plus.
Repérer les corrélations significatives : les coefficients de corrélation significatifs au niveau

0,05 sont identifiés par un seul astérisque et ceux qui sont significatifs au niveau 0,01 sont
identifiés par deux astérisques.
Procédure SPSS pour une régression linéaire :

A partir du menu, sélectionnez :
Analyse
Régression
Linéaire...
Dans la boîte de dialogue Régression linéaire :

Dans variable dépendante, sélectionnez une variable numérique dépendante. Dans variables
explicatives, sélectionnez une ou plusieurs variables explicatives. Dans méthodes, sélectionner
14
la méthode de sélection des variables explicatives.
 Identification du modèle :
D’après ce nuage de points, on voit bien que le modèle de régression linéaire simple Y  0 
1 X   devrait représenter convenablement la relation entre les deux variables.
 Coefficient de corrélation :
Corrélations
Frais de chiffre
publicité d'affaires
Frais de publicité Corrélation de 1,000 ,937**
Pearson
Sig. (bilatérale) , ,000
N 12 12
chiffre d'affaires Corrélation de ,937** 1,000
Pearson
Sig. (bilatérale) ,000 ,
N 12 12
**. La corrélation est significative au niveau 0.01 (bilatéral).
SPSS évalue que la corrélation entre les frais de publicité et le chiffre d’affaires est égale à
0,937 et qu’elle est significative au seuil de 1 % puisque la probabilité de signification (sig =
0,000) est inférieure au seuil de 1%.
 Coefficient de détermination R-deux :
15
Récapitulatif du modèle
Erreur standard
de l'estimation
Modèle R R-deux R-deux
ajusté
1 ,937a ,879 ,866 5507,30
a. Valeurs prédites : (constantes), Frais de publicité
Le R-deux calculé par SPSS est de 0,866. Les frais de publicité expliquent donc 86,6 % de
la variation du chiffre d’affaires. Ce pourcentage traduit une très bonne qualité d’ajustement.
 Analyse de la variance :
SPSS fournit en outre le tableau d’analyse de la variance :

ANOVAb
Somme des Ddl Carré moyen F Signification

Modèle carrés
Régression 2,195E+09 1 2195113537 72,374 ,000a
Résidu 303303130 10 30330313,0
Total 2,498E+09 11
a. Valeurs prédites : (constantes), Frais de publicité
b. Variable dépendante : chiffre d'affaires
La statistique F = 72,374 dépasse largement la valeur critique 4,96 lue dans la table de la loi
de Fisher à 1 et 10 degrés de liberté, pour un seuil de signification de 5%. En comparant la
signification associée (0,000) au seuil de signification, on atteint la même conclusion, à
savoir que la régression est très significative.
 Ajustement du modèle :
Coefficientas
Coefficient
s
Coefficients non standardisé Intervalle de confiance 95%
standardizes s de B
Erreur Borne Borne
Modèle B standard Bêta T Significatio inférieure supérieure
n
1 (constante) 00659,0 8698,923 23,067 ,000 81276,62 20041,433
Frais de public 3,096 ,364 ,937 8,507 ,000 2,285 3,907
a.Variable dépendante : chiffre d'affaires
16
Les estimations des 2 paramètres de la droite de régression sont données par :
bo = 200659 = ordonnée à l'origine

b1 = 3,096 = pente
Par conséquent, la droite de régression estimée par la méthode des moindres carrés se lit
comme suit :
Un mois où on dépense 26000 dh de publicité, on peut espérer un chiffre d’affaires de

l’ordre de :
3,096 (26000) + 200659 = 281151 dh.
En moyenne, chaque dh de plus dans les frais de publicité d’un mois a pour conséquence de
faire augmenter le chiffre d’affaires de 3,096 dh.
Dans la sortie informatique on peut vérifier que les intervalles de confiance à 95% pour
l’ordonnée à l’origine et la pente de la droite de régression sont donnés respectivement par :
- Pour ß0 : 200659  2,228 (8698,923) = [181277,80 ; 220040,20]
8698,923 étant l’erreur standard de l’estimation et 2,228 correspond à la valeur de la table de

Student avec une probabilité de (1-/2) = 0,975 et (12-2) = 10 degré de liberté.
Le logiciel SPSS, plus précis qu’une calculatrice, donne un intervalle de confiance

égale à [181276,62 ; 220041,433]
- Pour ß1 : 3,096  2,228 (0,364) = [2,285 ; 3,907]
On peut conclure donc que sans dépenses publicitaires, on peut espérer un chiffre d’affaires
entre 181276 dh et 22042 dh. Par ailleurs, il est permis de conclure avec un niveau élevé de
confiance que chaque dirham additionnel en dépenses publicitaires entraîne une augmentation
dans le chiffre d’affaires, augmentation qui se situerait entre 2 et 4 dh, en moyenne.
 Test de signification :
Afin de vérifier si la variable « frais de publicité » explique significativement le chiffre

d’affaires, à un seuil  donné, il faut tester les hypothèses :
H0 : 1 = 0 H1 : 1  0
L’essentiel du test se trouve aussi sur la sortie informatique. On y retrouve en particulier la

valeur de la statistique [ t = 3,096/0,364 = 8,5 ]. Cette valeur est nettement significative à un
seuil de 5% puisqu’elle dépasse la valeur théorique de la loi de Student à 10 degrés de
liberté t0,975 ;10 = 2,228. Les frais de publicité constituent un excellent prédicateur du chiffre
17
d’affaires, en d’autres mots, la variable X réussit très bien à expliquer les variations de Y
autour de sa moyenne. On atteint cette même conclusion avec la probabilité associée qui
apparaît aussi dans la sortie informatique, [Signification = 0,000]. Chaque fois que cette
probabilité est inférieure au seuil de signification α utilisé (0,05 ici), il faut rejeter
l’hypothèse nulle.
18
Chapitre 2 : REGRESSION MULTIPLE.
1 Introduction
La régression multiple a pour but d’expliquer les variations d’une variable dépendante Y
et p variables explicatives X1 , X2 , ..., Xp (p > 1). Ensuite, si cette relation est confirmée
évaluer son intensité.
L’utilisation de plusieurs variables indépendantes, permet d’améliorer le pourcentage de

variation expliquée, c’est à dire augmenter le coefficient de détermination R2, qui reflète la
qualité de l’ajustement. Ce qui implique une réduction de la variance résiduelle, , ce qui a
pour effet d’augmenter la précision des estimations et la puissance des tests.
2 Identification du modèle.
Le modèle théorique en régression linéaire multiple s’écrit :
Yi  0  1X1i  2X2i  3X3i  ...  pXpi  i
Le paramètre i est appelé coefficient de régression partiel, il mesure la variation de Y

lorsque Xi augmente d’une unité et que les autres variables explicatives sont maintenues
constantes.
i représente l'erreur aléatoire, elle est non observable et comprend à la fois les erreurs de
mesure sur les valeurs observées de Y et tous les autres facteurs explicatifs non pris en compte
dans le modèle.
L’analyse de régression repose sur les mêmes postulats présentés dans la régression simple
auxquels il faut ajouter qu’il n’y a pas de colinéarité parfaite entre les variables explicatives,
c’est à dire leurs coefficients de corrélation linéaire doivent être nuls ou proches de zéro.
3 Ajustement du modèle.
De la même manière que la régression simple, la méthode des moindres carrés consiste à
minimiser la somme des carrés des différences entre les valeurs observées, yi, et les valeurs
estimées par le modèle, ̂ différence appelée résidu.
Le modèle empirique, estimé à partir des observations, sera désigné de cette façon :
19
b0 , b1 … et bp sont des estimations des paramètres 0 , 1 … et p du modèle théorique.
On définit le i-ème résidu ei par :
La méthode des moindres carrées minimise la somme des carrés des résidus, somme désignée
par f( b0 , b1,..., bp ), une fonction de ( p + 1 ) inconnues :
En annulant simultanément les dérivées partielles par rapport à b0, b1, ... , bp, on obtient un
système de ( p + 1 ) équations linéaires homogène semblable à celui montré dans le cas de la
régression linéaire simple et qu’on peut écrire sous forme matricielle comme suit :
X Xb  X Y
La solution générale de ce système est donnée par :
1
b  X X  X Y
Dans le cas de la régression multiple, les calculs deviennent très complexes, et pratiquement
impossibles à faire sans l’aide de l’ordinateur. Il existe un nombre important de logiciels
informatiques qui traitent le problème de la régression. Les logiciels fournissent en plus des
estimations des coefficients du modèle, toutes les statistiques et tests nécessaires pour juger
de la validité du modèle.
4 Qualité de l’ajustement.
4.1. Coefficient de corrélation.
Dans le cas de la régression multiple, on distingue deux types de coefficients de corrélation :
- Coefficient de corrélation simple calculé pour chaque paire de variables appartenant

au modèle. Les différents coefficients de corrélation simple sont regroupés dans une
matrice appelée matrice de corrélation. Les coefficients de corrélation portés sur la
diagonale, mesurent la corrélation de chaque variable avec elle-même, ils sont donc
égaux à 1. La matrice de corrélation est symétrique.
- Coefficient de corrélation multiple, il mesure la corrélation combinée de toutes les

variables du modèle.
Les valeurs des coefficients de corrélation s’interprètent de la même manière que pour la
régression simple.
4.2. Coefficient de détermination multiple.
20
De la même manière que pour la régression simple, le coefficient de détermination indique
le pourcentage de la variation totale de Y autour de sa moyenne qui est expliquée par la
régression.
La variation totale observée sur la variable expliquée Y peut être décomposée en 2
parties :
Le premier terme désigné par SCR mesure la variation autour du modèle de

régression, on l’appelle Somme des Carrés due à la Régression. L’autre terme,
désigné par SCE, mesure la variation résiduelle, on l’appelle la somme des carrés due à
l’erreur.
La somme des carrées totale s’écrit : SCT = SCR + SCE
Le coefficient de détermination multiple R2 est définit par :
On pourrait montrer par ailleurs que R2 est égal au carré du coefficient de corrélation multiple.
Le coefficient de détermination multiple ne peut être inférieur au plus élevé des coefficients
de détermination simple entre Y et chacune des variables explicatives. Si les variables
explicatives sont parfaitement indépendantes entre elles, le coefficient de détermination
multiple sera égal à la somme des coefficients de détermination simple entre Y et chacune des
variables explicatives.
Le coefficient de détermination multiple tend à augmenter avec le nombre de variables

explicatives. Pour pallier à cet inconvénient, on calcule un coefficient de détermination ajusté qui
tient compte du nombre de variables explicatives (p) et de la taille de l’échantillon (n).
Le coefficient de détermination ajusté se calcule en terme de variances, il est défini par :
Le R² ajusté est inférieur au R². Ce dernier est un estimateur biaisé, tandis que le premier est
non biaisé.
Le R² ajusté est préférable à R² si la taille de l’échantillon est faible. Quand n sera supérieur
à 30, il n’y aura habituellement pas beaucoup de différence entre les 2 indices.
Le R² ajusté est plus approprié pour comparer des modèles de régression d’une
variable expliquée Y en fonction de différents sous-groupes de variables explicatives.
21
4.3. Analyse de la variance.
L’analyse de la variance a pour but d’évaluer la qualité de l’ajustement. Il s’agit d’effectuer

un test global sur l’ensemble des coefficients des variables explicatives.
Ho : ß1 = ß2 = ... = ßp = 0
H1 : au moins un des coefficients ßi est différent de zéro
De la même manière que pour la régression simple, ce test calcule le rapport de la variance
expliquée par le modèle à la variance résiduelle. Cette statistique obéit à une à une loi de
Fisher à p et (n–p-1) degrés de liberté. On compare la valeur calculée de F à sa valeur critique
lue dans la table de Fisher à un seuil (1-). Une valeur élevée de F indique que le modèle de
régression est globalement significatif, ce qui conduit au rejet de H0 ; donc, au moins un des
coefficients ßi est différent de zéro.
Tableau d’analyse de la variance en régression linéaire multiple.
4.4. Test d’hypothèses sur un coefficient particulier ßj.
Le test sur un coefficient a pour but de tester si la contribution marginale de la variable X j

pour expliquer les variations de Y est significative ou non, compte tenu que les ( p - 1 )
autres variables explicatives font déjà partie du modèle.
Ho : ßj = 0
H1 : ßj ≠ 0
Ce test est basé sur les statistiques dites ratio de student. Les ratios sont obtenus en faisant le
rapport entre le coefficient estimé et son écart type. Le ratio de student est :
Sous l’hypothèse nulle, cette statistique obéit à une loi de Student à ( n - p - 1 ) degrés de
liberté. On compare la valeur calculée de t à sa valeur critique lue dans la table de Student à
un seuil (1- Une valeur élevée de t indique que le coefficient ßj est significatif, ce qui
22
conduit au rejet de H0.
4.5. Indice de la qualité prévisionnelle d’un modèle.
Le coefficient de détermination et le coefficient de détermination ajusté sont 2 indices de la

qualité de l’ajustement et non de la qualité prévisionnelle. En effet les éléments entrant dans
le calcul du résidu habituel sont dépendants puisque la valeur calculée Ŷi dépend de la valeur
observée Yi.
L’indice servant à mesurer le pouvoir prédictif d’un modèle est la somme des carrés des
résidus de prédictions désigné par l’indice PRESS (Predicted Residual Sum of Squares). Le
principe est de calculer des prévisions pour de Yi à partir du modèle de régression
calculé avec toutes les observations sauf la ième (n-1 observations). Cette prévision sera
désignée par ̂(i). Le résidu obtenu est appelé résidu supprimé e(i).
e(i) = Yi - ̂(i)
Les 2 éléments Yi et ̂(i) servant à calculer les résidus supprimés sont indépendants.
L’indice PRESS est défini par :
PRESS = ∑(Ŷ i Y(i))² = ∑e(i) ²
5 Les coefficients standardisés (ou coefficients « bêta »).
Le fait que les coefficients de régression sont exprimés dans des unités de mesure
différentes les unes des autres et la présence d’une multicolinéarité entre variables
explicatives ne permet pas de comparer les coefficients de régression non standardisés entre
eux pour déterminer l’importance relative des variables explicatives. Pour pallier à ce
problème, on utilise les coefficients standardisés qui, comme leur nom l’indique, sont les
coefficients de régression que l’on obtient quand toutes les variables sont centrées réduites,
c’est-à-dire standardisées et donc sans unité de mesure.
Comme les coefficients standardisés sont des nombres purs ou sans unité de mesure, on
pourrait être tenté de les comparer entre eux afin de déterminer quelles sont les variables
explicatives les plus importantes. Il faut signaler que ces comparaisons sont très hasardeuses
quand les variables explicatives sont fortement corrélées entre elles d’une part, c’est le
problème de multicolinéarité, et d’autre part parce que les unités de mesure, elles-mêmes
arbitraires, ont une incidence directe sur les valeurs des coefficients standardisés.
6 Coefficient de détermination partielle.
Ce coefficient mesure l’effet marginal produit par l’introduction d’une nouvelle variable
explicative sur la somme des carrés résiduelle, il exprime le pourcentage de réduction de la
23
variation inexpliquée de la variable dépendante due à l’ajout d’une nouvelle variable
explicative. Ce coefficient est utilisé dans les méthodes de choix des variables explicatives
pour déterminer l’ordre d’entrée des variables.
7 Choix des variables explicatives.
Avant l’identification et l’ajustement du modèle de régression, une décision doit tout d’abord
être prise quant au nombre de variables explicatives qui interviennent dans l’équation de
régression et de choisir ces variables. Les variables explicatives doivent être choisies de façon
à assurer une précision maximum du modèle de régression, c’est à dire une variance résiduelle
minimum. Pour cela on opte pour les variables explicatives fortement corrélées avec la
variable dépendante et faiblement corrélées entre elles.
Une façon de trouver le meilleur modèle de régression est de comparer toutes les équations de
régression possibles. Ce qui est pratiquement impossible lorsque le nombre de variables
explicatives est élevé. En effet pour p variables explicatives, il faut comparer 2p-1 équations
(1023 équations pour 10 variables explicatives). Heureusement, les statisticiens ont
développé des procédés de sélection systématique des variables.
7.1. Sélection progressive.
Appelée aussi sélection ascendante, La première variable explicative à entrer dans le modèle
est celle qui est la plus fortement corrélée avec la variable dépendante. Ensuite, on introduit
une deuxième variable à condition qu’elle soit significative et choisie de façon à maximiser la
corrélation partielle entre Y et cette nouvelle variable. Et il en est ainsi jusqu’à l’inclusion de
toutes les variables explicatives marginalement significatives dans un dernier modèle.
7.2. Sélection régressive.
Appelée aussi élimination descendante, Au début, toutes les variables explicatives font partie
du modèle, et celui-ci est significatif. On retire une première variable non significative, celle
qui contribue le moins à l’explication de la variation de la variable dépendante, compte tenu
que les p-1 autres sont encore dans le modèle. A l’étape suivante, on retire une deuxième
variable marginalement non significative, puis une troisième de même nature,..., jusqu’à
l’obtention d’un modèle ne comprenant que des variables explicatives significatives.
7.3. Sélection pas à pas (in and out stepwise regression).

La première variable explicative à entrer dans le modèle est d’abord significative et elle est en
même temps celle qui est la plus fortement corrélée avec la variable dépendante. Ensuite, la
méthode procède par introductions successives de variables, mais avant toute introduction, on
teste la signification des variables explicatives déjà présentes. Ainsi si l’introduction d’une
nouvelle variable explicative rend non significatif le coefficient de régression partiel d’une
variable déjà présente, celle-ci est éliminée et la procédure cherche une nouvelle variable à
faire entrer...etc. A chaque étape donc, une variable entre dans le modèle si sa contribution
marginale est significative et une variable déjà incluse peut ressortir du modèle si sa
contribution marginale devient négligeable. Et il en est ainsi jusqu’à ce que tout ajout d’une
24
variable serait non significatif et tout retrait serait significatif.
Pour éviter le va-et-vient continuel d’une variable explicative dans et hors du modèle, on doit
choisir les niveaux de probabilité de façon que le seuil de signification pour l’élimination soit
supérieur au seuil de signification à l’Entrée.
8 Test de signification d’un sous-ensemble de variables explicatives.

Dans un modèle de régression à p variables explicatives, on peut tester la contribution
simultanée d’un sous ensemble de (p-k) variables explicatives.
Le modèle complet à p variables explicatives est :
H0 : : k1  k2  ...  p  0

H1 : ces (p - k) coefficients  ne sont pas tous nuls.
Le modèle réduit correspondant à H0 est :
Y0 1X12X2 ...kXk  .
Désignons comme suit les éléments nécessaires pour effectuer le test en question :
SCRp : la somme des carrés expliquée par la régression à p variables explicatives

MCE : la variance résiduelle dans le modèle complet avec (n-p-1) degrés de liberté
SCRk : la somme des carrés expliquée par la régression à k variables explicatives
Le test se fait en calculant le ratio :
Cette statistique obéit à une à une loi de Fisher avec (p-k) et (n-p-1) degrés de liberté. On
compare la valeur calculée de F à sa valeur critique lue dans la table de Fisher à un seuil (1-
élevée de F conduit au rejet de H0.
9 Application numérique.
Une étude a été effectuée durant un mois auprès d’un échantillon de 25 entreprises
informatique tous des revendeurs. Les variables mesurées sont :
Y = chif_aff : Chiffre d'affaires en dirhams réalisés pendant un mois.
X1 = dem_info : Nombre de demandes d'informations sur les prix par visite ou par
25
téléphone durant un mois
X2 = age : Nombre d'années d'existence de l'entreprise.
X3 = fac_pmt : Possibilité d'avoir une facilité de paiement, 1 si oui et 0 si non.
X4 = nb_comm : Nombre de commerciaux dans l'entreprise (une secrétaire qui fait
aussi le commercial compte pour 0,5).
X5 = chg_fix : Charges fixes hors salaires d'un mois.
Les données utilisées sont les suivantes :
N° Chif_aff Dem_inf age Fac_pm Nb_com Chg_fi

entreprise o t m x
1 300000 1000 9 0 2,5 9200
2 297000 1150 1 0 2 11000
3 288000 1130 3 0 2 11700
4 286000 1100 6 0 1,5 13700
5 294400 740 6 1 1,5 9800
6 296000 840 8 1 1,5 6700
7 305600 830 8 1 2 10200
8 311600 1180 10 1 1,5 14100
9 292000 1000 8 0 2 10000
10 288000 1100 1 0 2 10100
11 290000 1070 5 0 2 11600
12 292000 990 4 0 2 8800
13 274000 780 6 0 2 9400
14 295600 1090 2 0 2 9900
15 303600 920 4 1 1,5 10100
16 326000 1090 1 1 2 11500
17 328000 1200 3 1 3 14600
18 312400 810 9 0 1,5 6950
19 302800 960 5 1 2 10100
20 301200 890 2 1 2 6800
21 340000 1400 3 1 3 12100
22 276800 790 6 1 1,5 7100
23 313600 980 6 1 2,5 12100
24 330400 1240 7 1 3 12200
25 300000 880 6 0 2 8900
A partir de ces données, on cherche à expliquer le chiffre d’affaires par les cinq autres
variables.Pour cela on utilise la méthode de régression multiple.
Les calculs et résultats de la régression multiple ont été effectués à l’aide du logiciel SPSS
qui nous a fourni les résultats ci-dessous.
26
Coefficients de corrélation :
Corrélations
CHIF_A DEM_IN AGE FAC_PM NB_CO CHG_FI

FF FO T MM X
CHIF_AFF Corrélation 1,000 ,554** -,052 ,532** ,620** ,414*
de Pearson
Sig. (bilatérale) , ,004 ,804 ,006 ,001 ,040
N 25 25 25 25 25 25
DEM_INFO Corrélation ,554** 1,000 -,356 -,011 ,614** ,726**
de Pearson
Sig. (bilatérale) ,004 , ,081 ,957 ,001 ,000
N 25 25 25 25 25 25
AGE Corrélation de -,052 -,356 1,000 ,058 -,218 -,117
Pearson
Sig. (bilatérale) ,804 ,081 , ,782 ,294 ,578
N 25 25 25 25 25 25
FAC_PMT Corrélation ,532** -,011 ,058 1,000 ,129 ,109
de Pearson
Sig. (bilatérale) ,006 ,957 ,782 , ,538 ,604
N 25 25 25 25 25 25
NB_COMM Corrélation ,620** ,614** -,218 ,129 1,000 ,416*
de Pearson
Sig. (bilatérale) ,001 ,001 ,294 ,538 , ,039
N 25 25 25 25 25 25
CHG_FIX Corrélation ,414* ,726** -,117 ,109 ,416* 1,000
de Pearson
Sig. (bilatérale) ,040 ,000 ,578 ,604 ,039 ,
N 25 25 25 25 25 25
**. La corrélation est significative au niveau 0.01 (bilatéral).
*. La corrélation est significative au niveau 0.05 (bilatéral).
D’après la sortie informatique de SPSS, la variable dépendante chiffre d’affaires est corrélée
significativement au seuil de 1 % avec les variables explicatives nombre de commerciaux
(0,620), demandes d’informations sur les prix (0,554) et la possibilité d’avoir une facilité de
paiement (0,532). Entre variables explicatives, on note quelques auto corrélations hautement
significatives telle que la corrélation entre demandes d’information sur les prix et charges
fixes hors salaires (0,726) et la corrélation entre demandes d’information sur les prix et
nombre de commerciaux (0,614).
9.1. Méthode entrée : Modèle avec toutes les variables explicatives.
 Coefficient de détermination R-deux :

27
Erreur
standard
Modèl R R-deux R-deux de
e ajusté
l'estimati
on
1 ,831 ,691 ,610 10229,2
a 4
a. Valeurs prédites : (constantes),
CHG_FIX, FAC_PMT, AGE,
NB_COMM, DEM_INFO
Le R-deux calculé par SPSS est de 0,691. Les cinq variables explicatives expliquent donc
69,1 % de la variation du chiffre d’affaires. Le coefficient de détermination multiple tend à
augmenter avec le nombre de variables explicatives. Pour pallier à cet inconvénient, on
calcule un coefficient de détermination ajusté qui tient compte du nombre de variables
explicatives (p) et de la taille de l’échantillon (n). Le R² ajusté est donc plus approprié pour
comparer des modèles de régression d’une variable expliquée Y en fonction de différents
sous-groupes de variables explicatives. Le R- deux ajusté calculé par SPSS est de 0,691. Les
cinq variables explicatives expliquent donc 69,1 % de la variation du chiffre d’affaires. On
voit bien que le R-deux est supérieur au R-deux ajusté.
 Analyse de la variance :
ANOVAb
Somme
Modèle des carrés dd Carré F Significati
l moyen on
1 Régressio 4,444E+0 5 888778346 8,494 ,000
a
n 9
Résidu 1,988E+0 19 104637277
9
Total 6,432E+0 24
9
a. Valeurs prédites : (constantes), CHG_FIX, FAC_PMT, AGE, NB_COMM,
DEM_INFO
b. Variable dépendante : CHIF_AFF
Ho : ß1 = ß2 = ß3 = ß4 = ß5 = 0
H1 : au moins un des coefficients ßi est différent de zéro
La statistique F = 8,494 dépasse largement la valeur critique 2,96 lue dans la table de la loi de
Fisher à 5 et 19 degrés de liberté, pour un seuil de signification de 5%. En comparant la
signification associée (0,000) au seuil de signification, on atteint la même conclusion, à
28
savoir qu’au moins une des cinq variables explicatives explique significativement le chiffre
d’affaires.
 Ajustement du modèle :
Coefficientsa
Coefficients
standardi
Coefficients non sés Intervalle de
standardisés confiance à 95%
de B
Erreur Borne Borne
Modèle B standar Bêta t Signification inférieure supérieur
d e
1 (constante) 224678,4 15988,434 14,053 ,000 191214,20 258142,548
DEM_INFO 49,674 23,114 ,501 2,149 ,045 1,296 98,052
AGE 947,151 852,747 ,155 1,111 ,281 -837,668 2731,970
FAC_PMT 16025,913 4230,138 ,499 3,789 ,001 7172,132 24879,694
NB_COMM 11711,778 5767,309 ,334 2,031 ,057 -359,337 23782,894
CHG_FIX -,942 1,456 -,125 -,647 ,525 -3,991 2,106
a. Variable dépendante : CHIF_AFF
Les estimations ponctuelles et par intervalle de confiance sont fournis par SPSS. Le modèle
de régression multiple estimé par les moindres carrés se retrouve dans le tableau identifié
par le terme « coefficients », dans la deuxième colonne intitulée « Coefficients non
standardisés » et se lit comme suit :
Ŷ 22467849,67X1947,15X2 16025,91X3 11711,78X4 0.94X5
 Tests de signification des variables explicatives :
Afin de vérifier si chacune des cinq variables explicatives explique significativement le

chiffre d’affaires, à un seuil α donné, il faut tester les hypothèses :
H0 : βi = 0
H1 : βi ≠ 0
L’essentiel du test se trouve aussi sur la sortie informatique. Pour la variable demande
d’informations sur les prix, la valeur de la statistique [t = 49,674/23,114 = 2,149], la
probabilité associée qui apparaît aussi dans la sortie informatique, [Signification = 0,045] est
inférieure au seuil de signification α utilisé (0,05 ici), il faut rejeter l’hypothèse nulle. Les
demandes d’informations sur les prix expliquent donc significativement le chiffre d’affaires.
En même temps, la variable facilitée de paiement dont la probabilité de signification est de
0,001, expliquent donc significativement le chiffre d’affaires. La contribution des trois
autres variables dans le modèle n’est pas significative.
29
 Les coefficients standardisés (ou coefficients « bêta »)
Le modèle original s’exprimait comme suit :
Ŷ 22467849,67X1947,15X2 16025,91X3 11711,78X4 0.94X5
L’imprimé informatique contient aussi les coefficients standardisés qui permettent d’écrire
le modèle sous cette autre forme dans laquelle toutes les variables ont été ramenées à une
moyenne nulle et à une variance unitaire :
ŷ  0,501x 1  0,155x 2  0,499x 3  0,334x 4  0,125x 5
La fausse impression que X2 jouait un rôle beaucoup plus important que X1 dans le modèle
original(b2=947,15 et b1 = 49,67 s’est modifiée à la lecture des
coefficients standardisés = 0,155 versus = 0,501).
9.2. Sélection progressive des variables explicatives.
Les données sur le chiffre d’affaires et les 5 variables explicatives déjà analysées sont
soumises cette fois à la procédure ascendante de SPSS, seulement 3 variables explicatives ont
été retenues dans le modèle final (dans l’ordre : nombre de commerciaux, facilité de
paiement et demandes d’informations sur les prix). Les principaux résultats de cette analyse se
présentent comme suit :
 Variables sélectionnées :
Variables introduites/éliminée Sa
Variables Variables éliminées

Modèle introduites Méthode
1 Ascendante (critère :
NB_COMM , Probabilité de F pour
introduire <= ,050)
FAC_PMT , Probabilité de F pour
introduire <= ,050)
DEM_INFO , Probabilité de F pour
introduire <= ,050)
La première variable explicative à entrer dans le modèle est celle qui est la plus fortement
30
corrélée avec la variable dépendante chiffre d’affaires, il s’agit de variable nombre de
commerciaux (corrélation = 0,620). Ensuite, on introduit une deuxième variable à condition
qu’elle soit significative et choisie de façon à maximiser la corrélation partielle entre Y et
cette nouvelle variable, il s’agit de la variable facilitée de paiement (voir tableau variables
exclues plus bas : signification = 0,003 et corrélation partielle = 0,581). Ensuite, on introduit
une troisième variable qui est nombre de demandes d’informations sur les prix (signification
= 0,04 et corrélation partielle = 0,43). La sélection s’arrête puisque les variables explicatives
restantes ne sont pas significatives.
 Qualité d’ajustement :
Modèl R R-deux R-deux Erreur standard de

e ajusté l'estimation
1 ,620a ,385 ,358 13115,20
2 ,770b ,593 ,555 10914,67
3 ,817c ,668 ,621 10084,19
a. Valeurs prédites : (constantes), NB_COMM
b. Valeurs prédites : (constantes), NB_COMM, FAC_PMT
c. Valeurs prédites : (constantes), B_COMM, FAC_PMT, DEM_INFO
Le premier modèle à une seule variable explicative, nombre de commerciaux, explique 35,8 %
de la variation du chiffre d’affaires. En introduisant la deuxième variable, facilité de
paiement, la part expliquée a augmenté à 55,5 %. Le modèle final à trois variables explicatives
(dans l’ordre : nombre de commerciaux, facilité de paiement et demandes d’informations sur
les prix) explique 62,1 %.
ANOVAd
Somme des
Modèle carrés ddl Carré moyen F Significatio
n
1 Régression 2,476E+09 1 2475803435 14,393 ,001a
Résidu 3,956E+09 23 172008546
Total 6,432E+09 24
2 Régression 3,811E+09 2 1905569356 15,996 ,000b
Résidu 2,621E+09 22 119130059
Total 6,432E+09 24
3 Régression 4,296E+09 3 1432163755 14,084 ,000c
Résidu 2,136E+09 21 101690892
Total 6,432E+09 24
31
c. Valeurs prédites : (constantes), NB_COMM, FAC_PMT, DEM_INFO
d. Variable dépendante : CHIF_AFF
Les trois modèles sont significatifs, ce qui est normale puisqu’on n’introduit que les
variables significatives. Mais le modèle final à trois variables explicatives est le plus significatif
(signification = 0,000).
 Identification des modèles :
Coefficientsa
Coefficients non Coeffi Intervalle de

standardisés cien ts confiance à 95%
standa de B
rdisés
Erreur Borne Borne
B standard Bêta inférieur supérieure
Modèle t Signific e
ation
1 (constante) 257892,0 11866,920 21,732 ,000 233343,39 282440,579
NB_COMM 21736,641 5729,403 ,620 3,794 ,001 9884,468 33588,814
2 (constante) 254429,1 9929,849 25,623 ,000 233835,81 275022,297
NB_COMM 19653,250 4808,532 ,561 4,087 ,000 9680,966 29625,535
FAC_PMT 14752,659 4406,419 ,460 3,348 ,003 5614,305 23891,014
3 (constante) 234468,8 12947,711 18,109 ,000 207542,52 261394,996
NB_COMM 11978,091 5663,886 ,342 2,115 ,047 199,395 23756,787
FAC_PMT 15791,874 4098,837 ,492 3,853 ,001 7267,875 24315,872
DEM_INFO 34,702 15,884 ,350 2,185 ,040 1,669 67,734
Les trois modèles s’écrivent comme suit :
- Modèle à une seule variable explicative :

Ŷ = 257892 + 21736,641 NB_COMM
- Modèle à deux variables explicatives :

Ŷ = 254429,1 + 9653,25 NB_COMM + 4752,659 FAC_PMT
- Modèle à trois variables explicatives :

Ŷ = 234468,8 + 11978,091 NB_COMM + 15791,874 FAC_PMT + 34,702 DEM_INFO
Pour les trois modèles, les tests de Student sur les coefficients sont tous significatifs.
32
Variables excluesd
Statistiqu es
Corrélation de
partielle colinéarité
Modèle Bêta T Significati Tolérance
dans on
1 DEM_INFO ,279a 1,371 ,184,280 ,624
AGE ,087a ,513 ,613,109 ,952
FAC_PMT ,460a 3,348 ,003,581 ,983
CHG_FIX ,189a 1,053 ,304,219 ,827
2 DEM_INFO ,350b 2,185 ,040,430 ,615
AGE ,046b ,321 ,751,070 ,945
CHG_FIX ,159b 1,062 ,300,226 ,824
3 AGE ,136c 1,010 ,325,220 ,870
CHG_FIX -,079c -,416 ,682
-,093 ,455
a. Valeurs prédites dans le modèle : (constantes), NB_COMM
b. Valeurs prédites dans le modèle : (constantes), NB_COMM, FAC_PMT
c. Valeurs prédites dans le modèle : (constantes), NB_COMM, FAC_PMT,
DEM_INFO
9.3. Sélection régressive des variables explicatives.
Les mêmes données sur le chiffre d’affaires et les 5 variables explicatives sont soumises
cette fois à la procédure descendante de SPSS, seulement 3 variables explicatives ont été
retenues dans le modèle final. Les principaux résultats de cette analyse se présentent comme
suit :
Variables introduites/éliminée Sb
Variables Variables
Modèle introduites éliminées Méthode
1
CHG_FIX,
FAC_PMT,
AGE, , Introduire
NB_COMMa,
DEM_INFO
2 Elimination descendante (critère:
, CHG_FIX Probabilité de F pour éliminer >= ,100).
33
3 Elimination descendante (critère:
, AGE
Probabilité de F pour éliminer >= ,100).
a. Toutes variables requises introduites
b. Variable dépendante : CHIF_AFF
Le premier modèle contient les cinq variables explicatives. Le test de Student sur les
coefficients indique que la variable charges fixes hors salaires est la moins significative
(tableau des coefficients ou tableau des variables exclues plus bas : signification= 0,525). On
exclut donc cette variable du modèle.
Le deuxième modèle contient donc les quatre variables explicatives restantes. Pour ce
modèle, le test de Student sur les coefficients indique que la variable age n’est pas
significative (tableau des coefficients ou tableau des variables exclues plus bas :
signification= 0,325). On exclut donc cette variable du modèle.
Le troisième modèle contient donc les trois variables explicatives restantes. Pour ce modèle, le
test de Student sur les coefficients indique que les trois variables explicatives sont toutes
significatives (tableau des coefficients ou tableau des variables exclues plus bas :
signification < 0,325). Il s’agit donc du modèle final qui exprime le chiffre d’affaires en
fonction du nombre de commerciaux, de la facilité de paiement et du nombre de demandes
d’informations sur les prix.
Erreur
standard
Modèl R R-deux R-deux de
e ajusté
l'estimati
on
1 ,831a ,691 ,610 10229,24
2 ,827b ,684 ,621 10079,46
3 ,817c ,668 ,621 10084,19
DEM_INFO
b. Valeurs prédites : (constantes), FAC_PMT, AGE, NB_COMM, DEM_INFO
c. Valeurs prédites : (constantes), FAC_PMT, NB_COMM, DEM_INFO
Le premier modèle à 5 variables explicatives, explique 61 % de la variation du chiffre

d’affaires. En éliminant la variable charges fixes hors salaires, la part expliquée a augmenté à
62,1 %. Le modèle final à trois variables explicatives (nombre de commerciaux, facilité de
paiement et demandes d’informations sur les prix) explique 62,1 %.
34
ANOVAd
Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 4,444E+09 5 888778346 8,494 ,000a
Résidu 1,988E+09 19 104637277
Total 6,432E+09 24
2 Régression 4,400E+09 4 1100022286 10,827 ,000b
Résidu 2,032E+09 20 101595543
Total 6,432E+09 24
3 Régression 4,296E+09 3 1432163755 14,084 ,000c
Résidu 2,136E+09 21 101690892
Total 6,432E+09 24
DEM_INFO
b. Valeurs prédites : (constantes), FAC_PMT, AGE, NB_COMM, DEM_INFO
c. Valeurs prédites : (constantes), FAC_PMT, NB_COMM, DEM_INFO
Les trois modèles sont significatifs, ce qui est normale puisqu’on exclut toutes les variables
non significatives.
 Ajustement des modèles :
Coefficientsa
C.
standa
Coefficients non rdisés Intervalle de
standardisés confiance à 95%
de B
Erreur Borne Borne
Modèle B standard Bêta t Signific inférieure supérieur
ation e
1 (constante) 224678,4 15988,434 14,053 ,000 191214,20 258142,548
DEM_INFO 49,674 23,114 ,501 2,149 ,045 1,296 98,052
AGE 947,151 852,747 ,155 1,111 ,281 -837,668 2731,970
FAC_PMT 16025,913 4230,138 ,499 3,789 ,001 7172,132 24879,694
NB_COMM 11711,778 5767,309 ,334 2,031 ,057 -359,337 23782,894
CHG_FIX -,942 1,456 -,125 -,647 ,525 -3,991 2,106
2 (constante) 225481,0 15706,843 14,356 ,000 192717,07 258244,877
DEM_INFO 39,395 16,543 ,398 2,381 ,027 4,887 73,904
AGE 828,724 820,676 ,136 1,010 ,325 -883,176 2540,623
FAC_PMT 15547,588 4104,051 ,484 3,788 ,001 6986,688 24108,489
NB_COMM 12034,960 5661,510 ,344 2,126 ,046 225,257 23844,664
35
3 (constante) 234468,8 12947,711 18,109 ,000 207542,52 261394,996
DEM_INFO 34,702 15,884 ,350 2,185 ,040 1,669 67,734
FAC_PMT 15791,874 4098,837 ,492 3,853 ,001 7267,875 24315,872
NB_COMM 11978,091 5663,886 ,342 2,115 ,047 199,395 23756,787
- Modèle à une cinq variables explicatives :

Ŷ = 224678,4 + 49,674DEM_INFO + 947,151AGE + 16025,913FAC_PMT +
11711,778NB_COMM – 0,942 CHG_FIX
- Modèle à quatre variables explicatives :

Ŷ = 225481 + 39,395DEM_INFO + 828,724AGE + 15547,588FAC_PMT +
12034,96NB_COMM

Ŷ = 234468,8 + 34,702 DEM_INFO + 15791,874 FAC_PMT + 11978,091 NB_COMM
Variables excluesc
Statistiqu es
Corrélati de
Modèle Bêta t Significati on colinéarité
dans on partielle Tolérance
2 CHG_FIX -,125a -,647 ,525 -,147 ,434
3 CHG_FIX -,079b -,416 ,682 -,093 ,455
AGE ,136b 1,010 ,325 ,220 ,870
a. Valeurs prédites dans le modèle : (constantes), FAC_PMT, AGE, NB_COMM,
DEM_INFO
b. Valeurs prédites dans le modèle : (constantes), FAC_PMT, NB_COMM,
DEM_INFO
c. Variable dépendante : CHIF_AFF
9.4. Sélection pas à pas des variables explicatives.

Les données sur le chiffre d’affaires Y les 5 variables explicatives sont soumises cette fois à
la procédure pas à pas de SPSS avec les valeurs prises par défaut, soit Signification à
l’entrée inférieure à 0,05 et Signification pour l’élimination supérieure à 0,10 ; , seulement 3
variables explicatives ont été retenues dans le modèle final (dans l’ordre : nombre de
commerciaux, facilité de paiement et demandes d’informations sur les prix). Les principaux
résultats de cette analyse se présentent comme suit :
Variables introduites/éliminéesa
36
Variables Variables
Modèle introduites éliminées Méthode
1 Pas à pas (critère: Probabilité de F pour
NB_COMM ,
introduire <= ,050, Probabilité de F pour éliminer
2 >= ,100).
FAC_PMT , Pas à pas (critère: Probabilité de F pour
3
DEM_INFO , >= ,100).
Pas à pas (critère: Probabilité de F pour
>= ,100).
Les variables Nombre de commerciaux, Facilité de paiement et nombre de demandes

d’informations sur les prix, une fois incluses, sont demeurées significatives tout au long de la
démarche, ce qui a empêché leur exclusion, tandis qu’après la troisième étape les 2 grandes
valeurs 0,325 et 0,682 dans la colonne signification du tableau VARIABLES EXCLUES ne
permettent pas l’ajout d’une quatrième variable explicative.
Modèle R R-deux R-deux ajusté Erreur standard de

l'estimation
1 ,620a ,385 ,358 13115,20
2 ,770b ,593 ,555 10914,67
3 ,817c ,668 ,621 10084,19
c. Valeurs prédites : (constantes), B_COMM, FAC_PMT, DEM_INFO
Le premier modèle à une seule variable explicative, nombre de commerciaux, explique 35,8 %
de la variation du chiffre d’affaires. En introduisant la deuxième variable, facilité de
paiement, la part expliquée a augmenté à 55,5 %. Le modèle final à trois variables explicatives
(dans l’ordre : nombre de commerciaux, facilité de paiement et demandes d’informations sur
les prix) explique 62,1 %.
ANOVAd
Somme des
37
Modèle carrés ddl Carré moyen F
Significatio
n
1 Régression 2,476E+09 1 2475803435 14,393 ,001a
Résidu 3,956E+09 23 172008546
Total 6,432E+09 24
2 Régression 3,811E+09 2 1905569356 15,996 ,000b
Résidu 2,621E+09 22 119130059
Total 6,432E+09 24
3 Régression 4,296E+09 3 1432163755 14,084 ,000c
Résidu 2,136E+09 21 101690892
Total 6,432E+09 24
c. Valeurs prédites : (constantes), NB_COMM, FAC_PMT, DEM_INFO
Les trois modèles sont significatifs, ce qui est normale puisqu’on n’introduit que les
variables significatives. Mais le modèle final à trois variables explicatives est le plus significatif
(signification = 0,000).
 Identification des modèles :

Coefficientsa
Coefficients non C. Intervalle de confiance
standardisés standard à 95% de B
isés
Erreur Borne Borne
Modèle B standard Bêta t Significati inférieure supérieure
on
1 (constante) 257892,0 11866,920 21,732 ,000 233343,39 282440,579
NB_COMM 21736,641 5729,403 ,620 3,794 ,001 9884,468 33588,814
2 (constante) 254429,1 9929,849 25,623 ,000 233835,81 275022,297
NB_COMM 19653,250 4808,532 ,561 4,087 ,000 9680,966 29625,535
FAC_PMT 14752,659 4406,419 ,460 3,348 ,003 5614,305 23891,014
3 (constante) 234468,8 12947,711 18,109 ,000 207542,52 261394,996
NB_COMM 11978,091 5663,886 ,342 2,115 ,047 199,395 23756,787
FAC_PMT 15791,874 4098,837 ,492 3,853 ,001 7267,875 24315,872
DEM_INFO 34,702 15,884 ,350 2,185 ,040 1,669 67,734
- Modèle à une seule variable explicative :

Ŷ = 257892 + 21736,641 NB_COMM
38
- Modèle à deux variables explicatives :
Ŷ = 254429,1 + 9653,25 NB_COMM + 4752,659 FAC_PMT

Ŷ = 234468,8 + 11978,091 NB_COMM + 15791,874 FAC_PMT + 34,702 DEM_INFO
Pour les trois modèles, les tests de Student sur les coefficients sont tous significatifs.
Variables excluesd
Statistiqu es
Corrélation de
Modèle Bêta T Significati partielle colinéarité
on Tolérance
1 DEM_INFO ,279a 1,371 ,184 ,280 ,624
AGE ,087a ,513 ,613 ,109 ,952
FAC_PMT ,460a 3,348 ,003 ,581 ,983
CHG_FIX ,189a 1,053 ,304 ,219 ,827
2 DEM_INFO ,350b 2,185 ,040 ,430 ,615
AGE ,046b ,321 ,751 ,070 ,945
CHG_FIX ,159b 1,062 ,300 ,226 ,824
3 AGE ,136c 1,010 ,325 ,220 ,870
CHG_FIX -,079c -,416 ,682 -,093 ,455
a. Valeurs prédites dans le modèle : (constantes), NB_COMM
b. Valeurs prédites dans le modèle : (constantes), NB_COMM, FAC_PMT
c. Valeurs prédites dans le modèle : (constantes), NB_COMM, FAC_PMT,
DEM_INFO
39
40
41

Polycope Statistique Appliquee

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Polycope Statistique Appliquee

Transféré par

Droits d'auteur :

Formats disponibles

COURS DE STATISTIQUE

1.2. LA REGRESSION SIMPLE

1.2.1. Identification du modèle.

Le modèle théorique en régression linéaire simple s’écrit :

Le paramètre 1 donne la pente de la droite appelée coefficient de régression, il mesure la

L’analyse de régression repose sur un certain nombre de postulats :

- Les erreurs aléatoires  sont non corrélées avec la variable explicative.

- Les erreurs aléatoires  sont non corrélées entre elles.

1.2.2. Ajustement du modèle.

b0 et b1 sont des estimations des paramètres 0 et 1 du modèle théorique. On définit le i-ème

La solution générale est donnée par :

L’estimation de ßo et ß1 par la méthode des moindres carrés conduit aux formules

Sans démonstration mathématique, les variances théoriques de ces estimateurs sont :

On peut montrer que cet estimateur est non biaisé, c’est-à-dire :

1.2.3.1. Coefficient de corrélation de pearson.

Le coefficient de corrélation linéaire, désigné par , a pour objet de mesurer l'intensité de la

Le signe du coefficient de corrélation linéaire indique le sens de la relation entre X et Y.

Le coefficient de corrélation de X et Y peut être estimé à l’aide d’un échantillon aléatoire

L’expression de la statistique du test est :

1.2.3.2. Coefficient de détermination.

Le coefficient de détermination noté R2 est le pourcentage de la variation totale dans la

Le premier terme désigné par SCR mesure la variation autour de la droite de

régression, on l’appelle Somme des Carrés due à la Régression. L’autre terme,

SCT = SCR + SCE

Puisqu’on cherche à expliquer la variation totale de Y autour de sa moyenne, SCT, on peut

1.2.3.3. Analyse de la variance.

L’analyse de la variance a pour but d’évaluer la qualité du R² en testant la signification du

Dans le cas de la régression simple ce test coïncide avec le test de signification du

Le test calcule le rapport de la variance expliquée par le modèle à la variance résiduelle.

1.2.4.1. Intervalle de confiance pour E ( Y | x0 ).

Pour obtenir une prévision ponctuelle de Y pour une valeur particulière x0 de X, il

1.2.4.2. Intervalle de prévision pour une valeur individuelle de Y, quand X= xo

L’intervalle de prévision est donné par :

1.2.5. Application numérique.

Procédure SPSS pour une corrélation linéaire :

A partir du menu, sélectionnez :

Sélectionnez deux variables numériques ou plus.

Repérer les corrélations significatives : les coefficients de corrélation significatifs au niveau

Procédure SPSS pour une régression linéaire :

Dans la boîte de dialogue Régression linéaire :

SPSS fournit en outre le tableau d’analyse de la variance :

Somme des Ddl Carré moyen F Signification

b. Variable dépendante : chiffre d'affaires

bo = 200659 = ordonnée à l'origine

Un mois où on dépense 26000 dh de publicité, on peut espérer un chiffre d’affaires de

- Pour ß0 : 200659  2,228 (8698,923) = [181277,80 ; 220040,20]

8698,923 étant l’erreur standard de l’estimation et 2,228 correspond à la valeur de la table de

Le logiciel SPSS, plus précis qu’une calculatrice, donne un intervalle de confiance

- Pour ß1 : 3,096  2,228 (0,364) = [2,285 ; 3,907]

Afin de vérifier si la variable « frais de publicité » explique significativement le chiffre

L’essentiel du test se trouve aussi sur la sortie informatique. On y retrouve en particulier la

L’utilisation de plusieurs variables indépendantes, permet d’améliorer le pourcentage de

Le modèle théorique en régression linéaire multiple s’écrit :

Yi  0  1X1i  2X2i  3X3i  ...  pXpi  i

Le paramètre i est appelé coefficient de régression partiel, il mesure la variation de Y

La solution générale de ce système est donnée par :

4.1. Coefficient de corrélation.

Dans le cas de la régression multiple, on distingue deux types de coefficients de corrélation :

- Coefficient de corrélation simple calculé pour chaque paire de variables appartenant

- Coefficient de corrélation multiple, il mesure la corrélation combinée de toutes les

4.2. Coefficient de détermination multiple.

Le premier terme désigné par SCR mesure la variation autour du modèle de

La somme des carrées totale s’écrit : SCT = SCR + SCE