Chapitre 1

Analyse des données.
CHAPITRE 1. REGRESSION ET CORRELATION
1.1. INTRODUCTION.
En analyse de régression, on cherche à expliquer une variable métrique Y qui dépend d’une ou de
plusieurs variables explicatives métriques X1, X2,..., Xp. A cette fin, un modèle mathématique peut
représenter convenablement la relation entre Y et les Xi, ce modèle servira aussi pour faire des
prévisions.
Y = f ( X1, X2,..., Xp )
La variable Y s’appelle la variable expliquée, dépendante, endogène, tandis que les X1, X2,..., Xp
sont les variables explicatives, indépendantes, exogènes.
S’appuyant sur des données observées, l’analyse de régression consiste à élaborer un modèle
explicatif , ensuite on passe à l'analyse statistique du modèle qui comporte l'estimation des
paramètres et divers tests d'hypothèses.
1.2. LA REGRESSION SIMPLE
S’il n’y a qu’une seule variable explicative, on dira que le modèle de régression est simple. Son but
est de confirmer empiriquement une relation de cause à effet entre deux variables. Ensuite, si cette
relation est confirmée évaluer son intensité.
1.2.1. Identification du modèle.
On doit préciser la variable dont on veut expliquer les variations (variable dépendante Y), puis celle
qui est la cause de ces variations (variable explicative X).
Bien que la relation entre deux variables ne soit pas nécessairement linéaire, il est souvent postulé
que cette relation est linéaire et ce pour la principale raison : la théorie de la régression linéaire est
beaucoup plus développée et surtout beaucoup plus simple à appliquer et à interpréter que celle de
la régression non linéaire.
Le modèle théorique en régression linéaire simple s’écrit :
Y = β0 + β1 X + ε
1
Le paramètre β1 donne la pente de la droite appelée coefficient de régression, il mesure la variation
de Y lorsque X augmente d’une unité. Le paramètre β0 est l'ordonnée à l'origine, c’est à dire la
valeur prise par Y lorsque X = 0.
ε représente l'erreur aléatoire, elle est non observable et comprend à la fois les erreurs de mesure sur
les valeurs observées de Y et tous les autres facteurs explicatifs non pris en compte dans le modèle.
L’analyse de régression repose sur un certain nombre de postulats :
- La variable explicative X est mesurée sans erreur.
- Les erreurs aléatoires ε sont distribuées selon une loi normale de moyenne nulle et de
variance constante inconnue.
- Les erreurs aléatoires ε sont non corrélées avec la variable explicative.
- Les erreurs aléatoires ε sont non corrélées entre elles.
1.2.2. Ajustement du modèle.
Le diagramme de dispersion d'une variable Y en fonction d'une autre variable X est formé des points
moyens conditionnels (xi , yi), et donne une idée de la façon dont varie, en moyenne, la variable Y en
fonction de la variable X.
Diagramme de dispersion
400
300
200
100
Y
0 10 20 30
A partir du diagramme de dispersion, on peut souvent représenter une courbe continue approchant
les données. Cette courbe est appelée courbe d'ajustement. La régression linéaire permet donc de
déterminer la droite qui s'ajuste au mieux aux valeurs observées. Cette droite est appelée droite de
régression de Y en fonction de X.
Il existe différentes méthodes pour déterminer cette droite de régression. La méthode la plus utilisée
est la méthode des moindres carrés.
La méthode des moindres carrés est une méthode d'ajustement qui consiste à minimiser la somme
des carrés des différences entre les valeurs observées, yi, et les valeurs estimées par la droite,
^
yi différence appelée résidu.
2
Le modèle empirique, estimé à partir des observations, sera désigné de cette façon :
^
Y = b 0 + b1 X
b0 et b1 sont des estimations des paramètres β0 et β1 du modèle théorique.
On définit le i-ème résidu ei par :
^
ei = Yi - Yi
La méthode des moindres carrées est celle qui minimise la somme des carrés des résidus;
symboliquement, on cherche à :
n n
(
Minimiser ∑ Yi −Ŷi =∑ei )2 2
i =1 i =1
Avec le critère des moindres carrés, tous les résidus deviennent positifs; il est donc impossible que
des résidus positifs annulent des résidus négatifs.
Les démonstrations algébriques sont facilitées par le recours aux outils du calcul différentiel. La
minimisation d’une fonction quadratique à plusieurs variables s’effectue en annulant les dérivées
partielles de premier ordre et en vérifiant le signe des dérivées partielles de deuxième ordre.
Les estimateurs obtenus par cette méthode sont des estimateurs linéaires non biaisés à variance
minimale c’est à dire efficace. (BLUE [ Best Linear Unbiased Estimators] ).
Les estimateurs des moindres carrés sont les mêmes que ceux que l’on obtiendrait si l’on se servait
de la méthode du maximum de vraisemblance en supposant que les erreurs théoriques sont
normalement distribuées.
Par calcul différentiel, on cherche les 2 valeurs b0 et b1 qui minimisent la somme des carrés des
résidus, cette somme quadratique est notée f( b0 , b1), puisqu’elle est fonction de 2 termes inconnus :
^
f(b0,b1) = ∑ei² = ∑(Y - Y )² = ∑(Y - b
i i i 0 - b1Xi)²
En annulant simultanément les dérivées partielles de f par rapport à b0 et b1, on obtient le système
d’équations linéaires homogène suivant :
nb0 + ∑Xib1= ∑Yi
∑ X b + ∑ X ² b = ∑X Y
i 0 i 1 i i
la solution générale est donnée par :

- -
b 0 = Y - b1 X
3
− − - -
b1 =
∑(X −X)(Y −Y)
i i
=
∑X Y
i i - nXY
− -
∑(X −X)² i ∑X ² i - n X²
Ŷ = b 0 + b1 X =  Y − b1 X  + b1 X = Y + b1  X − X 
− - - -
D’où
   
L’estimation de ßo et ß1 par la méthode des moindres carrés conduit aux formules équivalentes
suivantes :
- -
b 0 = Y - b1 X
−
b1 =
∑(X −X)Y
i i
−
∑(X −X)² i
Ces estimateurs sont des fonctions linéaires des observations Y1 , Y2 , ..., Yn.
Ces estimateurs sont non biaisés :
E(b1) = β1
E(b0) = β0
Sans démonstration mathématique, les variances théoriques de ces estimateur sont :
 - 
Var(b 0 ) = σε ²  1 + X² 
n
∑(Xi −X)² 
−
Var(b1) = σε ²
−
∑(X −X)² i
Connaissant la moyenne et la variance des estimateurs et ayant supposé que les erreurs, et donc les
Yi, sont distribuées normalement, on peut conclure que les estimateurs b0 et b1, étant des fonctions
linéaires des observations, obéissent eux-mêmes à une loi normale.
On peut donc construire des intervalles de confiance pour chacun des paramètres ßo et ß1; pour cela,
il faut au préalable estimer la variance des erreurs, σ²ε.
Les résidus étant des estimations des erreurs théoriques, on doit se servir de la variance des résidus (
notée S²e ) comme estimation de la variance des erreurs, la formule est donnée par :
4
2
2
σˆ = S 2
=
∑e 2
i
=
∑(Y − Yˆ ) ∑ (Y
=
i i i − b 0 − b1 Xi )
2
ε e
n− 2 n −2 n−2
On peut montrer que cet estimateur est non biaisé, c’est-à-dire
^
E( σε ² ) = σε²
Les estimateurs des paramètres de la droite de régression sont des statistiques qui obéissent à des lois
de Student à ( n - 2 ) degrés de liberté :
b 0 - β0
= t n -2
-
Se 1 + X²
−
n
∑(X −X)² i
b1 - β1
= t n -2
Se 1
−
∑(X −X)²i
Les intervalles de confiance à un seuil α pour les paramètres ß0 et ß1 sont donnés par :
Pour ß0 : b0 ± t1-α/2 ; n-2 Se 1+ X²

−
n
∑(X −X)² i
Pour ß1 : b1 ± t1-α/2 ; n-2 Se 1

−
∑(X −X)²
i
1.2.3. Qualité de l’ajustement.
1.2.3.1. Coefficient de corrélation de pearson.
a) Définition
Le coefficient de corrélation linéaire, désigné par ρ, a pour objet de mesurer l'intensité de la liaison
linéaire entre deux variables statistiques X et Y. Il exige des données mesurées selon une échelle
métrique.
E[(X − E(X)(Y −E(Y)]

ρ =
VAR(X)VAR(Y)
Cette définition montre que le coefficient de corrélation possède le même signe que la covariance et
qu'il est toujours compris entre -1 et 1.
5
Le signe du coefficient de corrélation linéaire indique le sens de la relation entre X et Y.
• ρ = 1 : dans ce cas les points se trouvent tous sur une même droite croissante, on parle de
corrélation linéaire positive parfaite.
• ρ = -1 : dans ce cas les points se trouvent tous sur une même droite décroissante, on parle de
corrélation linéaire négative parfaite.
• ρ = 0 : dans ce cas il n'y a aucune dépendance linéaire entre les deux variables, on parle de
corrélation linéaire nulle.
• -1 < ρ < 0 : dans ce cas les deux variables varient en sens inverse, la relation linéaire est
faible ou forte selon que le coefficient de corrélation linéaire est proche de 0 ou de -1.
• 0 < ρ < 1 : dans ce cas les deux variables varient dans le même sens, la relation linéaire est
faible ou forte selon que le coefficient de corrélation linéaire est proche de 0 ou de 1.
Le problème de la régression est intimement lié à celui de la corrélation : plus la corrélation est forte
entre deux variables, mieux l’on pourra prédire ou expliquer la valeur de la variable dépendante.
b) Estimation
Le coefficient de corrélation de X et Y peut être estimé à l’aide d’un échantillon aléatoire de n

couples d’observations par la formule suivante :
− −
ρˆ = r =
∑[x − x ][y − y]
i i
=
∑X Y − n X Y
i i
∑[x − x ] ∑[y − y]
i
2
i
2 −
∑X ² − n X ² ∑ Y ² − n Y ²
i i
−
Le calcul du coefficient de corrélation exige que les deux variables soient distribuées conjointement
selon une loi normale. Un test d’ajustement de Khi deux peut tester la normalité des distributions
individuelles. Dans le cas où la normalité n’est pas vérifiée on peut utiliser d’autres mesure de
corrélation moins exigeantes, telle que la corrélation des rangs de Spearman ou le tau de Kendall.
c) Test de signification
Ce test a pour but de vérifier que, dans la population, la vraie corrélation ρ est différente de 0.
Les hypothèses à tester sont :
H0 : ρ=0
H1 : ρ≠0
L’expression de la statistique du test est :
T n-2 = r n − 2
1− r²
6
Cette statistique obéit à une loi de Student à ( n - 2 ) degrés de liberté, quand l’hypothèse nulle est
vraie. On rejettera celle-ci chaque fois que la statistique sera trop grande en valeur absolue.
1.2.3.2. Coefficient de détermination.
Le coefficient de détermination noté R2 est le pourcentage de la variation totale dans la variable Y

qui est expliquée par la régression. Il synthétise la capacité de la droite de régression à retrouver les
différentes valeurs de la variable dépendante Yi
-
La variation totale ∑(Yi - Y)² observée sur la variable expliquée Y peut être décomposée en 2
parties :
∑(Y − Y ) = ∑(Ŷ − Y ) + ∑(Y − Ŷ )

2 2 2
i i i i
( )
Le premier terme ∑ Ŷi −Y désigné par SCR mesure la variation autour de la droite de régression,
2
∑(Y −Ŷ ) désigné par SCE,

2
on l’appelle Somme des Carrés due à la Régression. L’autre terme, i i
mesure la variation résiduelle, on l’appelle la somme des carrés due à l’erreur.
La somme des carrées totale s’écrit :
SCT = SCR + SCE
Puisqu’on cherche à expliquer la variation totale de Y autour de sa moyenne, SCT, on peut utiliser
le coefficient de détermination R2 comme indice de la qualité de l'ajustement de la droite aux
données.
^ −
R² = SCR =
∑(Yi−Y)²
−
SCT
∑(Yi−Y)²
On pourrait montrer par ailleurs que R2 est égal au carré du coefficient de corrélation.
- cas où R2 = 0:
Il faut pour cela que SCR = 0 et alors le modèle utilisé n'explique aucune variation dans la variable
dépendante Y. En outre, SCR = 0 implique que toutes les valeurs prédites sont égales à la moyenne
ˆ
des Y, c’est-à-dire Yi = Y , i = 1, 2, ..., n.
Graphiquement, dans le cas d’une régression simple, on aura la situation suivante, dans laquelle on
peut voir clairement que la variable explicative X n’est d’aucune utilité pour prédire Y.
7
Y
X
- cas où R2 =1:
Il faut pour cela que SCR = SCT, ce qui revient à écrire: SCE = 0. S’il en est ainsi, le modèle utilisé
explique toute la variation observée sur Y. En outre, SCE = 0 implique que toutes les valeurs
prédites sont égales aux valeurs observées correspondantes de Y, c’est-à-dire
Y =Y ˆ , i = 1, 2, ..., n.
i i
Graphiquement, en régression simple, on a la situation suivante dans laquelle on voit que le modèle
de régression explique parfaitement les variations de Y; quand l’ajustement est parfait comme ici,
la variable explicative X peut prédire sans erreur les valeurs de Y, au moins pour les valeurs de
l’échantillon.
X
1.2.3.3. Analyse de la variance.
L’analyse de la variance a pour but d’évaluer la qualité du R² en testant la signification du coefficient

de régression. L’hypothèse à tester est :
H0 : β1 = 0
H1 : β1 ≠ 0
Dans le cas de la régression simple ce test coïncide avec le test de signification du coefficient de
corrélation. Dont les hypothèses sont :
H0 : ρ=0
H1 : ρ≠0
Le test calcule le rapport de la variance expliquée par le modèle à la variance résiduelle. Cette
statistique obéit à une à une loi de Fisher à un et ( n - 2 ) degrés de liberté. On compare la valeur
calculée de F à sa valeur critique lue dans la table de Fisher à un seuil (1-α). une valeur élevée de F
8
indique que la pente de la droite de régression n’est pas nulle, ce qui conduit au rejet de H0 ; donc,
seules les grandes valeurs de la statistique F sont significatives.
Tableau d’analyse de la variance en régression linéaire simple
Source Somme des carrés Degrés Moyenne des F

de liberté carrés
(
Régression SCR = ∑ Ŷi − Y )
2
1 MCR = F = MCR
MCE
SCR
1
Erreur (
SCE = ∑ Yi −Ŷi )
2
n-2 MCE = SCE
n −2
-
Total SCT = ∑(Yi - Y)² n-1
1.2.4. Calcul de prévisions.
1.2.4.1. Intervalle de confiance pour E ( Y | x0 ).
Pour obtenir une prévision ponctuelle de Y pour une valeur particulière x0 de X, il suffit de
remplacer X par x0 dans le modèle empirique, ce qui s’écrit :
^
Y = b0 + b1 X0
L’intervalle de confiance au seuil α pour la moyenne est donné par l’expression suivante :
-
^
Y ± t1-α/2 ; n-2 Se 1 + (X 0 − X)²
−
n
∑ (X i − X )²
L’amplitude de l’intervalle est minimale quand x 0 = x ; c’est donc pour cette valeur de X que la
précision de l’estimation est la plus élevée. A mesure qu’on s’éloigne de la moyenne des X dans une
direction ou dans l’autre, la précision de l’estimation diminue, ce qui se traduit par des intervalles de
plus en plus larges.
1.2.4.2. Intervalle de prévision pour une valeur individuelle de Y, quand X= xo
L’intervalle de prévision est donné par :

9
-
^ (X 0 − X)²
Y ± t1-α/2 ; n-2 Se 1+ 1 + −
n
∑(X i −X)²
L’intervalle de prévision est plus large que l’intervalle de confiance pour une même valeur xo de X.
Il est plus difficile en effet de prévoir une valeur individuelle que d’estimer la moyenne d’un groupe.
1.2.5. Application numérique.
Au cours de 12 mois, une entreprise a noté le montant des frais de publicité et le volume du chiffre
d'affaires réalisé. Les résultats sont consignés dans le tableau suivant :
Mois Frais de publicité Chiffre d'affaires

Janvier 25000 280000
Février 17000 250000
Mars 18000 255000
Avril 28000 292500
Mai 22000 265000
Juin 20000 260000
Juillet 19000 262500
Août 22000 280000
Septembre 30000 285000
Octobre 30000 296000
Novembre 27000 285000
décembre 24000 270000
On s’intéresse à expliquer le chiffre d’affaires par les dépenses publicitaires. Le logiciel SPSS offre
la possibilité d’effectuer ce type d’analyse. La variable dépendante Y correspond donc au chiffre
d’affaires alors que les frais de publicité représentent la variable explicative X. Les sorties
informatiques se présente comme suit:
Procédure SPSS pour une corrélation linéaire :
A partir du menu, sélectionnez :
Analyse
Corrélation
Bivariée...
Sélectionnez deux variables numériques ou plus.
Repérer les corrélations significatives : les coefficients de corrélation significatifs au niveau

0,05 sont identifiés par un seul astérisque et ceux qui sont significatifs au niveau 0,01 sont identifiés
par deux astérisques.
10
Procédure SPSS pour une régression linéaire :
A partir du menu, sélectionnez :

Analyse
Régression
Linéaire...
Dans la boîte de dialogue Régression linéaire :

Dans variable dépendante, sélectionnez une variable numérique dépendante.
Dans variables explicatives, sélectionnez une ou plusieurs variables explicatives.
Dans méthodes, sélectionner la méthode de sélection des variables explicatives.
Identification du modèle :
300000
290000
280000
270000
260000
chiffre d'affaires
250000
240000
16000 18000 20000 22000 24000 26000 28000 30000 32000
Frais de publicité
D’après ce nuage de points, on voit bien que le modèle de régression linéaire simple
Y = β0 + β1 X + ε devrait représenter convenablement la relation entre les deux variables.
Coefficient de corrélation :
Corrélations
Frais de chiffre
publicité d'affaires
Frais de publicité Corrélation de Pearson 1,000 ,937**
Sig. (bilatérale) , ,000
N 12 12
chiffre d'affaires Corrélation de Pearson ,937** 1,000
Sig. (bilatérale) ,000 ,
N 12 12
**. La corrélation est significative au niveau 0.01 (bilatéral).
11
SPSS évalue que la corrélation entre les frais de publicité et le chiffre d’affaires est égale à 0,937 et
qu’elle est significative au seuil de 1 % puisque la probabilité de signification (sig = 0,000) est
inférieure au seuil de 1%.
Coefficient de détermination R-deux :

Récapitulatif du modèle
Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,937a ,879 ,866 5507,30
a. Valeurs prédites : (constantes), Frais de publicité
Le R-deux calculé par SPSS est de 0,866. les frais de publicité expliquent donc 86,6 % de la
variation du chiffre d’affaires. Ce pourcentage traduit une très bonne qualité d’ajustement.
Analyse de la variance :
SPSS fournit en outre le tableau d’analyse de la variance :

ANOVAb
Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 2,195E+09 1 2195113537 72,374 ,000a
Résidu 303303130 10 30330313,0
Total 2,498E+09 11
a. Valeurs prédites : (constantes), Frais de publicité
b. Variable dépendante : chiffre d'affaires
La statistique F = 72,374 dépasse largement la valeur critique 4,96 lue dans la table de la loi de
Fisher à 1 et 10 degrés de liberté, pour un seuil de signification de 5%. En comparant la
signification associée (0,000) au seuil de signification, on atteint la même conclusion, à savoir que
la régression est très significative.
Ajustement du modèle :
a
Coefficients
Coefficien
ts
Coefficients non standardi Intervalle de confiance à
standardisés sés 95% de B
Erreur Borne Borne
Modèle B standard Bêta t Signification inférieure supérieure
1 (constante) 200659,0 8698,923 23,067 ,000181276,62220041,433
Frais de publicité 3,096 ,364 ,937 8,507 ,000 2,285 3,907
a. Variable dépendante : chiffre d'affaires
Les estimations des 2 paramètres de la droite de régression sont données par :
bo = 200659 = ordonnée à l'origine

b1 = 3,096 = pente
Par conséquent, la droite de régression estimée par la méthode des moindres carrés se lit comme suit
:
12
^
Y = 3,096 X + 200659
Un mois où on dépense 26000 dh de publicité, on peut espérer un chiffre d’affaire de l’ordre de :
3,096 (26000) + 200659 = 281151 dh.
En moyenne, chaque dh de plus dans les frais de publicité d’un mois a pour conséquence de faire
augmenter le chiffre d’affaires de 3,096 dh.
Dans la sortie informatique on peut vérifier que les intervalles de confiance à 95% pour l’ordonnée à
l’origine et la pente de la droite de régression sont donnés respectivement par :
- Pour ß0 : 200659 ± 2,228 (8698,923) = [181277,80 ; 220040,20]
8698,923 étant l’erreur standard de l’estimation et 2,228 correspond à la valeur de la table de Student
avec une probabilité de (1-α/2)=0,975 et (12-2)=10 degré de liberté.
Le logiciel SPSS, plus précis qu’une calculatrice, donne un intervalle de confiance égale à
[181276,62 ; 220041,433]
- Pour ß1 : 3,096 ± 2,228 (0,364) = [2,285 ; 3,907]
On peut conclure donc que sans dépenses publicitaires, on peut espérer un chiffre d’affaires entre
181276 dh et 22042 dh. Par ailleurs, il est permis de conclure avec un niveau élevé de confiance que
chaque dirham additionnel en dépenses publicitaires entraîne une augmentation dans le chiffre
d’affaires, augmentation qui se situerait entre 2 et 4 dh, en moyenne.
Test de signification :
Afin de vérifier si la variable frais de publicité explique significativement le chiffre d’affaires, à un

seuil α donné, il faut tester les hypothèses :
H0 : β1 = 0 H1 : β1 ≠ 0
L’essentiel du test se trouve aussi sur la sortie informatique. On y retrouve en particulier la valeur de
la statistique [ t = 3,096/0,364 = 8,5]. Cette valeur est nettement significative à un seuil de 5%
puisqu’elle dépasse la valeur théorique de la loi de Student à 10 degrés de liberté t0,975 ;10 = 2,228.
les frais de publicité constituent un excellent prédicateur du chiffre d’affaires, en d’autres mots, la
variable X réussit très bien à expliquer les variations de Y autour de sa moyenne. On atteint cette
même conclusion avec la probabilité associée qui apparaît aussi dans la sortie informatique,
[Signification = 0,000 ]. Chaque fois que cette probabilité est inférieure au seuil de signification α
utilisé ( 0,05 ici ), il faut rejeter l’hypothèse nulle.
13
1.3. Régression multiple.
La régression multiple a pour but d’expliquer les variations d’une variable dépendante Y et p
variables explicatives X1 , X2 , ..., Xp (p > 1). Ensuite, si cette relation est confirmée évaluer son
intensité.
L’utilisation de plusieurs variables indépendantes, permet d’améliorer le pourcentage de variation

expliquée, c’est à dire augmenter le coefficient de détermination R2 , qui reflète la qualité de
2
l’ajustement. Ce qui implique une réduction de la variance résiduelle, S e , ce qui a pour effet
d’augmenter la précision des estimations et la puissance des tests.
1.3.1. Identification du modèle.
Le modèle théorique en régression linéaire multiple s’écrit :
Yi = β0 + β1X1i + β2 X 2i + β3X 3i + ... + βp X pi + εi
Le paramètre βi est appelé coefficient de régression partiel, il mesure la variation de Y lorsque Xi

augmente d’une unité et que les autres variables explicatives sont maintenues constantes.
ε représente l'erreur aléatoire, elle est non observable et comprend à la fois les erreurs de mesure sur
les valeurs observées de Y et tous les autres facteurs explicatifs non pris en compte dans le modèle.
L’analyse de régression repose sur les mêmes postulats présentés dans la régression simple aux
quels il faut ajouter qu’il n’y a pas de colinéarité parfaite entre les variables explicatives, c’est à dire
leurs coefficients de corrélation linéaire doivent être nuls ou proches de zéro.
1.3.2. Ajustement du modèle.
De la même manière que la régression simple, la méthode des moindres carrés consiste à minimiser
la somme des carrés des différences entre les valeurs observées, yi, et les valeurs estimées par le
^
modèle, yi différence appelée résidu.
Le modèle empirique, estimé à partir des observations, sera désigné de cette façon :
^
Yi = b0 + b1X1i + b2X 2i + b3X3i + ... + b pX pi (i = 1, 2, …, n)
b0 , b1 … et bp sont des estimations des paramètres β0 , β1 … et βp du modèle théorique.
On définit le i-ème résidu ei par :
^
ei = Yi - Yi
14
La méthode des moindres carrées minimise la somme des carrés des résidus, somme désignée par
f( b0 , b1,..., bp ), une fonction de ( p + 1 ) inconnues :
( )
f(b0,b1,...,bp)=∑ei2 =∑ Yi −Ŷi =∑(Yi −b0 −b1X1i −...−bpX pi )
2 2
En annulant simultanément les dérivées partielles par rapport à b0, b1, ... , bp, on obtient un
système de ( p + 1 ) équations linéaires homogène semblable à celui montré dans le cas de la
régression linéaire simple et qu’on peut écrire sous forme matricielle comme suit :
X ′Xb = X ′Y
La solution générale de ce système est donnée par :
= (X ′X )
−1
b X ′Y
Dans le cas de la régression multiple, les calculs deviennent très complexes, et pratiquement
impossibles à faire sans l’aide de l’ordinateur. Il existe un nombre important de logiciels
informatiques qui traitent le problème de la régression. Les logiciels fournissent en plus des
estimations des coefficients du modèle, toutes les statistiques et tests nécessaires pour juger de la
validité du modèle.
1.3.3. Qualité de l’ajustement.
1.3.3.1. Coefficient de corrélation.
Dans le cas de la régression multiple, on distingue deux types de coefficients de corrélation :
- Coefficient de corrélation simple calculé pour chaque paire de variables appartenant au modèle.
Les différents coefficients de corrélation simple sont regroupés dans une matrice appelée matrice de
corrélation. Les coefficient de corrélation portés sur la diagonale, mesurent la corrélation de chaque
variable avec elle même, ils sont donc égaux à 1. La matrice de corrélation est symétrique.
- Coefficient de corrélation multiple, il mesure la corrélation combinée de toutes les variables du

modèle.
Les valeurs des coefficients de corrélation s’interprètent de la même manière que pour la régression
simple.
1.3.3.2. Coefficient de détermination multiple.
De la même manière que pour la régression simple, le coefficient de détermination indique le

pourcentage de la variation totale de Y autour de sa moyenne qui est expliquée par la régression.
15
-
La variation totale ∑(Yi - Y)² observée sur la variable expliquée Y peut être décomposée en 2
parties :
∑(Y − Y ) = ∑(Ŷ − Y ) + ∑(Y − Ŷ )

2 2 2
i i i i
( )
Le premier terme ∑ Ŷi −Y désigné par SCR mesure la variation autour du modèle de régression, on
2
∑(Y −Ŷ ) désigné par SCE, mesure

2
l’appelle Somme des Carrés due à la Régression. L’autre terme, i i
la variation résiduelle, on l’appelle la somme des carrés due à l’erreur.
La somme des carrées totale s’écrit :
SCT = SCR + SCE
Le coefficient de détermination multiple R2 est définit par :

^ −
R² = SCR =
∑(Yi−Y)²
−
SCT
∑(Yi−Y)²
On pourrait montrer par ailleurs que R2 est égal au carré du coefficient de corrélation multiple.
Le coefficient de détermination multiple ne peut être inférieur au plus élevé des coefficients de
détermination simple entre Y et chacune des variables explicatives. Si les variables explicatives
sont parfaitement indépendantes entre elles, le coefficient de détermination multiple sera égale à
la somme des coefficients de détermination simple entre Y et chacune des variables explicatives.
Le coefficient de détermination multiple tend à augmenter avec le nombre de variables

explicatives. Pour pallier à cet inconvénient, on calcule un coefficient de détermination ajusté qui
tient compte du nombre de variables explicatives (p) et de la taille de l’échantillon (n).
Le coefficient de détermination ajusté se calcule en terme de variances, il est définit par :
Raj² = 1 - Se ² = 1 - 1 - n - 1 (1 - R²)
SY ² n - p -1
Le R² ajusté est inférieur au R². Ce dernier est un estimateur biaisé, tandis que le premier est non
biaisé.
Le R² ajusté est préférable à R2 si la taille de l’échantillon est faible. Quand n sera supérieur à
30, il n’y aura habituellement pas beaucoup de différence entre les 2 indices.
16
Le R² ajusté est plus approprié pour comparer des modèles de régression d’une variable
expliquée Y en fonction de différents sous-groupes de variables explicatives.
1.3.3.3. Analyse de la variance.
L’analyse de la variance a pour but d’évaluer la qualité de l’ajustement. Il s’agit d’effectuer un test
global sur l’ensemble des coefficients des variables explicatives.
Ho : ß1 = ß2 = ... = ßp = 0
H1 : au moins un des coefficients ßi est différent de zéro
De la même manière que pour la régression simple, ce test calcule le rapport de la variance expliquée
par le modèle à la variance résiduelle. Cette statistique obéit à une à une loi de Fisher à p et (n–p-1)
degrés de liberté. On compare la valeur calculée de F à sa valeur critique lue dans la table de Fisher à
un seuil (1-α). une valeur élevée de F indique que le modèle de régression est globalement
significatif, ce qui conduit au rejet de H0 ; donc, au moins un des coefficients ßi est différent de zéro.
Tableau d’analyse de la variance en régression linéaire multiple.
Source Somme des carrés Degrés Moyenne des F

de liberté carrés
( )
Régression SCR = ∑ Ŷi − Y
2
p MCR = SCR
p
F = MCR
MCE
SCE = ∑(Y −Ŷ ) n – p – 1 MCE = SCE
2
Erreur i i
n − p−1
-
Total SCT = ∑(Yi - Y)² n–1
1.3.3.4. Test d’hypothèses sur un coefficient particulier ßj.
Le test sur un coefficient a pour but de tester si la contribution marginale de la variable Xj pour
expliquer les variations de Y est significative ou non, compte tenu que les ( p - 1 ) autres variables
explicatives font déjà partie du modèle.
17
Ho : ßj = 0
H1 : ßj ≠ 0
Ce test est basé sur les statistiques dites ratio de student. Les ratios sont obtenus en faisant le rapport
entre le coefficient estimé et son écart type. Le ratio de student est :
t= b j
sb j
Sous l’hypothèse nulle, cette statistique obéit à une loi de Student à ( n - p - 1 ) degrés de liberté. On
compare la valeur calculée de t à sa valeur critique lue dans la table de Student à un seuil (1-α/2).
une valeur élevée de t indique que le coefficient ßj est significatif, ce qui conduit au rejet de H0.
1.3.3.5. Indice de la qualité prévisionnelle d’un modèle.
Le coefficient de détermination et le coefficient de détermination ajusté sont 2 indices de la qualité

de l’ajustement et non de la qualité prévisionnelle. En effet les éléments entrant dans le calcul du
résidu habituel sont dépendants puisque la valeur calculée Ŷi dépend de la valeur observée Yi.
L’indice servant à mesurer le pouvoir prédictif d’un modèle est la somme des carrés des résidus de
prédictions désigné par l’indice PRESS (Predicted Residual Sum of Squares). Le principe est de
calculer des prévisions pour de Yi à partir du modèle de régression calculé avec toutes les
^
observations sauf la ième (n-1 observations). Cette prévision sera désignée par Y (i) . Le résidu
obtenu est appelé résidu supprimé e(i).
^
e(i) = Yi - Y (i)
^
Les 2 éléments Yi et Y (i) servant à calculer les résidus supprimés sont indépendants. L’indice
PRESS est définie par :
^
PRESS = ∑(Y −Y i (i) )² = ∑e (i) ²
1.3.4. Les coefficients standardisés (ou coefficients « bêta »).
Le fait que les coefficients de régression sont exprimés dans des unités de mesure différentes les
unes des autres et la présence d’une multicolinéarité entre variables explicatives ne permet pas de
comparer les coefficients de régression non standardisés entre eux pour déterminer l’importance
relative des variables explicatives. Pour pallier à ce problème, on utilise les coefficients standardisés
qui, comme leur nom l’indique, sont les coefficients de régression que l’on obtient quand toutes les
variables sont centrées réduites, c’est-à-dire standardisées et donc sans unité de mesure.
Comme les coefficients standardisés sont des nombres purs ou sans unité de mesure, on pourrait être
tenté de les comparer entre eux afin de déterminer quelles sont les variables explicatives les plus
importantes. Il faut signaler que ces comparaisons sont très hasardeuses quand les variables
explicatives sont fortement corrélées entre elles d’une part, c’est le problème de multicolinéarité,
18
et d’autre part parce que les unités de mesure, elles-mêmes arbitraires, ont une incidence directe sur
les valeurs des coefficients standardisés.
1.3.5. Coefficient de détermination partielle.
Ce coefficient mesure l’effet marginal produit par l’introduction d’une nouvelle variable explicative
sur la somme des carrés résiduelle, il exprime le pourcentage de réduction de la variation
inexpliquée de la variable dépendante due à l’ajout d’une nouvelle variable explicative. Ce
coefficient est utilisé dans les méthodes de choix des variables explicatives pour déterminer l’ordre
d’entrée des variables.
1.3.6. Choix des variables explicatives.
Avant l’identification et l’ajustement du modèle de régression, une décision doit tout d’abord être
prise quant au nombre de variables explicatives qui interviennent dans l’équation de régression et de
choisir ces variables. Les variables explicatives doivent être choisies de façon à assurer une
précision maximum du modèle de régression, c’est à dire une variance résiduelle minimum. Pour
cela on opte pour les variables explicatives fortement corrélées avec la variable dépendante et
faiblement corrélées entre elles.
Une façon de trouver le meilleur modèle de régression est de comparer toutes les équations de
régression possibles. Ce qui est pratiquement impossible lorsque le nombre de variables explicatives
est élevé. En effet pour p variables explicatives, il faut comparer 2p-1 équations (1023 équations
pour 10 variables explicatives). Heureusement, les statisticiens ont développé des procédés de
sélection systématique des variables.
1.3.6.1. Sélection progressive.
Appelée aussi sélection ascendante, La première variable explicative à entrer dans le modèle est
celle qui est la plus fortement corrélée avec la variable dépendante. Ensuite, on introduit une
deuxième variable à condition qu’elle soit significative et choisie de façon à maximiser la
corrélation partielle entre Y et cette nouvelle variable. Et il en est ainsi jusqu’à l’inclusion de toutes
les variables explicatives marginalement significatives dans un dernier modèle.
1.3.6.2. sélection régressive.
Appelée aussi élimination descendante, Au début, toutes les variables explicatives font partie du
modèle, et celui-ci est significatif. On retire une première variable non significative, celle qui
contribue le moins à l’explication de la variation de la variable dépendante, compte tenu que les p-1
autres sont encore dans le modèle. A l’étape suivante, on retire une deuxième variable
marginalement non significative , puis une troisième de même nature,..., jusqu’à l’obtention d’un
modèle ne comprenant que des variables explicatives significatives.
19
1.3.6.3. sélection pas à pas (in and out stepwise regression).
La première variable explicative à entrer dans le modèle est d’abord significative et elle est en
même temps celle qui est la plus fortement corrélée avec la variable dépendante. Ensuite, la
méthode procède par introductions successives de variables, mais avant toute introduction, on teste
la signification des variables explicatives déjà présentes. Ainsi si l’introduction d’une nouvelle
variable explicative rend non significatif le coefficient de régression partiel d’une variable déjà
présente, celle ci est éliminée et la procédure cherche une nouvelle variable à faire entrer...etc. A
chaque étape donc, une variable entre dans le modèle si sa contribution marginale est significative et
une variable déjà incluse peut ressortir du modèle si sa contribution marginale devient négligeable.
Et il en est ainsi jusqu’à ce que tout ajout d’une variable serait non significatif et tout retrait serait
significatif.
Pour éviter le va-et-vient continuel d’une variable explicative dans et hors du modèle, on doit
choisir les niveaux de probabilité de façon que le seuil de signification pour l’élimination soit
supérieur au seuil de signification à l’Entrée.
1.3.7. Test de signification d’un sous-ensemble de variables explicatives.
Dans un modèle de régression à p variables explicatives, on peut tester la contribution simultanée

d’un sous ensemble de (p-k) variables explicatives.
Le modèle complet à p variables explicatives est :

Y = β + β X + β X + ... + β X + β X + ... + β X + ε
0 1 1 2 2 k k k +1 k +1 p p
les hypothèses à tester sont :
H0 : β k +1 = β k + 2 = ... = β p = 0
H1 : ces (p - k) coefficients β ne sont pas tous nuls .
Le modèle réduit correspondant à H0 est :
Y=β0 +β1X1 +β2X2 +...+βk X k +ε .
Désignons comme suit les éléments nécessaires pour effectuer le test en question :
SCRp : la somme des carrés expliquée par la régression à p variables explicatives

MCE : la variance résiduelle dans le modèle complet avec (n-p-1) degrés de liberté
SCRk : la somme des carrés expliquée par la régression à k variables explicatives
Le test se fait en calculant le ratio :
20
SCRp −SCR k
p−k
F=
MCE
Cette statistique obéit à une à une loi de Fisher avec (p-k) et (n-p-1) degrés de liberté. On compare
la valeur calculée de F à sa valeur critique lue dans la table de Fisher à un seuil (1-α). une valeur
élevée de F conduit au rejet de H0.
1.3.8. Application numérique.
Une étude a été effectuée durant un mois auprès d’un échantillon de 25 entreprises informatique
tous des revendeurs. Les variables mesurées sont :
Y = chif_aff : Chiffre d'affaires en dirhams réalisés pendant un mois.

X1 = dem_info : Nombre de demandes d'informations sur les prix par visite ou par téléphone
durant un mois
X2 = age : Nombre d'années d'existence de l'entreprise.
X3 = fac_pmt : Possibilité d'avoir une facilité de paiement, 1 si oui et 0 si non.
X4 = nb_comm : Nombre de commerciaux dans l'entreprise (une secrétaire qui fait aussi le
commercial compte pour 0,5).
X5 = chg_fix : Charges fixes hors salaires d'un mois.
21
Les données utilisées sont les suivantes :
N° entreprise Chif_aff Dem_info age Fac_pmt Nb_comm Chg_fix

1 300000 1000 9 0 2,5 9200
2 297000 1150 1 0 2 11000
3 288000 1130 3 0 2 11700
4 286000 1100 6 0 1,5 13700
5 294400 740 6 1 1,5 9800
6 296000 840 8 1 1,5 6700
7 305600 830 8 1 2 10200
8 311600 1180 10 1 1,5 14100
9 292000 1000 8 0 2 10000
10 288000 1100 1 0 2 10100
11 290000 1070 5 0 2 11600
12 292000 990 4 0 2 8800
13 274000 780 6 0 2 9400
14 295600 1090 2 0 2 9900
15 303600 920 4 1 1,5 10100
16 326000 1090 1 1 2 11500
17 328000 1200 3 1 3 14600
18 312400 810 9 0 1,5 6950
19 302800 960 5 1 2 10100
20 301200 890 2 1 2 6800
21 340000 1400 3 1 3 12100
22 276800 790 6 1 1,5 7100
23 313600 980 6 1 2,5 12100
24 330400 1240 7 1 3 12200
25 300000 880 6 0 2 8900
A partir de ces données, on cherche à expliquer le chiffre d’affaires par les cinq autres variables.
Pour cela on utilise la méthode de régression multiple.
Les calculs et résultats de la régression multiple ont été effectués à l’aide du logiciel SPSS qui
nous a fournit les résultats ci-dessous.
22
Coefficients de corrélation :
Corrélations
CHIF_AFF DEM_INFO AGE FAC_PMT NB_COMM CHG_FIX

CHIF_AFF Corrélation de Pearson 1,000 ,554** -,052 ,532** ,620** ,414*
Sig. (bilatérale) , ,004 ,804 ,006 ,001 ,040
N 25 25 25 25 25 25
DEM_INFO Corrélation de Pearson ,554** 1,000 -,356 -,011 ,614** ,726**
Sig. (bilatérale) ,004 , ,081 ,957 ,001 ,000
N 25 25 25 25 25 25
AGE Corrélation de Pearson -,052 -,356 1,000 ,058 -,218 -,117
Sig. (bilatérale) ,804 ,081 , ,782 ,294 ,578
N 25 25 25 25 25 25
FAC_PMT Corrélation de Pearson ,532** -,011 ,058 1,000 ,129 ,109
Sig. (bilatérale) ,006 ,957 ,782 , ,538 ,604
N 25 25 25 25 25 25
NB_COMM Corrélation de Pearson ,620** ,614** -,218 ,129 1,000 ,416*
Sig. (bilatérale) ,001 ,001 ,294 ,538 , ,039
N 25 25 25 25 25 25
CHG_FIX Corrélation de Pearson ,414* ,726** -,117 ,109 ,416* 1,000
Sig. (bilatérale) ,040 ,000 ,578 ,604 ,039 ,
N 25 25 25 25 25 25
**. La corrélation est significative au niveau 0.01 (bilatéral).
*. La corrélation est significative au niveau 0.05 (bilatéral).
D’après la sortie informatique de SPSS, la variable dépendante chiffre d’affaires est corrélée
significativement au seuil de 1 % avec les variables explicatives nombre de commerciaux (0,620),
demandes d’informations sur les prix (0,554) et la possibilité d’avoir une facilité de paiement
(0,532). Entre variables explicatives, on note quelques auto corrélations hautement significatives
telle que la corrélation entre demandes d’information sur les prix et charges fixes hors salaires
(0,726) et la corrélation entre demandes d’information sur les prix et nombre de commerciaux
(0,614).
1.3.8.1. Méthode entrée : Modèle avec toutes les variables explicatives.
Coefficient de détermination R-deux :
Erreur
standard de
1 ,831a ,691 ,610 10229,24
a. Valeurs prédites : (constantes), CHG_FIX, FAC_PMT, AGE,
NB_COMM, DEM_INFO
Le R-deux calculé par SPSS est de 0,691. les cinq variables explicatives expliquent donc 69,1 % de
la variation du chiffre d’affaires. Le coefficient de détermination multiple tend à augmenter avec le
nombre de variables explicatives. Pour pallier à cet inconvénient, on calcule un coefficient de
détermination ajusté qui tient compte du nombre de variables explicatives (p) et de la taille de
l’échantillon (n). Le R² ajusté est donc plus approprié pour comparer des modèles de régression
d’une variable expliquée Y en fonction de différents sous-groupes de variables explicatives. Le R-
deux ajusté calculé par SPSS est de 0,691. les cinq variables explicatives expliquent donc 69,1 % de
la variation du chiffre d’affaires. On voit bien que le R-deux est supérieur au R-deux ajusté.
23
ANOVAb
Somme
1 Régression 4,444E+09 5 888778346 8,494 ,000a
Résidu 1,988E+09 19 104637277
Total 6,432E+09 24
a. Valeurs prédites : (constantes), CHG_FIX, FAC_PMT, AGE, NB_COMM, DEM_INFO
b. Variable dépendante : CHIF_AFF
Ho : ß1 = ß2 = ß3 = ß4 = ß5 = 0
H1 : au moins un des coefficients ßi est différent de zéro
La statistique F = 8,494 dépasse largement la valeur critique 2,96 lue dans la table de la loi de Fisher
à 5 et 19 degrés de liberté, pour un seuil de signification de 5%. En comparant la signification
associée (0,000) au seuil de signification, on atteint la même conclusion, à savoir qu’au moins une
des cinq variables explicatives explique significativement le chiffre d’affaires.
Ajustement du modèle :
Coefficientsa
Coefficien
ts
Erreur Borne Borne
1 (constante) 224678,4 15988,434 14,053 ,000 191214,20 258142,548
DEM_INFO 49,674 23,114 ,501 2,149 ,045 1,296 98,052
AGE 947,151 852,747 ,155 1,111 ,281 -837,668 2731,970
FAC_PMT 16025,913 4230,138 ,499 3,789 ,001 7172,132 24879,694
NB_COMM 11711,778 5767,309 ,334 2,031 ,057 -359,337 23782,894
CHG_FIX -,942 1,456 -,125 -,647 ,525 -3,991 2,106
a. Variable dépendante : CHIF_AFF
Les estimations ponctuelles et par intervalle de confiance sont fournis par SPSS. le modèle de
régression multiple estimé par les moindres carrés se retrouve dans le tableau identifié par le
terme «coefficients», dans la deuxième colonne intitulée «Coefficients non standardisés» et se lit
comme suit :
ˆ =224678+49,67X1 +947,15X 2 +16025,91X3 +11711,78X 4 −0.94X5

Y
24
Tests de signification des variables explicatives :
Afin de vérifier si chacune des cinq variables explicatives explique significativement le chiffre
d’affaires, à un seuil α donné, il faut tester les hypothèses :
H0 : βi = 0
H1 : βi ≠ 0
L’essentiel du test se trouve aussi sur la sortie informatique. Pour la variable demande
d’informations sur les prix, la valeur de la statistique [ t = 49,674/23,114 = 2,149], la probabilité
associée qui apparaît aussi dans la sortie informatique, [Signification = 0,045 ] est inférieure au
seuil de signification α utilisé ( 0,05 ici ), il faut rejeter l’hypothèse nulle. Les demandes
d’informations sur les prix expliquent donc significativement le chiffre d’affaires. En même temps,
la variable facilité de paiement dont la probabilité de signification est de 0,001, expliquent donc
significativement le chiffre d’affaires. La contribution des trois autres variables dans le modèle
n’est pas significatives.
Les coefficients standardisés (ou coefficients « bêta »)
Le modèle original s’exprimait comme suit :
Yˆ =224678+49,67X1 +947,15X 2 +16025,91X3 +11711,78X 4 −0.94X5

L’imprimé informatique contient aussi les coefficients standardisés qui permettent d’écrire le
modèle sous cette autre forme dans laquelle toutes les variables ont été ramenées à une moyenne
nulle et à une variance unitaire:
ŷ = 0,501x 1 + o,155 x 2 + 0,499 x 3 + 0,334 x 4 − 0,125 x 5
La fausse impression que X2 jouait un rôle beaucoup plus important que X1 dans le modèle original
(b2=947,15 et b1 =49,67 s’est modifiée à la lecture des coefficients standardisés
β *2 = 0,155 versus β1* = 0,501 ).
1.3.8.2. Sélection progressive des variables explicatives.
Les données sur le chiffre d’affaires et les 5 variables explicatives déjà analysées sont soumises
cette fois à la procédure ascendante de SPSS, seulement 3 variables explicatives ont été retenues
dans le modèle final (dans l’ordre : nombre de commerciaux, facilité de paiement et demandes
d’informations sur les prix). Les principaux résultats de cette analyse se présentent comme suit :
25
Variables sélectionnées :
Variables introduites/éliminéesa
Variables Variables
Modèle introduites éliminées Méthode
1 Ascendante (critère :
NB_COMM , Probabilité de F pour
introduire <= ,050)
FAC_PMT , Probabilité de F pour
introduire <= ,050)
DEM_INFO , Probabilité de F pour
introduire <= ,050)
La première variable explicative à entrer dans le modèle est celle qui est la plus fortement corrélée
avec la variable dépendante chiffre d’affaires, il s’agit de variable nombre de commerciaux
(corrélation = 0,620). Ensuite, on introduit une deuxième variable à condition qu’elle soit
significative et choisie de façon à maximiser la corrélation partielle entre Y et cette nouvelle
variable, il s’agit de la variable facilité de paiement (voir tableau variables exclues plus bas :
signification = 0,003 et corrélation partielle = 0,581). Ensuite, on introduit une troisième variable
qui est nombre de demandes d’informations sur les prix (signification = 0,04 et corrélation partielle
= 0,43). La sélection s’arrête puisque les variables explicatives restantes ne sont pas significatives.
Qualité d’ajustement :
Erreur
standard de
1 ,620a ,385 ,358 13115,20
2 ,770b ,593 ,555 10914,67
3 ,817c ,668 ,621 10084,19
a. Valeurs prédites : (constantes), NB_COMM
b. Valeurs prédites : (constantes), NB_COMM, FAC_PMT
c. Valeurs prédites : (constantes), NB_COMM, FAC_PMT,
DEM_INFO
Le premier modèle à une seule variable explicative, nombre de commerciaux, explique 35,8 % de la
variation du chiffre d’affaires. En introduisant la deuxième variable, facilité de paiement, la part
expliquée a augmenté à 55,5 %. Le modèle final à trois variables explicatives (dans l’ordre : nombre
de commerciaux, facilité de paiement et demandes d’informations sur les prix) explique 62,1 %.
26
ANOVAd
Somme
1 Régression 2,476E+09 1 2475803435 14,393 ,001a
Résidu 3,956E+09 23 172008546
Total 6,432E+09 24
2 Régression 3,811E+09 2 1905569356 15,996 ,000b
Résidu 2,621E+09 22 119130059
Total 6,432E+09 24
3 Régression 4,296E+09 3 1432163755 14,084 ,000c
Résidu 2,136E+09 21 101690892
Total 6,432E+09 24
c. Valeurs prédites : (constantes), NB_COMM, FAC_PMT, DEM_INFO
d. Variable dépendante : CHIF_AFF
Les trois modèles sont significatives, ce qui est normale puisqu’on n’introduit que les variables
significatives. Mais le modèle final à trois variables explicatives est le plus significatif (signification
= 0,000).
Identification des modèles :

Coefficientsa
Coefficien
ts
Erreur Borne Borne
1 (constante) 257892,0 11866,920 21,732 ,000 233343,39 282440,579
NB_COMM 21736,641 5729,403 ,620 3,794 ,001 9884,468 33588,814
2 (constante) 254429,1 9929,849 25,623 ,000 233835,81 275022,297
NB_COMM 19653,250 4808,532 ,561 4,087 ,000 9680,966 29625,535
FAC_PMT 14752,659 4406,419 ,460 3,348 ,003 5614,305 23891,014
3 (constante) 234468,8 12947,711 18,109 ,000 207542,52 261394,996
NB_COMM 11978,091 5663,886 ,342 2,115 ,047 199,395 23756,787
FAC_PMT 15791,874 4098,837 ,492 3,853 ,001 7267,875 24315,872
DEM_INFO 34,702 15,884 ,350 2,185 ,040 1,669 67,734
Les trois modèles s’écrivent comme suit :
- Modèle à une seule variable explicative :
^
Y = 257892 + 21736,641 NB_COMM
- Modèle à deux variables explicatives :
^
Y = 254429,1 + 9653,25 NB_COMM + 4752,659 FAC_PMT
- Modèle à trois variables explicatives :
^
Y = 234468,8 + 11978,091 NB_COMM + 15791,874 FAC_PMT + 34,702 DEM_INFO
Pour les trois modèles, les tests de Student sur les coefficients sont tous significatifs.
27
Variables excluesd
Statistiqu
es de
colinéarit
Corrélation é
Modèle Bêta dans t Signification partielle Tolérance
1 DEM_INFO ,279a 1,371 ,184 ,280 ,624
AGE ,087a ,513 ,613 ,109 ,952
FAC_PMT ,460a 3,348 ,003 ,581 ,983
CHG_FIX ,189a 1,053 ,304 ,219 ,827
2 DEM_INFO ,350b 2,185 ,040 ,430 ,615
AGE ,046b ,321 ,751 ,070 ,945
CHG_FIX ,159b 1,062 ,300 ,226 ,824
3 AGE ,136c 1,010 ,325 ,220 ,870
CHG_FIX -,079c -,416 ,682 -,093 ,455
a. Valeurs prédites dans le modèle : (constantes), NB_COMM
b. Valeurs prédites dans le modèle : (constantes), NB_COMM, FAC_PMT
c. Valeurs prédites dans le modèle : (constantes), NB_COMM, FAC_PMT, DEM_INFO
1.3.8.3. Sélection régressive des variables explicatives.
Les mêmes données sur le chiffre d’affaires et les 5 variables explicatives sont soumises cette
fois à la procédure descendante de SPSS, seulement 3 variables explicatives ont été retenues
dans le modèle final. Les principaux résultats de cette analyse se présentent comme suit :
Variables introduites/éliminéesb
Variables Variables
1
CHG_FIX,
FAC_PMT,
AGE, , Introduire
NB_COMM,a
DEM_INFO
2 Elimination descendante (critère:

, CHG_FIX
Probabilité de F pour éliminer >= ,100).
3 Elimination descendante (critère:
, AGE
Probabilité de F pour éliminer >= ,100).
a. Toutes variables requises introduites
b. Variable dépendante : CHIF_AFF
Le premier modèle contient les cinq variables explicatives. Le test de Student sur les coefficient
indique que la variable charges fixes hors salaires est la moins significative (voit tableau des
coefficients ou tableau des variables exclues plus bas : signification= 0,525). On exclue donc cette
variable du modèle. Le deuxième modèle contient donc les quatre variables explicatives restantes.
Pour ce modèle, le test de Student sur les coefficient indique que la variable age n’est pas
28
significative (voit tableau des coefficients ou tableau des variables exclues plus bas : signification=
0,325). On exclue donc cette variable du modèle. Le troisième modèle contient donc les trois
variables explicatives restantes. Pour ce modèle, le test de Student sur les coefficient indique que les
trois variables explicatives sont toutes significatives (voit tableau des coefficients ou tableau des
variables exclues plus bas : signification < 0,325). Il s’agit donc du modèle final qui exprime le
chiffre d’affaires en fonction du nombre de commerciaux, de la facilité de paiement et du nombre de
demandes d’informations sur les prix.
Erreur
standard de
1 ,831a ,691 ,610 10229,24
2 ,827b ,684 ,621 10079,46
3 ,817c ,668 ,621 10084,19
a. Valeurs prédites : (constantes), CHG_FIX, FAC_PMT, AGE,
NB_COMM, DEM_INFO
b. Valeurs prédites : (constantes), FAC_PMT, AGE,
NB_COMM, DEM_INFO
c. Valeurs prédites : (constantes), FAC_PMT, NB_COMM,
DEM_INFO
Le premier modèle à 5 variables explicatives, explique 61 % de la variation du chiffre d’affaires. en

éliminant la variable charges fixes hors salaires, la part expliquée a augmenté à 62,1 %. Le modèle
final à trois variables explicatives (nombre de commerciaux, facilité de paiement et demandes
d’informations sur les prix) explique 62,1 %.
ANOVAd
Somme
1 Régression 4,444E+09 5 888778346 8,494 ,000a
Résidu 1,988E+09 19 104637277
Total 6,432E+09 24
2 Régression 4,400E+09 4 1100022286 10,827 ,000b
Résidu 2,032E+09 20 101595543
Total 6,432E+09 24
3 Régression 4,296E+09 3 1432163755 14,084 ,000c
Résidu 2,136E+09 21 101690892
Total 6,432E+09 24
a. Valeurs prédites : (constantes), CHG_FIX, FAC_PMT, AGE, NB_COMM, DEM_INFO
b. Valeurs prédites : (constantes), FAC_PMT, AGE, NB_COMM, DEM_INFO
c. Valeurs prédites : (constantes), FAC_PMT, NB_COMM, DEM_INFO
Les trois modèles sont significatives, ce qui est normale puisqu’on exclut toutes les variables non
significatives.
29
Ajustement des modèles :

Coefficientsa
Coefficien
ts
Erreur Borne Borne
1 (constante) 224678,4 15988,434 14,053 ,000 191214,20 258142,548
DEM_INFO 49,674 23,114 ,501 2,149 ,045 1,296 98,052
AGE 947,151 852,747 ,155 1,111 ,281 -837,668 2731,970
FAC_PMT 16025,913 4230,138 ,499 3,789 ,001 7172,132 24879,694
NB_COMM 11711,778 5767,309 ,334 2,031 ,057 -359,337 23782,894
CHG_FIX -,942 1,456 -,125 -,647 ,525 -3,991 2,106
2 (constante) 225481,0 15706,843 14,356 ,000 192717,07 258244,877
DEM_INFO 39,395 16,543 ,398 2,381 ,027 4,887 73,904
AGE 828,724 820,676 ,136 1,010 ,325 -883,176 2540,623
FAC_PMT 15547,588 4104,051 ,484 3,788 ,001 6986,688 24108,489
NB_COMM 12034,960 5661,510 ,344 2,126 ,046 225,257 23844,664
3 (constante) 234468,8 12947,711 18,109 ,000 207542,52 261394,996
DEM_INFO 34,702 15,884 ,350 2,185 ,040 1,669 67,734
FAC_PMT 15791,874 4098,837 ,492 3,853 ,001 7267,875 24315,872
NB_COMM 11978,091 5663,886 ,342 2,115 ,047 199,395 23756,787
- Modèle à une cinq variables explicatives :
^
Y =224678,4+49,674DEM_INFO+947,151AGE+16025,913FAC_PMT+11711,778NB_COMM –
0,942 CHG_FIX
- Modèle à quatre variables explicatives :
^
Y =225481+39,395DEM_INFO+828,724AGE+15547,588FAC_PMT+12034,96NB_COMM
^
Y = 234468,8 + 34,702 DEM_INFO + 15791,874 FAC_PMT + 11978,091 NB_COMM
Variables excluesc
Statistiqu
es de
colinéarit
Corrélation é
2 CHG_FIX -,125a -,647 ,525 -,147 ,434
3 CHG_FIX -,079b -,416 ,682 -,093 ,455
AGE ,136b 1,010 ,325 ,220 ,870
a. Valeurs prédites dans le modèle : (constantes), FAC_PMT, AGE, NB_COMM,
DEM_INFO
b. Valeurs prédites dans le modèle : (constantes), FAC_PMT, NB_COMM, DEM_INFO
c. Variable dépendante : CHIF_AFF
30
1.3.8.4. Sélection pas à pas des variables explicatives.
Les données sur le chiffre d’affaires Y les 5 variables explicatives sont soumises cette fois à la procédure pas à pas
de SPSS avec les valeurs prises par défaut, soit Signification à l’entrée inférieure à 0,05 et Signification pour
l’élimination supérieure à 0,10; , seulement 3 variables explicatives ont été retenues dans le modèle final (dans
l’ordre : nombre de commerciaux, facilité de paiement et demandes d’informations sur les prix). Les principaux
résultats de cette analyse se présentent comme suit :
Variables introduites/éliminéesa
Variables Variables
1 Pas à pas (critère: Probabilité de F pour
NB_COMM , introduire <= ,050, Probabilité de F pour
éliminer >= ,100).
FAC_PMT , introduire <= ,050, Probabilité de F pour
éliminer >= ,100).
DEM_INFO , introduire <= ,050, Probabilité de F pour
éliminer >= ,100).
Les variables Nombre de commerciaux, Facilité de paiement et nombre de demandes d’informations

sur les prix, une fois incluses, sont demeurées significatives tout au long de la démarche, ce qui a
empêché leur exclusion, tandis qu’après la troisième étape les 2 grandes valeurs 0,325 et 0,682 dans
la colonne signification du tableau VARIABLES EXCLUES ne permettent pas l’ajout d’une
quatrième variable explicative.
Erreur
standard de
1 ,620a ,385 ,358 13115,20
2 ,770b ,593 ,555 10914,67
3 ,817c ,668 ,621 10084,19
c. Valeurs prédites : (constantes), NB_COMM, FAC_PMT,
DEM_INFO
Le premier modèle à une seule variable explicative, nombre de commerciaux, explique 35,8 % de la
variation du chiffre d’affaires. En introduisant la deuxième variable, facilité de paiement, la part
expliquée a augmenté à 55,5 %. Le modèle final à trois variables explicatives (dans l’ordre : nombre
de commerciaux, facilité de paiement et demandes d’informations sur les prix) explique 62,1 %.
31
ANOVAd
Somme
1 Régression 2,476E+09 1 2475803435 14,393 ,001a
Résidu 3,956E+09 23 172008546
Total 6,432E+09 24
2 Régression 3,811E+09 2 1905569356 15,996 ,000b
Résidu 2,621E+09 22 119130059
Total 6,432E+09 24
3 Régression 4,296E+09 3 1432163755 14,084 ,000c
Résidu 2,136E+09 21 101690892
Total 6,432E+09 24
c. Valeurs prédites : (constantes), NB_COMM, FAC_PMT, DEM_INFO
Les trois modèles sont significatives, ce qui est normale puisqu’on n’introduit que les variables
significatives. Mais le modèle final à trois variables explicatives est le plus significatif (signification
= 0,000).
Identification des modèles :

Coefficientsa
Coefficien
ts
Erreur Borne Borne
1 (constante) 257892,0 11866,920 21,732 ,000 233343,39 282440,579
NB_COMM 21736,641 5729,403 ,620 3,794 ,001 9884,468 33588,814
2 (constante) 254429,1 9929,849 25,623 ,000 233835,81 275022,297
NB_COMM 19653,250 4808,532 ,561 4,087 ,000 9680,966 29625,535
FAC_PMT 14752,659 4406,419 ,460 3,348 ,003 5614,305 23891,014
3 (constante) 234468,8 12947,711 18,109 ,000 207542,52 261394,996
NB_COMM 11978,091 5663,886 ,342 2,115 ,047 199,395 23756,787
FAC_PMT 15791,874 4098,837 ,492 3,853 ,001 7267,875 24315,872
DEM_INFO 34,702 15,884 ,350 2,185 ,040 1,669 67,734
- Modèle à une seule variable explicative :
^
Y = 257892 + 21736,641 NB_COMM
- Modèle à deux variables explicatives :
^
Y = 254429,1 + 9653,25 NB_COMM + 4752,659 FAC_PMT
^
Y = 234468,8 + 11978,091 NB_COMM + 15791,874 FAC_PMT + 34,702 DEM_INFO
32
Pour les trois modèles, les tests de Student sur les coefficients sont tous significatifs.
Variables excluesd
Statistiqu
es de
colinéarit
Corrélation é
1 DEM_INFO ,279a 1,371 ,184 ,280 ,624
AGE ,087a ,513 ,613 ,109 ,952
FAC_PMT ,460a 3,348 ,003 ,581 ,983
CHG_FIX ,189a 1,053 ,304 ,219 ,827
2 DEM_INFO ,350b 2,185 ,040 ,430 ,615
AGE ,046b ,321 ,751 ,070 ,945
CHG_FIX ,159b 1,062 ,300 ,226 ,824
3 AGE ,136c 1,010 ,325 ,220 ,870
CHG_FIX -,079c -,416 ,682 -,093 ,455
a. Valeurs prédites dans le modèle : (constantes), NB_COMM
b. Valeurs prédites dans le modèle : (constantes), NB_COMM, FAC_PMT
c. Valeurs prédites dans le modèle : (constantes), NB_COMM, FAC_PMT, DEM_INFO
33

Chapitre 1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 1

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des données.

CHAPITRE 1. REGRESSION ET CORRELATION

1.2. LA REGRESSION SIMPLE

1.2.1. Identification du modèle.

Le modèle théorique en régression linéaire simple s’écrit :

L’analyse de régression repose sur un certain nombre de postulats :

- La variable explicative X est mesurée sans erreur.

- Les erreurs aléatoires ε sont non corrélées avec la variable explicative.

- Les erreurs aléatoires ε sont non corrélées entre elles.

1.2.2. Ajustement du modèle.

b0 et b1 sont des estimations des paramètres β0 et β1 du modèle théorique.

On définit le i-ème résidu ei par :

nb0 + ∑Xib1= ∑Yi

la solution générale est donnée par :

Ces estimateurs sont non biaisés :

Sans démonstration mathématique, les variances théoriques de ces estimateur sont :

On peut montrer que cet estimateur est non biaisé, c’est-à-dire

Pour ß0 : b0 ± t1-α/2 ; n-2 Se 1+ X²

Pour ß1 : b1 ± t1-α/2 ; n-2 Se 1

1.2.3. Qualité de l’ajustement.

1.2.3.1. Coefficient de corrélation de pearson.

E[(X − E(X)(Y −E(Y)]

Le coefficient de corrélation de X et Y peut être estimé à l’aide d’un échantillon aléatoire de n

L’expression de la statistique du test est :

1.2.3.2. Coefficient de détermination.

Le coefficient de détermination noté R2 est le pourcentage de la variation totale dans la variable Y

∑(Y − Y ) = ∑(Ŷ − Y ) + ∑(Y − Ŷ )

∑(Y −Ŷ ) désigné par SCE,

mesure la variation résiduelle, on l’appelle la somme des carrés due à l’erreur.

La somme des carrées totale s’écrit :

SCT = SCR + SCE

L’analyse de la variance a pour but d’évaluer la qualité du R² en testant la signification du coefficient

seules les grandes valeurs de la statistique F sont significatives.

Tableau d’analyse de la variance en régression linéaire simple

Source Somme des carrés Degrés Moyenne des F

1.2.4. Calcul de prévisions.

1.2.4.1. Intervalle de confiance pour E ( Y | x0 ).

1.2.4.2. Intervalle de prévision pour une valeur individuelle de Y, quand X= xo

L’intervalle de prévision est donné par :

1.2.5. Application numérique.

Mois Frais de publicité Chiffre d'affaires

Procédure SPSS pour une corrélation linéaire :

A partir du menu, sélectionnez :

Sélectionnez deux variables numériques ou plus.

Repérer les corrélations significatives : les coefficients de corrélation significatifs au niveau

A partir du menu, sélectionnez :

Dans la boîte de dialogue Régression linéaire :

Coefficient de détermination R-deux :

SPSS fournit en outre le tableau d’analyse de la variance :

Les estimations des 2 paramètres de la droite de régression sont données par :

bo = 200659 = ordonnée à l'origine

Un mois où on dépense 26000 dh de publicité, on peut espérer un chiffre d’affaire de l’ordre de :

3,096 (26000) + 200659 = 281151 dh.

- Pour ß0 : 200659 ± 2,228 (8698,923) = [181277,80 ; 220040,20]

- Pour ß1 : 3,096 ± 2,228 (0,364) = [2,285 ; 3,907]

Afin de vérifier si la variable frais de publicité explique significativement le chiffre d’affaires, à un

1.3. Régression multiple.

L’utilisation de plusieurs variables indépendantes, permet d’améliorer le pourcentage de variation

1.3.1. Identification du modèle.

Le modèle théorique en régression linéaire multiple s’écrit :

Yi = β0 + β1X1i + β2 X 2i + β3X 3i + ... + βp X pi + εi

Le paramètre βi est appelé coefficient de régression partiel, il mesure la variation de Y lorsque Xi

1.3.2. Ajustement du modèle.

b0 , b1 … et bp sont des estimations des paramètres β0 , β1 … et βp du modèle théorique.