Vous êtes sur la page 1sur 15

INSTITUT SUPÉRIEUR DE TECHNOLOGIE D’ANTSIRANANA

ECOLE DU GÉNIE EN MANAGEMENT, COMMERCE ET SERVICES


Mention MANAGEMENT

Traitement et
analyse de
données
Cours et exemples

Lova Zakariasy

2022
Chapitre I. ANALYSE DE RÉGRESSION ............................................................................................................... 1
1. Courbe de tendance .............................................................................................................................. 1
2. Paramètres usuels d’une statistique 2D ................................................................................................ 3
3. Régression linéaire par la méthode des moindres carrés ..................................................................... 4
4. Coefficient de détermination ................................................................................................................ 7
5. Test de signification ............................................................................................................................... 9
6. Régression multiple ............................................................................................................................. 11

Traitement et analyse de données i


Chapitre I.
ANALYSE DE RÉGRESSION

Dans ce chapitre nous allons étudier la relation entre plusieurs variables statistiques. Dans un
premier temps, nous nous intéressons à l’étude simultanée de deux variables. La régression linéaire
simple permet de quantifier la variation de la variable 𝑌 (variable dépendante) en fonction de la
variable 𝑋 (variable indépendante), et de caractériser les paramètres liant l'une à l'autre.

1. Courbe de tendance

Supposons que des mesures ont été effectuées sur un couple de variables (𝑋, 𝑌) pour avoir un
échantillon de 𝑛 observations (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = ̅̅̅̅̅
1, 𝑛. La représentation graphique de l'ensemble des
observations (𝑥𝑖 , 𝑦𝑖 ) s'appelle le nuage de points. Si le nuage de point est réparti de manière plus ou
moins régulière, on peut obtenir une courbe montrant la tendance, et dont l’équation pourrait être
déterminée. On parle alors d’ajustement.

Figure 1. Ajustement par Figure 2. Ajustement par un Figure 3. Ajustement


une droite parabole exponentiel

Le tableur EXCEL permet de trouver facilement l’équation de la courbe de tendance.

EXEMPLE 1. Détermination d’une courbe de tendance


Une étude de marché veut établir le lien entre le prix unitaire proposé sur un article et le volume de vente.
Les données prélevées sur les prix et les quantités vendues figurent dans le Tableau 1.
Tableau 1.
Prix Quantité
100 9876
200 7456
300 5183
400 4781
500 4235
600 3972
Un ajustement graphique permet de trouver la courbe exprimant au mieux la variation de la quantité 𝑌
d’articles vendus en fonction du prix 𝑋. Pour cela, nous allons procéder en trois étapes.

Traitement et analyse de données 1


Étape 1. Tracer le nuage de points
Ouvrir le fichier « TADDSeq1-exemples.xls ». Sur la feuille « Exemple 1 » sélectionner le tableau de données
puis insérer le graphique « nuage de points ».
Commentaire : Le prix correspond à la variable explicative (ou indépendante) X et ses valeurs sont présentées
sur l’axe des abscisses. La quantité correspond à la variable à expliquer (ou dépendante) Y et ses valeurs se
situent sur l’axe des ordonnées.

Quantité en fonction du prix


12000

10000

8000

6000

4000

2000

0
0 100 200 300 400 500 600 700

Figure 4. Nuage de points

Étape 2. Rechercher une courbe de tendance


Sélectionner tous les points en cliquant sur l’un d’entre eux. Puis d’un clic droit, sélectionner dans le menu qui
apparait « Ajouter une courbe de tendance… ».
Commentaire : La courbe de tendance linéaire (une droite) apparaît par défaut. Or, en observant le nuage de
points de cet exemple, il semble que l’ajustement par une droite n’est pas approprié.

Quantité en fonction du prix


12000

10000

8000

6000

4000

2000

0
0 100 200 300 400 500 600 700

Figure 5. Ajustement par une droite (par défaut)

Etape 3. Ajuster par une courbe adéquate


Cliquez sur la courbe de tendance du graphique pour la sélectionner. Dans la boîte de dialogue « Format de la
courbe de tendance », cocher « Puissance », « Afficher l’équation sur le graphique », et « Afficher le coefficient
de détermination (R²) sur le graphique ».

Lova Zakariasy 2
Nous allons voir plus tard dans une section les détails sur le coefficient de détermination.
Commentaire : il s’agit de trouver une courbe de tendance dont la valeur R² du coefficient de détermination est
la plus proche de 1. La fonction puissance dont la formule est affichée sur le graphique, donne un coefficient de
détermination supérieur à 0,981. Par l’ajustement linéaire, le coefficient R² est seulement égal à 0,7516.

Quantité en fonction du prix


12000

10000

8000

6000
y = -11,832x + 10206
4000 R² = 0,7516
y = 115493x-0,531
R² = 0,981
2000

0
0 100 200 300 400 500 600 700

Figure 6. Courbe de tendance (en rouge) exprimée avec la fonction puissance

Interprétation : L’équation de la courbe de tendance s’appelle équation estimée de la régression. Grâce à cette
équation, nous pouvons effectuer des mesures prévisionnelles du volume de vente en fonction du prix. Par
exemple, pour une offre de prix égal à 175, l’équation 𝑦̂ = 115493𝑥 −0,531 donne une quantité de vente
prévisionnelle proche de 7438 articles.

2. Paramètres usuels d’une statistique 2D

Sur un couple de variables (𝑋, 𝑌), on considère l’échantillon (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑛 , 𝑦𝑛 ). Les
paramètres usuels d’une série statistique à deux dimensions sont les moyennes et les variances de
chaque variable, ainsi que la covariance et le coefficient de corrélation.

⎯ Les moyennes respectives de X et de Y sont :

∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑥̅ = 𝑦̅ = (1)
𝑛 𝑛

⎯ La variance mesure la concentration ou la dispersion des valeurs de la variable autour de leur


moyenne. Les variances respectives de X et de Y sont :

∑(𝑥𝑖 − 𝑥̅ )2 ∑(𝑦𝑖 − 𝑦̅)2


𝑉(𝑋) = 𝑉(𝑌) = (2)
𝑛 𝑛

⎯ La covariance mesure la relation linéaire entre les deux variables. Elle permet d’analyser les
écarts entre les variations des deux variables autour des moyennes respectives. La covariance
est d’autant plus forte que les deux variables sont dispersées et en même temps éloignées de
la moyenne.

Traitement et analyse de données 3


∑(𝑥𝑖 −𝑥̅ )(𝑦𝑖 − 𝑦̅)
cov(𝑋, 𝑌) = (3)
𝑛

⎯ Le coefficient de corrélation mesure également la relation linéaire entre deux variables. Sa


valeur varie entre -1 et 1. Les valeurs proches de -1 ou de 1 indiquent une forte relation
linéaire ;
cov(𝑋, 𝑌)
𝑅= ⋅ (4)
√𝑉(𝑋)√𝑉(𝑌)

On calcule aisément ces paramètres sur un tableur (voir Exemple 2). S’il est indispensable de
bien connaître ces formules pour les interpréter, il est inutile de les retenir par cœur, ou pire,
les transcrire à tout-va dans la résolution d’un problème.

3. Régression linéaire par la méthode des moindres carrés

La méthode de l'ajustement linéaire consiste à supposer que deux variables 𝑋 et 𝑌 sont liées d’une
manière ou d’une autre par une fonction linéaire. Un nuage de points d’une allure allongée suggère
un ajustement linéaire (Figure 1). Le but de cet ajustement est de trouver les valeurs des coefficients
𝑏0 et 𝑏1 de la droite estimée de la régression d’équation :

𝑦̂ = 𝑏0 + 𝑏1 𝑥 (5)

La méthode des moindres carrés consiste à déterminer 𝑏0 et 𝑏1 tels que la somme des carrés des écarts
entre la droite d’ajustement linéaire et les points observés sont minimales :

∑(𝑦𝑖 − 𝑦̂𝑖 )2 → min (6)

Le calcul qui en découle permet d’établir que la droite de régression passe par le point moyen (𝑥̅ , 𝑦̅),
et de déterminer les valeurs de l’ordonnée à l’origine 𝑏0 et de la pente 𝑏1 .

𝑏0

𝑦̅ 𝑦̂ = 𝑏1 𝑥 + 𝑏0

Figure 7. La droite de régression déterminée


par la méthode des moindres carrés passe par
le point moyen (𝑥̅ , 𝑦̅).
𝑥̅

Lova Zakariasy 4
L'ordonnée à l'origine se calcule par la formule

𝑏0 = 𝑥̅ − 𝑎𝑦̅ (7)

et la pente de la droite

cov(𝑋, 𝑌) ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)


𝑏1 = = . (8)
𝑉(𝑋) ∑(𝑥𝑖 − 𝑥̅ )2

Les valeurs des coefficients 𝑏0 et 𝑏1 se calculent aisément sur un tableur.

EXEMPLE 2. Droite de régression linéaire


Dans une unité de production, les ouvriers sont répartis en équipe. Une étude est portée sur l’effectif des
personnes par équipe et les gains de productivité obtenus sur une année.
Tableau 2
Equipe N° 1 2 3 4 5 6 7 8 9 10
Effectif des personnes par équipe (X) 6 4 15 11 7 2 4 10 12 5
Gains de productivité (Y) 11% 6% 13% 15% 9% 5% 8% 12% 14% 8%

Après avoir tracé le nuage de points, le tableur fournit la courbe de tendance qui s’avère être la droite de
régression. L’équation de la droite est : 𝑦 = 0,0456 + 0,0073𝑥.

Gain de productivité en fonction de l'effectif


18%

16%
y = 0,0073x + 0,0456
14%

12%

10%

8%

6%

4%

2%

0%
0 2 4 6 8 10 12 14 16

Figure 8. Droite de régression de y en x

Nous allons retrouver les valeurs des coefficients de la droite de régression à l’aide des fonctions statistiques
sur Excel.
Étape 1. Calculer les moyennes des valeurs de chaque variable.

Fonction pour calculer la moyenne : =MOYENNE(plage de valeurs).

▪ le nombre moyen de personnes par équipe est 𝑥̅ = 7,6 personnes


▪ la moyenne annuelle des gains de productivité est 𝑦̅ = 10%.

Traitement et analyse de données 5


Étape 2. Calculer les coefficients 𝒃𝟎 et 𝒃𝟏 de la droite de régression.

Calcul de l’ordonnée à l’origine : =ORDONNEE.ORIGINE (plage valeurs de Y ; plage valeurs de X)


Calcul de la pente : =PENTE (plage des valeurs de Y ; plage des valeurs de X)

On peut ainsi déterminer l’équation estimée de la droite de régression en ayant calculé :


▪ l’ordonnée à l'origine 𝑏0 = 0,0456
▪ la pente de la droite de régression 𝑏1 = 0,0073.
Ainsi, l’équation estimée de la régression de 𝒚 en 𝒙 est :
▪ 𝑦̂ = 0,0456 + 0,0073𝑥

Étape 3. Mesurer la qualité de l’ajustement linéaire.


La qualité de l’ajustement linéaire est mesurée par la valeur du coefficient de corrélation linéaire 𝑅.

Calcul du coefficient de corrélation : =COEFFICIENT.CORRELATION (plage de Y ; plage de X)

Le coefficient de corrélation 𝑅 = 0,895 est relativement proche de l’unité, et indique une dépendance
linéaire entre l’effectif et la productivité.

Interprétations : La pente positive (𝑏1 = 0,0073) de l’équation, implique que lorsqu’on augmente l’effectif
d’une équipe, la productivité augmente aussi. Plus précisément, l’ajout d’une personne dans une équipe
entraîne une hausse annuelle de 0,73% de la productivité. En outre on peut se poser la question sur l’effectif
à prévoir si l’on veut fixer le gain de productivité. En d’autres termes, faire une prévision sur 𝑥 pour une valeur
de 𝑦 . Pour cela, on détermine l’équation estimée de la régression de 𝒙 en 𝒚 :

▪ 𝑥̂ = 110,01𝑦 − 3,511

Ainsi, pour obtenir un gain de productivité de 16%, il faudra au moins une équipe de 14 personnes.

EXEMPLE 3. Cas d’un ajustement non linéaire.


Si on revient à l’exemple 1, on constate sur la Figure 6 que la courbe de tendance de la quantité 𝑌 par rapport
au prix 𝑋 s’apparente à une fonction puissance de la forme 𝑦 = 𝐵𝐴𝑥 . Une transformation de la variable 𝑦
permet de déterminer une équation linéaire. En posant 𝑧 = log 𝑦, l’équation devient :

𝑧 = log(𝐵𝐴𝑥 ) = log 𝐵 + 𝑥 log 𝐴

ce qui représente une droite d’ordonnée à l’origine 𝑏0 = log 𝐵 et de pente 𝑏1 = log 𝐴 (Figure 9).
Le tableau ci-dessous, suivi d’un graphique, présente les variables transformées.

Tableau 3
Prix Quantité log(Prix) log(Quantité)
100 9876 2,0000 3,9946
200 7456 2,3010 3,8725
300 5183 2,4771 3,7146
400 4781 2,6021 3,6795
500 4235 2,6990 3,6269
600 3972 2,7782 3,5990

Lova Zakariasy 6
log(Quantité)
4,0500

4,0000

3,9500

3,9000

3,8500

3,8000

3,7500

3,7000

3,6500

3,6000 y = -0,5309x + 5,0626


R² = 0,981
3,5500
1,5 2,0 2,5 3,0
Figure 9. Ajustement linéaire des points (log 𝑥𝑖 , log 𝑦𝑖 )

On peut effectuer l’ajustement linéaire sur les logarithmes décimaux des deux variables, ce qui donne :

log 𝑦 = −0,5309 log 𝑥 + 5,0625

La valeur du coefficient de détermination 𝑅² = 0,981 justifie que l’ajustement exponentiel par l’équation
𝑦̂ = 115493𝑥 −0,531 est adéquat.
Si le coefficient de corrélation est particulièrement utilisé dans un ajustement linéaire, le coefficient de
détermination 𝑅 2 indique la qualité de l’ajustement pour n’importe quel modèle mathématique.
Calcul du coefficient de détermination : =COEFFICIENT.DETERMINATION (plage de Y ; plage de X).

4. Coefficient de détermination

Le coefficient de détermination mesure la qualité de l'ajustement obtenu. Plus 𝑅² est proche de 1,


meilleur est l’ajustement. Le seuil à partir duquel l'ajustement est dit satisfaisant dépend de la taille
de l’échantillon. Si la taille de l’échantillon est faible, R² doit être élevé pour que l'ajustement soit
retenu. Nous allons voir que 𝑅² donne la part de la variance de la variable dépendante qui est
expliquée par l'ajustement.

L'écart entre la valeur observée de la variable dépendante 𝑦𝑖 et la valeur estimée 𝑦̂𝑖 est appelé le 𝑖-ème
résidu, et est égal à 𝑦𝑖 − 𝑦̂𝑖 . Celui-ci représente l’erreur commise en utilisant les valeurs ajustées 𝑦̂𝑖
pour estimer 𝑦𝑖 . La somme des carrés des résidus noté par SCRes se calcule par la formule :

𝑆𝐶𝑅𝑒𝑠 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 (9)

La valeur de SCRes est une mesure de l’erreur commise en utilisant l’équation estimée de la
régression pour estimer les valeurs de la variable dépendante de l’échantillon.

Traitement et analyse de données 7


EXEMPLE 4. Suite de l’exemple 2
Pour trouver la valeur du premier résidu, on calcule l’écart entre le gain observé de la première équipe (11%
ou 0,11) et le gain estimé si l’équipe est composée de 6 personnes. Pour l’estimation, on prend l’équation
estimée de la régression :
▪ 𝑦 ̂1 = 0,0456 + (0,0073 ∗ 6) = 0,0893
▪ Le premier résidu, correspondant à l’équipe#1, est égal à 0,11 − 0,0893 = 0,0207
En procédant de la même manière sur toutes les valeurs, on obtient la somme des carrés des résidus :
▪ 𝑆𝐶𝑅𝑒𝑠 = 0,0020827

L’écart 𝑦𝑖 − 𝑦̅ mesure l’erreur commise en utilisant la moyenne 𝑦̅ pour estimer les valeurs de 𝑌. La
somme des carrés correspondante est appelée somme des carrés totale, et est notée SCT.

𝑆𝐶𝑇 = ∑(𝑦𝑖 − 𝑦̅)2 (10)

▪ L’écart entre le gain de la première équipe au gain moyen est 𝑦1 − 𝑦̅ = 0,11 – 0,10 = 0,01.
▪ La somme des carrés totale est 𝑆𝐶𝑇 = 0,01049.

Pour déterminer dans quelle mesure les valeurs 𝑦̂ estimées dévient de la valeur moyenne 𝑦̅ on
calcule la somme des carrés de la régression, notée SCReg.

𝑆𝐶𝑅𝑒𝑔 = ∑(𝑦̂𝑖 − 𝑦̅)² (11)

Ces trois sommes de carrés sont liées par la simple formule :

𝑆𝐶𝑇 = 𝑆𝐶𝑅𝑒𝑔 + 𝑆𝐶𝑅𝑒𝑠 (12)

▪ La première régression, c’est-à-dire l’écart du gain estimé pour une équipe de 6 personnes au gain
moyen est : 𝑦̂1 − 𝑦̅ = 0,0893 – 0,101 = − 0,0117.
▪ La somme des carrés de la régression est 𝑆𝐶𝑅𝑒𝑔 = 0,0084073.
▪ On peut vérifier que 𝑆𝐶𝑅𝑒𝑔 + 𝑆𝐶𝑅𝑒𝑠 = 0,0084073 + 0,0020827 = 0,01049 = 𝑆𝐶𝑇

La somme 𝑆𝐶𝑅𝑒𝑔 peut être considérée comme la partie expliquée de la Somme des Carrés Totale, et
𝑆𝐶𝑅𝑒𝑠 comme la partie inexpliquée. L’équation estimée de la régression s’ajusterait parfaitement aux
données si l’écart 𝑦𝑖 − 𝑦̂𝑖 est nul, et par conséquent 𝑆𝐶𝑅𝑒𝑠 est égale à 0. Cela implique que le ratio
𝑆𝐶𝑅𝑒𝑔/𝑆𝐶𝑇 est égale à 1. Ce ratio, compris entre 0 et 1, est appelé coefficient de détermination et noté
par 𝑅 2. Il est utilisé pour évaluer l’adéquation de l’équation estimée de la régression aux données.

𝑆𝐶𝑅𝑒𝑔
𝑅2 =
𝑆𝐶𝑇

On peut interpréter le coefficient de détermination comme le pourcentage de la somme des carrés


totale expliquée par l’équation estimée de la régression.

𝑆𝐶𝑅𝑒𝑔 0,0084073
▪ Dans notre exemple, le coefficient de détermination est 𝑅 2 = = = 0,8014
𝑆𝐶𝑇 0,01049

Lova Zakariasy 8
5. Test de signification

Dans l’exemple 2, nous avons déterminé l’équation estimée de régression linéaire 𝑦̂ = 0,0456 + 0,0073𝑥.
Cette équation se rapproche au mieux au modèle mathématique permettant de calculer le gain en
productivité en fonction du nombre de personnes par équipe. Dorénavant, elle peut être utilisée dans
n’importe quelle situation similaire aux observations. Comme l’équation a été calculée sur la base d’un
échantillon, il y a certainement une erreur induite entre le modèle théorique et l’équation estimée.
Le modèle de régression linéaire simple s’écrit :

𝑦 = 𝛽1 𝑥 + 𝛽0 + 𝜀 (13)

où 𝛽0 et 𝛽1 sont les paramètres du modèle et 𝜀 est le terme d’erreur. Le terme d’erreur est une variable
aléatoire qui prend en compte la variabilité de 𝑦 non expliquée par la relation linéaire entre 𝑥 et 𝑦.
Les paramètres 𝛽0 et 𝛽1 sont inconnus, et ses estimateurs ponctuels sont 𝑏0 et 𝑏1 , coefficients de
l’équation estimée de la régression linéaire :

𝑦̂ = 𝑏0 + 𝑏1 𝑥 (14)

Même si la valeur du coefficient de détermination est élevée, le modèle de régression linéaire ne doit
être validée qu’après avoir effectué un test de signification. En fait, la dépendance linéaire est
avérée, si le coefficient 𝛽1 n’est pas nul. Le but du test est donc d’utiliser les données d’échantillon
pour conclure si 𝛽1 ≠ 0. Pour réaliser le test de signification, nous avons besoin de l’erreur type de
l’estimation 𝑠 et de l’écart-type estimé de 𝑏1 .

Si on développe chaque valeur 𝑦̂𝑖 = 𝑏𝑜 + 𝑏1 𝑥𝑖 , la somme des carrés des résidus peut s’écrire :

𝑆𝐶𝑅𝑒𝑠 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 )2 (15)

Si 𝑛 est la taille de l’échantillon considéré, la moyenne des carrés des résidus (𝑀𝐶𝑅𝑒𝑠) est calculée en
divisant 𝑆𝐶𝑅𝑒𝑠 par 𝑛 − 2 (degrés de libertés). Elle fournit une estimation sans biais de la variance de
l’erreur 𝜀.
𝑆𝐶𝑅𝑒𝑠
𝑠 2 = 𝑀𝐶𝑅𝑒𝑠 = (16)
𝑛−2

La valeur de 𝑠 est appelée erreur type de l’estimation, et

√𝑆𝐶𝑅𝑒𝑠 (17)
𝑠 = √𝑀𝐶𝑅𝑒𝑠 =
𝑛−2

L’écart-type estimé de 𝒃𝟏 fournit une estimation de l’erreur type de la pente.


𝑠
𝑠𝑏1 = (18)
√∑(𝑥𝑖 − 𝑥̅ )2

Traitement et analyse de données 9


EXEMPLE 4 (SUITE DE L’EXEMPLE 2 : gains de productivité en fonction de l’effectif)
Le tableau ci-dessous montre les calculs effectués sur un tableur pour trouver les valeurs de 𝑠 et 𝑠𝑏1 .
N° 𝑥𝑖 𝑦𝑖 𝑦̂𝑖 (𝑥𝑖 − 𝑥̅ )² (𝑦𝑖 − 𝑦̂𝑖 )²
1 6 0,11 0,09 2,56 0,00043
2 4 0,06 0,07 12,96 0,00022
3 15 0,13 0,15 54,76 0,00062
4 11 0,15 0,13 11,56 0,00059
5 7 0,09 0,10 0,36 0,00004
6 2 0,05 0,06 31,36 0,00010
7 4 0,08 0,07 12,96 0,00003
8 10 0,12 0,12 5,76 0,00000
9 12 0,14 0,13 19,36 0,00005
10 5 0,08 0,08 6,76 0,00000
TOTAUX 76 1,01 158,40 0,00208
√∑(𝑥𝑖 − 𝑥̅ )2 = 12,5857
Moyenne x 7,6 𝑀𝐶𝑅𝑒𝑠 0,00026034
Moyenne y 0,1010 𝑠 0,01613499
Ordonnée 𝑏0 0,0456 𝑠𝑏1 0,00128201
Pente 𝑏1 0,0073
▪ On calcule d’abord 𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 pour pouvoir obtenir 𝑆𝐶𝑅𝑒𝑠
▪ Précédemment, on a trouvé 𝑆𝐶𝑅𝑒𝑠 = 0,0020827
0,0020827
▪ La moyenne des carrés des résidus est 𝑠 2 = 𝑀𝐶𝑅𝑒𝑠 = 10−2
= 0,00026034

▪ L’erreur-type de l’estimation 𝑠 = √𝑀𝐶𝑅𝑒𝑠 = 0,01613


0,01613
▪ L’écart-type estimé de 𝑏1 est 𝑠𝑏1 = 12,5857 = 0,001282

Le test de signification de Student pour une régression linéaire simple se formule comme suit :

𝐻0 : 𝛽1 = 0
𝐻𝑎 : 𝛽1 ≠ 0.
𝑏1
La statistique de test est 𝑡 = .
𝑠𝑏1

Règle de rejet : 𝐻0 est rejeté au risque 𝛼 si 𝑡 ≤ −𝑡𝛼 ou si 𝑡 ≥ 𝑡𝛼 , où 𝑡𝛼 correspond à la valeur t de la


2 2 2

probabilité d’une loi de Student à 𝑛 − 2 degrés de liberté. Si à l’issue du test on rejette 𝐻0 , on conclut
que 𝛽1 ≠ 0 et que la relation est statistiquement significative. Si on ne peut pas rejeter 𝐻0 , les preuves
statistiques sont insuffisantes pour conclure une relation significative.

La valeur de 𝑡𝛼 se calcule sur le tableur =LOI.STUDENT.INVERSE.BILATERALE(𝛼, 𝑛 − 2).


2

𝑏 0,0073
▪ Partant de l’exemple précédent, la valeur de la statistique de test est 𝑡 = 𝑠 1 = 0,001282 = 5,682764
𝑏1

▪ La valeur de 𝑡𝛼 correspondant à la distribution de Student à 8 degrés de libertés et pour 𝛼 = 0,01


2

est égale à 3,355


▪ Comme 𝑡 > 𝑡𝛼 , l’hypothèse 𝐻0 est rejetée, pour conclure que la relation linéaire est significative.
2

Lova Zakariasy 10
6. Régression multiple

Si on reprend l’exemple 2, sachant la valeur du coefficient de détermination, on peut dire que 80% des gains
en productivité peut s’expliquer par la relation linéaire avec l’effectif de l’équipe. Seule la variable « nombre
de personnes par équipe » n’explique pas les gains de productivité. En fait, la productivité dépend de plusieurs
facteurs comme la durée du travail, la performance des machines, et bien d’autres.

La régression multiple permet d’établir la relation entre la variable dépendante Y et deux ou


plusieurs variables explicatives 𝑋1 , 𝑋2 , … , 𝑋𝑝 . Le modèle de régression multiple est l’équation
décrivant la variable Y aux variables explicatives.

Le modèle de régression linéaire multiple s’écrit :

𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑝 𝑥𝑝 + 𝜀 (19)

Dans cette équation 𝛽0 , 𝛽1 , … , 𝛽𝑝 sont les paramètres de la population et 𝜀 est le terme d’erreur. Le
terme d’erreur est une variable aléatoire qui prend en compte la variabilité de 𝑦 non impactée par
les variables explicatives. Les valeurs des paramètres 𝛽0 , 𝛽1 , … , 𝛽𝑝 sont inconnus. On utilise un
échantillon aléatoire simple pour trouver leurs estimateurs ponctuels respectifs 𝑏0 , 𝑏1 , 𝑏2 , … , 𝑏𝑝 , qui
sont les coefficients de l’équation estimée de la régression linéaire :

𝑦̂ = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + ⋯ + 𝑏𝑝 𝑥𝑝 (20)

Les valeurs afférentes à la régression multiple (et même simple) peuvent être calculées
automatiquement sur EXCEL avec la fonction DROITEREG. Celle-ci calcule les statistiques
d’une régression linéaire par la méthode des moindres carrés, dans le but de déterminer la droite
d’ajustement. Les résultats sont donnés sous la forme d’une matrice.

Tableau 4. Statistiques fournies par la fonction DROITEREG

𝒃𝒑 𝒃𝒑−𝟏 … 𝒃𝟐 𝒃𝟏 𝒃𝟎 Coefficients
𝑠𝑏𝑝 𝑠𝑏𝑝−1 … 𝑠𝑏2 𝑠𝑏1 𝑠𝑏0 Erreur type des coefficients
𝑹² 𝑠𝑦 Coefficient de détermination ; Erreur type de la valeur estimée
F D.L. Statistique de Fisher ; Degré de liberté
𝑆𝐶𝑅𝑒𝑔 𝑆𝐶𝑅𝑒𝑠 Somme des carrés de régression ; somme des carrés des résidus

EXEMPLE 5 (SUITE DE L’EXEMPLE 2 : gains de productivité en fonction de l’effectif)


Les gains de productivité dépendent de l’effectif par équipe et de la performance des machines à disposition
de chaque équipe. La performance d’une machine est traduite en chiffres par un certain nombre de points.
On a alors les données suivantes :
Tableau 5.
Equipe N° 1 2 3 4 5 6 7 8 9 10
Gains de productivité (Y) 11% 6% 13% 15% 9% 5% 8% 12% 14% 8%
Effectif des personnes par équipe (X1) 6 4 15 11 7 2 4 10 12 5
Performance de la machine (X2) 176 105 152 189 134 100 128 139 175 156

Traitement et analyse de données 11


D’abord on établit les droites de régression respectives de 𝑌 à 𝑋1 et de 𝑌 à 𝑋2 à l’aide de la fonction
DROITEREG.
Droite de régression de 𝑌 à 𝑋1 : Droite de régression de 𝑌 à 𝑋2 :
=DROITEREG(plage Y ; plage X_1 ; vrai ; vrai). =DROITEREG(plage Y ; plage X_2 ; vrai ; vrai).
Résultat : Résultat :
0,0073 0,0456 0,00098 -0,0415
0,0013 0,0110 0,00021 0,0308
0,8015 0,0161 0,73582 0,0186
32,2938 8 22,28293 8
0,0084 0,0021 0,00772 0,0028

▪ La droite de régression des gains de productivité en fonction de l’effectif 𝑦̂ = 0,0456 + 0,0073𝑥1


avec 𝑅 2 = 0,8014
▪ La droite de régression des gains de productivité en fonction de la performance des machines est
𝑦̂ = −0,0415 + 0,00098𝑥2 avec 𝑅 2 = 0,7358

Maintenant, on va déterminer la droite de régression avec les variables explicatives 𝑋1 et 𝑋2 .


=DROITEREG(plage Y ; plage des 𝑋1 et 𝑋2 ; vrai ; vrai).

Résultat :
0,0006 0,0048 -0,0168
0,0001 0,0009 0,0153
0,9477 0,0088
63,4793 7
0,0099 0,0005

L’équation estimée de la régression exprimant les gains en productivité en fonction des nombres de
personnes par équipe et de la performance des machines est :

𝑦̂ = −0,0168 + 0,0048𝑥1 + 0,0006𝑥2 .

On remarque que le coefficient de détermination a nettement augmenté : R2 = 0,9477. Ainsi le rajout de la


variable performance des machines dans l’équation a amélioré la qualité de l’ajustement linéaire.

Lova Zakariasy 12

Vous aimerez peut-être aussi