Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Traitement et
analyse de
données
Cours et exemples
Lova Zakariasy
2022
Chapitre I. ANALYSE DE RÉGRESSION ............................................................................................................... 1
1. Courbe de tendance .............................................................................................................................. 1
2. Paramètres usuels d’une statistique 2D ................................................................................................ 3
3. Régression linéaire par la méthode des moindres carrés ..................................................................... 4
4. Coefficient de détermination ................................................................................................................ 7
5. Test de signification ............................................................................................................................... 9
6. Régression multiple ............................................................................................................................. 11
Dans ce chapitre nous allons étudier la relation entre plusieurs variables statistiques. Dans un
premier temps, nous nous intéressons à l’étude simultanée de deux variables. La régression linéaire
simple permet de quantifier la variation de la variable 𝑌 (variable dépendante) en fonction de la
variable 𝑋 (variable indépendante), et de caractériser les paramètres liant l'une à l'autre.
1. Courbe de tendance
Supposons que des mesures ont été effectuées sur un couple de variables (𝑋, 𝑌) pour avoir un
échantillon de 𝑛 observations (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = ̅̅̅̅̅
1, 𝑛. La représentation graphique de l'ensemble des
observations (𝑥𝑖 , 𝑦𝑖 ) s'appelle le nuage de points. Si le nuage de point est réparti de manière plus ou
moins régulière, on peut obtenir une courbe montrant la tendance, et dont l’équation pourrait être
déterminée. On parle alors d’ajustement.
10000
8000
6000
4000
2000
0
0 100 200 300 400 500 600 700
10000
8000
6000
4000
2000
0
0 100 200 300 400 500 600 700
Lova Zakariasy 2
Nous allons voir plus tard dans une section les détails sur le coefficient de détermination.
Commentaire : il s’agit de trouver une courbe de tendance dont la valeur R² du coefficient de détermination est
la plus proche de 1. La fonction puissance dont la formule est affichée sur le graphique, donne un coefficient de
détermination supérieur à 0,981. Par l’ajustement linéaire, le coefficient R² est seulement égal à 0,7516.
10000
8000
6000
y = -11,832x + 10206
4000 R² = 0,7516
y = 115493x-0,531
R² = 0,981
2000
0
0 100 200 300 400 500 600 700
Interprétation : L’équation de la courbe de tendance s’appelle équation estimée de la régression. Grâce à cette
équation, nous pouvons effectuer des mesures prévisionnelles du volume de vente en fonction du prix. Par
exemple, pour une offre de prix égal à 175, l’équation 𝑦̂ = 115493𝑥 −0,531 donne une quantité de vente
prévisionnelle proche de 7438 articles.
Sur un couple de variables (𝑋, 𝑌), on considère l’échantillon (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑛 , 𝑦𝑛 ). Les
paramètres usuels d’une série statistique à deux dimensions sont les moyennes et les variances de
chaque variable, ainsi que la covariance et le coefficient de corrélation.
∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑥̅ = 𝑦̅ = (1)
𝑛 𝑛
⎯ La covariance mesure la relation linéaire entre les deux variables. Elle permet d’analyser les
écarts entre les variations des deux variables autour des moyennes respectives. La covariance
est d’autant plus forte que les deux variables sont dispersées et en même temps éloignées de
la moyenne.
On calcule aisément ces paramètres sur un tableur (voir Exemple 2). S’il est indispensable de
bien connaître ces formules pour les interpréter, il est inutile de les retenir par cœur, ou pire,
les transcrire à tout-va dans la résolution d’un problème.
La méthode de l'ajustement linéaire consiste à supposer que deux variables 𝑋 et 𝑌 sont liées d’une
manière ou d’une autre par une fonction linéaire. Un nuage de points d’une allure allongée suggère
un ajustement linéaire (Figure 1). Le but de cet ajustement est de trouver les valeurs des coefficients
𝑏0 et 𝑏1 de la droite estimée de la régression d’équation :
𝑦̂ = 𝑏0 + 𝑏1 𝑥 (5)
La méthode des moindres carrés consiste à déterminer 𝑏0 et 𝑏1 tels que la somme des carrés des écarts
entre la droite d’ajustement linéaire et les points observés sont minimales :
Le calcul qui en découle permet d’établir que la droite de régression passe par le point moyen (𝑥̅ , 𝑦̅),
et de déterminer les valeurs de l’ordonnée à l’origine 𝑏0 et de la pente 𝑏1 .
𝑏0
𝑦̅ 𝑦̂ = 𝑏1 𝑥 + 𝑏0
Lova Zakariasy 4
L'ordonnée à l'origine se calcule par la formule
𝑏0 = 𝑥̅ − 𝑎𝑦̅ (7)
et la pente de la droite
Après avoir tracé le nuage de points, le tableur fournit la courbe de tendance qui s’avère être la droite de
régression. L’équation de la droite est : 𝑦 = 0,0456 + 0,0073𝑥.
16%
y = 0,0073x + 0,0456
14%
12%
10%
8%
6%
4%
2%
0%
0 2 4 6 8 10 12 14 16
Nous allons retrouver les valeurs des coefficients de la droite de régression à l’aide des fonctions statistiques
sur Excel.
Étape 1. Calculer les moyennes des valeurs de chaque variable.
Le coefficient de corrélation 𝑅 = 0,895 est relativement proche de l’unité, et indique une dépendance
linéaire entre l’effectif et la productivité.
Interprétations : La pente positive (𝑏1 = 0,0073) de l’équation, implique que lorsqu’on augmente l’effectif
d’une équipe, la productivité augmente aussi. Plus précisément, l’ajout d’une personne dans une équipe
entraîne une hausse annuelle de 0,73% de la productivité. En outre on peut se poser la question sur l’effectif
à prévoir si l’on veut fixer le gain de productivité. En d’autres termes, faire une prévision sur 𝑥 pour une valeur
de 𝑦 . Pour cela, on détermine l’équation estimée de la régression de 𝒙 en 𝒚 :
▪ 𝑥̂ = 110,01𝑦 − 3,511
Ainsi, pour obtenir un gain de productivité de 16%, il faudra au moins une équipe de 14 personnes.
ce qui représente une droite d’ordonnée à l’origine 𝑏0 = log 𝐵 et de pente 𝑏1 = log 𝐴 (Figure 9).
Le tableau ci-dessous, suivi d’un graphique, présente les variables transformées.
Tableau 3
Prix Quantité log(Prix) log(Quantité)
100 9876 2,0000 3,9946
200 7456 2,3010 3,8725
300 5183 2,4771 3,7146
400 4781 2,6021 3,6795
500 4235 2,6990 3,6269
600 3972 2,7782 3,5990
Lova Zakariasy 6
log(Quantité)
4,0500
4,0000
3,9500
3,9000
3,8500
3,8000
3,7500
3,7000
3,6500
On peut effectuer l’ajustement linéaire sur les logarithmes décimaux des deux variables, ce qui donne :
La valeur du coefficient de détermination 𝑅² = 0,981 justifie que l’ajustement exponentiel par l’équation
𝑦̂ = 115493𝑥 −0,531 est adéquat.
Si le coefficient de corrélation est particulièrement utilisé dans un ajustement linéaire, le coefficient de
détermination 𝑅 2 indique la qualité de l’ajustement pour n’importe quel modèle mathématique.
Calcul du coefficient de détermination : =COEFFICIENT.DETERMINATION (plage de Y ; plage de X).
4. Coefficient de détermination
L'écart entre la valeur observée de la variable dépendante 𝑦𝑖 et la valeur estimée 𝑦̂𝑖 est appelé le 𝑖-ème
résidu, et est égal à 𝑦𝑖 − 𝑦̂𝑖 . Celui-ci représente l’erreur commise en utilisant les valeurs ajustées 𝑦̂𝑖
pour estimer 𝑦𝑖 . La somme des carrés des résidus noté par SCRes se calcule par la formule :
La valeur de SCRes est une mesure de l’erreur commise en utilisant l’équation estimée de la
régression pour estimer les valeurs de la variable dépendante de l’échantillon.
L’écart 𝑦𝑖 − 𝑦̅ mesure l’erreur commise en utilisant la moyenne 𝑦̅ pour estimer les valeurs de 𝑌. La
somme des carrés correspondante est appelée somme des carrés totale, et est notée SCT.
▪ L’écart entre le gain de la première équipe au gain moyen est 𝑦1 − 𝑦̅ = 0,11 – 0,10 = 0,01.
▪ La somme des carrés totale est 𝑆𝐶𝑇 = 0,01049.
Pour déterminer dans quelle mesure les valeurs 𝑦̂ estimées dévient de la valeur moyenne 𝑦̅ on
calcule la somme des carrés de la régression, notée SCReg.
▪ La première régression, c’est-à-dire l’écart du gain estimé pour une équipe de 6 personnes au gain
moyen est : 𝑦̂1 − 𝑦̅ = 0,0893 – 0,101 = − 0,0117.
▪ La somme des carrés de la régression est 𝑆𝐶𝑅𝑒𝑔 = 0,0084073.
▪ On peut vérifier que 𝑆𝐶𝑅𝑒𝑔 + 𝑆𝐶𝑅𝑒𝑠 = 0,0084073 + 0,0020827 = 0,01049 = 𝑆𝐶𝑇
La somme 𝑆𝐶𝑅𝑒𝑔 peut être considérée comme la partie expliquée de la Somme des Carrés Totale, et
𝑆𝐶𝑅𝑒𝑠 comme la partie inexpliquée. L’équation estimée de la régression s’ajusterait parfaitement aux
données si l’écart 𝑦𝑖 − 𝑦̂𝑖 est nul, et par conséquent 𝑆𝐶𝑅𝑒𝑠 est égale à 0. Cela implique que le ratio
𝑆𝐶𝑅𝑒𝑔/𝑆𝐶𝑇 est égale à 1. Ce ratio, compris entre 0 et 1, est appelé coefficient de détermination et noté
par 𝑅 2. Il est utilisé pour évaluer l’adéquation de l’équation estimée de la régression aux données.
𝑆𝐶𝑅𝑒𝑔
𝑅2 =
𝑆𝐶𝑇
𝑆𝐶𝑅𝑒𝑔 0,0084073
▪ Dans notre exemple, le coefficient de détermination est 𝑅 2 = = = 0,8014
𝑆𝐶𝑇 0,01049
Lova Zakariasy 8
5. Test de signification
Dans l’exemple 2, nous avons déterminé l’équation estimée de régression linéaire 𝑦̂ = 0,0456 + 0,0073𝑥.
Cette équation se rapproche au mieux au modèle mathématique permettant de calculer le gain en
productivité en fonction du nombre de personnes par équipe. Dorénavant, elle peut être utilisée dans
n’importe quelle situation similaire aux observations. Comme l’équation a été calculée sur la base d’un
échantillon, il y a certainement une erreur induite entre le modèle théorique et l’équation estimée.
Le modèle de régression linéaire simple s’écrit :
𝑦 = 𝛽1 𝑥 + 𝛽0 + 𝜀 (13)
où 𝛽0 et 𝛽1 sont les paramètres du modèle et 𝜀 est le terme d’erreur. Le terme d’erreur est une variable
aléatoire qui prend en compte la variabilité de 𝑦 non expliquée par la relation linéaire entre 𝑥 et 𝑦.
Les paramètres 𝛽0 et 𝛽1 sont inconnus, et ses estimateurs ponctuels sont 𝑏0 et 𝑏1 , coefficients de
l’équation estimée de la régression linéaire :
𝑦̂ = 𝑏0 + 𝑏1 𝑥 (14)
Même si la valeur du coefficient de détermination est élevée, le modèle de régression linéaire ne doit
être validée qu’après avoir effectué un test de signification. En fait, la dépendance linéaire est
avérée, si le coefficient 𝛽1 n’est pas nul. Le but du test est donc d’utiliser les données d’échantillon
pour conclure si 𝛽1 ≠ 0. Pour réaliser le test de signification, nous avons besoin de l’erreur type de
l’estimation 𝑠 et de l’écart-type estimé de 𝑏1 .
Si on développe chaque valeur 𝑦̂𝑖 = 𝑏𝑜 + 𝑏1 𝑥𝑖 , la somme des carrés des résidus peut s’écrire :
Si 𝑛 est la taille de l’échantillon considéré, la moyenne des carrés des résidus (𝑀𝐶𝑅𝑒𝑠) est calculée en
divisant 𝑆𝐶𝑅𝑒𝑠 par 𝑛 − 2 (degrés de libertés). Elle fournit une estimation sans biais de la variance de
l’erreur 𝜀.
𝑆𝐶𝑅𝑒𝑠
𝑠 2 = 𝑀𝐶𝑅𝑒𝑠 = (16)
𝑛−2
√𝑆𝐶𝑅𝑒𝑠 (17)
𝑠 = √𝑀𝐶𝑅𝑒𝑠 =
𝑛−2
Le test de signification de Student pour une régression linéaire simple se formule comme suit :
𝐻0 : 𝛽1 = 0
𝐻𝑎 : 𝛽1 ≠ 0.
𝑏1
La statistique de test est 𝑡 = .
𝑠𝑏1
probabilité d’une loi de Student à 𝑛 − 2 degrés de liberté. Si à l’issue du test on rejette 𝐻0 , on conclut
que 𝛽1 ≠ 0 et que la relation est statistiquement significative. Si on ne peut pas rejeter 𝐻0 , les preuves
statistiques sont insuffisantes pour conclure une relation significative.
𝑏 0,0073
▪ Partant de l’exemple précédent, la valeur de la statistique de test est 𝑡 = 𝑠 1 = 0,001282 = 5,682764
𝑏1
Lova Zakariasy 10
6. Régression multiple
Si on reprend l’exemple 2, sachant la valeur du coefficient de détermination, on peut dire que 80% des gains
en productivité peut s’expliquer par la relation linéaire avec l’effectif de l’équipe. Seule la variable « nombre
de personnes par équipe » n’explique pas les gains de productivité. En fait, la productivité dépend de plusieurs
facteurs comme la durée du travail, la performance des machines, et bien d’autres.
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑝 𝑥𝑝 + 𝜀 (19)
Dans cette équation 𝛽0 , 𝛽1 , … , 𝛽𝑝 sont les paramètres de la population et 𝜀 est le terme d’erreur. Le
terme d’erreur est une variable aléatoire qui prend en compte la variabilité de 𝑦 non impactée par
les variables explicatives. Les valeurs des paramètres 𝛽0 , 𝛽1 , … , 𝛽𝑝 sont inconnus. On utilise un
échantillon aléatoire simple pour trouver leurs estimateurs ponctuels respectifs 𝑏0 , 𝑏1 , 𝑏2 , … , 𝑏𝑝 , qui
sont les coefficients de l’équation estimée de la régression linéaire :
𝑦̂ = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + ⋯ + 𝑏𝑝 𝑥𝑝 (20)
Les valeurs afférentes à la régression multiple (et même simple) peuvent être calculées
automatiquement sur EXCEL avec la fonction DROITEREG. Celle-ci calcule les statistiques
d’une régression linéaire par la méthode des moindres carrés, dans le but de déterminer la droite
d’ajustement. Les résultats sont donnés sous la forme d’une matrice.
𝒃𝒑 𝒃𝒑−𝟏 … 𝒃𝟐 𝒃𝟏 𝒃𝟎 Coefficients
𝑠𝑏𝑝 𝑠𝑏𝑝−1 … 𝑠𝑏2 𝑠𝑏1 𝑠𝑏0 Erreur type des coefficients
𝑹² 𝑠𝑦 Coefficient de détermination ; Erreur type de la valeur estimée
F D.L. Statistique de Fisher ; Degré de liberté
𝑆𝐶𝑅𝑒𝑔 𝑆𝐶𝑅𝑒𝑠 Somme des carrés de régression ; somme des carrés des résidus
Résultat :
0,0006 0,0048 -0,0168
0,0001 0,0009 0,0153
0,9477 0,0088
63,4793 7
0,0099 0,0005
L’équation estimée de la régression exprimant les gains en productivité en fonction des nombres de
personnes par équipe et de la performance des machines est :
Lova Zakariasy 12