Anal-données-M1-CORRELATION ET REGRESSION LINEAIRE

CHAPITRE 5 CORRELATION ET REGRESSION LINEAIRE
Objectifs :


I- CORRELATION LINEAIRE
A- Objectifs et position du problème

Soient 𝑋 et 𝑌 deux variables quantitatives définies dans une population. Il s’agit de :
 Déterminer s'il existe une relation entre 𝑋 et .

 Caractériser la forme de la liaison (la relation) entre 𝑋 et 𝑌 (positive ou négative…).
 Tester si la liaison est statistiquement significative.
 Quantifier l'intensité de la liaison.
 Valider la liaison identifiée. Est-ce qu'elle n'est pas le fruit d'un simple artefact ?
Il est à signaler que la position des variables est symétrique dans ce cadre. On ne veut pas
évaluer l'influence d'une des variables sur l'autre, à la différence de la régression.
B- Covariance
1. Objet et définition
L'objectif de la covariance est de quantifier la liaison entre deux variables 𝑋 et 𝑌, de manière à
mettre en évidence le sens de la liaison et son intensité. La covariance de 𝑋 et 𝑌 est définie par :
𝟏
𝑪𝒐𝒗(𝑿, 𝒀) = 𝑵 ∑𝒊 ∑𝒋 𝒏𝒊𝒋 [𝒙𝒊 − 𝑿][𝒚𝒋 − 𝒀], ou encore :
𝑪𝒐𝒗 (𝑿, 𝒀) = 𝑬[ 𝑿 − 𝑬(𝑿) 𝒀 − 𝑬(𝒀) ]
𝑪𝒐𝒗 (𝑿, 𝒀) = 𝑿. 𝒀 − 𝑿. 𝒀 , ou encore 𝑪𝒐𝒗 (𝑿, 𝒀) = 𝑬(𝑿. 𝒀) − 𝑬(𝑿). 𝑬(𝒀)
2. Propriétés
 𝐶𝑜𝑣(𝑋, 𝑌) > 0 : lorsque 𝑋 est plus grand que son espérance, 𝑌 a tendance à l'être
également.
 𝐶𝑜𝑣(𝑋, 𝑌) = 0 : absence de relation monotone.
 𝐶𝑜𝑣(𝑋, 𝑌) < 0 : lorsque X est plus grand que son espérance, Y a tendance à être plus
petit que sa propre espérance.
Corrélation & régression linéaire Henri NDAME MAKEMBE Page 1 sur 7

 La covariance d'une variable avec elle-même est la variance.
 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑌, 𝑋) : symétrie.
 𝐶𝑜𝑣 (𝑋, 𝑌 + 𝑍) = 𝐶𝑜𝑣 (𝑋, 𝑌 ) + 𝐶𝑜𝑣 (𝑋, 𝑍) : distributivité.
 𝐶𝑜𝑣(𝑋, 𝑎) = 0.
 𝐶𝑜𝑣 (𝑋, 𝑎 + 𝑏 × 𝑌 ) = 𝑏 × 𝐶𝑜𝑣 (𝑋, 𝑌 ).
 𝑋, 𝑌 indépendants ⇒𝐶𝑜𝑣 (𝑋, 𝑌 ) = 0 (mais la réciproque est généralement fausse).
C- Coefficient de corrélation de Pearson
1. Définition
Ce coefficient de corrélation constitue une mesure de l'intensité de liaison linéaire entre
variables. Il est défini par :
𝐶𝑜𝑣(𝑋, 𝑌)
𝑟 =
𝜎 .𝜎
2. Propriétés
 𝑟 est du même signe que 𝐶𝑜𝑣 (𝑋, 𝑌 ).
 X et Y sont indépendants, alors r = 0. La réciproque est fausse.
 La corrélation d'une variable avec elle-même est égale à 1.
3. Test de significativité du coefficient de corrélation linéaire

Soient 𝑋 et 𝑌 deux variables quantitatives définies dans une population, et 𝜌 leur coefficient
de corrélation linéaire dans la population. Nous supposons 𝜌 inconnu, et que l’on désire tester
sa significativité. Pour cela :
- On calcule le coefficient de corrélation empirique 𝑟 , sur la base d’un échantillon de 𝑛

observations prélevé dans la population.
- On teste, au risque α, 𝐻 : 𝜌 = 0 contre 𝐻 : 𝜌 ≠ 0
- On calcule la statistique du test :
𝑟
𝑡 =
1−𝑟
𝑛−2
On rejette 𝐻 au risque α si 𝑡 𝑛 𝑎𝑝𝑝𝑎𝑟𝑡𝑖𝑒𝑛𝑡 𝑝𝑎𝑠 à −𝑡 ; 𝑡
II- REGRESSION LINEAIRE SIMPLE

A- Modèle considéré
Le modèle considéré permet est une relation dans laquelle une seule variable, appelée variable
exogène ou explicative, permet d’expliquer une autre variable, la variable endogène ou variable
à expliquer.
 𝒚𝒕 = 𝒂𝟎 + 𝒂𝟏 𝒙𝒕 + 𝜺𝒕 , 𝑝𝑜𝑢𝑟 𝑡 = 1, 2, … , 𝑛.
Dans cette équation, 𝑦 𝑒𝑡 𝑥 représentent respectivement la variable endogène au temps t et la

variable exogène au temps t ; 𝜀 est l’erreur de spécification, c’est – à – dire la différence entre
le modèle vrai et le modèle spécifié ; 𝑎 𝑒𝑡 𝑎 sont les paramètres ou coefficients du modèle, et
n est le nombre d’observations.
 𝒚𝒊 = 𝒂𝟎 + 𝒂𝟏 𝒙𝒊 + 𝜺𝒊 , 𝑝𝑜𝑢𝑟 𝑖 = 1, 2, … , 𝑛.
Dans la dernière spécification, les données sont observées au même instant et concernent les
valeurs prises par la variable pour un groupe d’individus spécifique.
B- Hypothèses et estimation des coefficients
Pour obtenir les estimateurs sans biais et convergents des paramètres du modèle, la méthode
utilisée lorsque certaines hypothèses sont vérifiées est celle des moindres carrés ordinaires
(MCO). Ces hypothèses sont les suivantes.
1. Hypothèses du modèle
2. Estimateurs des paramètres
∑( ̅ )( ) ∑ ̅
𝑎 = ∑( ̅)
= ∑ ̅
et 𝑎 = 𝑦 − 𝑎 𝑥̅ .
Remarque : on a alors : 𝑦 = 𝑎 + 𝑎 𝑥 , et le modèle ainsi estimé s’écrit :
𝑦 = 𝑎 + 𝑎 𝑥 + 𝑒 , 𝑎𝑣𝑒𝑐 𝑒 = 𝑦 − 𝑦

C- Analyse de la variance
1. Equation de décomposition (ou d’analyse) de la variance
On considère le modèle linéaire de régression simple 𝑦 = 𝑎 + 𝑎 𝑥 + 𝜀 , 𝑡 = 1, 2, … , 𝑛.
En posant 𝑆𝐶𝑇 = ∑(𝑦 − 𝑦) ; 𝑆𝐶𝐸 = ∑(𝑦 − 𝑦) ; 𝑆𝐶𝑅 = ∑ 𝑒 , l’équation de décomposition

de la variance s’écrit :
𝑺𝑪𝑻 = 𝑺𝑪𝑬 + 𝑺𝑪𝑹.

En d’autres termes, la somme des carrés totale (ou variabilité totale) est égale à la somme des
carrés expliquée (ou variabilité expliquée) plus la somme des carrés résiduelle (ou variabilité
résiduelle).
Cette équation permet de juger de la qualité de l’ajustement du modèle. En effet, plus la
variabilité expliquée est proche de la variabilité totale, plus l’ajustement linéaire considéré est
de bonne qualité. Cela s’aperçoit clairement par le calcul du coefficient de détermination.
2. Coefficient de détermination
𝑺𝑪𝑬 𝑺𝑪𝑹
𝒓𝟐 = 𝑺𝑪𝑻 = 𝟏 − 𝑺𝑪𝑻.
Plus ce coefficient est voisin de 1, meilleur est la qualité de l’ajustement considéré.
Remarque :𝑟 = ±√𝑟 est le coefficient de corrélation linéaire simple entre les deux variable en
présence ; il est du signe de 𝑎 , et l’ajustement considéré est d’autant meilleur que sa valeur
absolue est voisine de 1.
3. Tableau d’analyse de la variance

Source de variation Somme des carrés Degré de liberté Carrés moyens
Exogène 𝑆𝐶𝐸 𝟏 𝑺𝑪𝑬/𝟏
Résidu 𝑆𝐶𝑅 𝑛−2 𝑆𝐶𝑅/(𝑛 − 2)
Total 𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅 𝑛−1
D- Quelques tests portant sur le modèle

1. Test de significativité de 𝒂𝟏
- On teste, au risque α, 𝐻 : 𝑎 = 0 contre 𝐻 : 𝑎 ≠ 0
𝑡 = , où 𝜎 = ∑( )
=∑
On rejette 𝐻 au risque α si 𝑡 𝑛 𝑎𝑝𝑝𝑎𝑟𝑡𝑖𝑒𝑛𝑡 𝑝𝑎𝑠 à −𝑡 ;𝑡

2. Test de significativité du modèle
- On teste, au risque α, 𝐻 : 𝑆𝐶𝐸 = 0 contre 𝐻 : 𝑆𝐶𝐸 ≠ 0
𝑆𝐶𝐸/1
𝐹 =
𝑆𝐶𝑅/(𝑛 − 2)
- On rejette l’hypothèse nulle si 𝐹 > 𝐹 à 1 𝑒𝑡 (𝑛 − 2)𝑑𝑑𝑙.
E- Prévision de la variable endogène
Modèle considéré :
𝒚𝒕 = 𝒂𝟎 + 𝒂𝟏 𝒙𝒕 + 𝜺𝒕 , 𝑝𝑜𝑢𝑟 𝑡 = 1, 2, … , 𝑛.
Soit 𝜃 une période ultérieure.
 Prévision ponctuelle : 𝒚𝜽 = 𝒂𝟎 + 𝒂𝟏 𝒙𝜽
 Variance estimée de l’erreur de prévision :
1 (𝑥 − 𝑥̅ )
𝜎 =𝜎 1+ +
𝑛 ∑(𝑥 − 𝑥̅ )
 Intervalle de confiance au risque 𝛼 pour 𝑦 :
Exercice 1
On fait une étude statistique sur dix sites de commerce électronique, dans le but de sonder sur
une semaine le nombre de visiteurs et le nombre de commandes. On obtient le tableau suivant :
Site (𝑖) 1 2 3 4 5 6 7 8 9 10
Nombre de 80 100 115 110 70 125 105 93 110 95
connexions
(𝑥 )
Nombre de 32 50 62 56 8 80 62 53 62 38
commandes
(𝑦 )
1- Calculer le coefficient de corrélation linéaire entre les deux variables.
2- Tester la significativité de ce coefficient.
3- Spécifier le modèle linéaire de régression simple dans lequel le nombre de connexions
permettrait d’expliquer le nombre de commandes.

4- Calculer les estimations des coefficients du modèle du modèle spécifié.
5- Quel serait le nombre de commandes si 150 connexions étaient observées. On en
construira un intervalle de confiance au niveau 95%.
6- Tester, au risque 5%, la significativité du modèle.
Exercice 2
L’entreprise OMEGA a relevé l’évolution de son chiffre d’affaires et de son effectif (salariés),
et a ainsi dressé le tableau suivant :
Année Nombre de salariés (X) CA annuel (Y) en millions

d’unités monétaires
2011 300 240
2012 303 270
2013 320 290
2014 313 310
2015 320 340
2016 327 400
2017 335 460
2018 340 510
On aimerait vérifier, par un modèle de régression linéaire, si l’effectif des salariés permet
d’expliquer le chiffre d’affaires de l’entreprise.
1- Spécifier le modèle linéaire correspondant à ce problème.
2- Estimer les paramètres du modèle.
3- Calculer la série des résidus.
4- Ecrire l’équation d’analyse de la variance et en calculer les valeurs. En déduire le
tableau d’analyse de la variance.
5- Tester la significativité du modèle au risque 5%.
6- On sait qu’en 2020, cette entreprise comptera 375 salariés. En déduire le chiffre
d’affaires prévisionnelle pour 2020, assortie de son intervalle de confiance au risque
5%.
Exercice 3
On a relevé chaque année, pendant 7 ans, les frais d’assurance maladie dépensés par une
entreprise, ainsi que l’effectif des employés de cette entreprise. Les responsables de cette
entreprise pensent que les frais d’assurance maladie s’expliquent par l’effectif du personnel, et
estiment pouvoir justifier cela par une droite de régression où la variable endogène y représente
les frais annuels d’assurance maladie tandis que la variable exogène x est l’effectif du personnel
de chaque année.
On donne les informations suivantes (y est exprimé en millions d’unités monétaires):
∑ 𝑥 𝑦 = 184500 ; ∑ 𝑦 = 26350 ; ∑ 𝑥 = 1400000 ; 𝑌 = 60 ; 𝑋 = 400 ; 𝑛 = 7
1- Ecrire le modèle linéaire correspondant.
2- Estimer les coefficients du modèle.
3- Calculer le coefficient de corrélation linéaire entre le deux variables.

4- Construire le tableau d’analyse de la variance.
5- On sait que cette entreprise comptera 440 employés à la huitième année. En déduire,
pour cette huitième année.
6- La prévision ci-dessus est – elle fiable (au risque 5%) ?

Anal-données-M1-CORRELATION ET REGRESSION LINEAIRE

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Anal-données-M1-CORRELATION ET REGRESSION LINEAIRE

Transféré par

Droits d'auteur :

Formats disponibles

CHAPITRE 5 CORRELATION ET REGRESSION LINEAIRE

A- Objectifs et position du problème

 Déterminer s'il existe une relation entre 𝑋 et .

𝑪𝒐𝒗 (𝑿, 𝒀) = 𝑬[ 𝑿 − 𝑬(𝑿) 𝒀 − 𝑬(𝒀) ]

𝑪𝒐𝒗 (𝑿, 𝒀) = 𝑿. 𝒀 − 𝑿. 𝒀 , ou encore 𝑪𝒐𝒗 (𝑿, 𝒀) = 𝑬(𝑿. 𝒀) − 𝑬(𝑿). 𝑬(𝒀)

 𝐶𝑜𝑣(𝑋, 𝑌) = 0 : absence de relation monotone.

Corrélation & régression linéaire Henri NDAME MAKEMBE Page 1 sur 7

 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑌, 𝑋) : symétrie.

 𝐶𝑜𝑣 (𝑋, 𝑌 + 𝑍) = 𝐶𝑜𝑣 (𝑋, 𝑌 ) + 𝐶𝑜𝑣 (𝑋, 𝑍) : distributivité.

 𝐶𝑜𝑣 (𝑋, 𝑎 + 𝑏 × 𝑌 ) = 𝑏 × 𝐶𝑜𝑣 (𝑋, 𝑌 ).

 𝑋, 𝑌 indépendants ⇒𝐶𝑜𝑣 (𝑋, 𝑌 ) = 0 (mais la réciproque est généralement fausse).

C- Coefficient de corrélation de Pearson

 X et Y sont indépendants, alors r = 0. La réciproque est fausse.

 La corrélation d'une variable avec elle-même est égale à 1.

3. Test de significativité du coefficient de corrélation linéaire

- On calcule le coefficient de corrélation empirique 𝑟 , sur la base d’un échantillon de 𝑛

II- REGRESSION LINEAIRE SIMPLE

Corrélation & régression linéaire Henri NDAME MAKEMBE Page 2 sur 7

Dans cette équation, 𝑦 𝑒𝑡 𝑥 représentent respectivement la variable endogène au temps t et la

B- Hypothèses et estimation des coefficients

2. Estimateurs des paramètres

Remarque : on a alors : 𝑦 = 𝑎 + 𝑎 𝑥 , et le modèle ainsi estimé s’écrit :

Corrélation & régression linéaire Henri NDAME MAKEMBE Page 3 sur 7

1. Equation de décomposition (ou d’analyse) de la variance

On considère le modèle linéaire de régression simple 𝑦 = 𝑎 + 𝑎 𝑥 + 𝜀 , 𝑡 = 1, 2, … , 𝑛.

En posant 𝑆𝐶𝑇 = ∑(𝑦 − 𝑦) ; 𝑆𝐶𝐸 = ∑(𝑦 − 𝑦) ; 𝑆𝐶𝑅 = ∑ 𝑒 , l’équation de décomposition

𝑺𝑪𝑻 = 𝑺𝑪𝑬 + 𝑺𝑪𝑹.

Plus ce coefficient est voisin de 1, meilleur est la qualité de l’ajustement considéré.

3. Tableau d’analyse de la variance

D- Quelques tests portant sur le modèle

On rejette 𝐻 au risque α si 𝑡 𝑛 𝑎𝑝𝑝𝑎𝑟𝑡𝑖𝑒𝑛𝑡 𝑝𝑎𝑠 à −𝑡 ;𝑡

Corrélation & régression linéaire Henri NDAME MAKEMBE Page 4 sur 7

- On rejette l’hypothèse nulle si 𝐹 > 𝐹 à 1 𝑒𝑡 (𝑛 − 2)𝑑𝑑𝑙.

E- Prévision de la variable endogène

Soit 𝜃 une période ultérieure.

 Variance estimée de l’erreur de prévision :

 Intervalle de confiance au risque 𝛼 pour 𝑦 :

Corrélation & régression linéaire Henri NDAME MAKEMBE Page 5 sur 7

Année Nombre de salariés (X) CA annuel (Y) en millions

Corrélation & régression linéaire Henri NDAME MAKEMBE Page 6 sur 7

Corrélation & régression linéaire Henri NDAME MAKEMBE Page 7 sur 7

Vous aimerez peut-être aussi