Vous êtes sur la page 1sur 4

Chapitre-III : Corrélation et Ajustement linéaires

I. Données

• On étudie dans ce chapitre un couple de variables statistiques quantitatives.


• On suppose que chaque valeur du couple n’apparaît qu’une seule fois.
• Les observations sont noté (x1, y1), (x2, y2), ….,(xN, yN).
• Exemple type:
Une entreprise de conserverie étudie l’impacte de la publicité sur le marché. Elle
enregistre sur 5 régions les ventes en milliers de boites de conserve (variable Y) et
les frais de publicité (variable X) en milliers de dirhams.

Région 1 2 3 4 5
X : Frais de publication x1 x2 x3 x4 x5
(1000 Dh) 5 6 9 12 18
Y : Vente y1 y2 y3 y4 y5
(1000 boites) 27 32 31 40 65

II. Nuage de points :


• Idée : mettre sur un même graphique les observations de Y en fonction de celles de
X (ou l’inverse). Chaque point est un (xi, yj)

III. Le coefficient de corrélation linéaire


§ Le tracé du nuage de points met en évidence la possibilité de "reconnaître"
graphiquement la possibilité d’une relation linéaire entre les deux variables
observées. Pour déterminer l’intensité de la corrélation entre la variable X et
la variable Y on calcul le coefficient de corrélation linéaire.
§ Définition (covariance): On appelle la covariance de X et de Y la quantité
notée par Cov(X, Y) ou 𝜎!" et qui est donnée par
1
! !
1 !!! 𝑥! 𝑦!
𝜎!" = (𝑥! − 𝜇! ) (𝑦! − 𝜇! ) = − 𝜇! 𝜇! = 𝜇!" − 𝜇! 𝜇!
𝑁 𝑁
!!!

§ Définition (coefficient de corrélation) : Le coefficient de corrélation


linéaire entre la variable X et la variable Y est défini par :

𝜎!"
𝜌=( )
𝜎! . 𝜎!
§ Propriétés :
§ −1 ≤ 𝜌 ≤ 1
,m

Corrélation linéaire Négative Positive


Faible de -0.5 à 0.0 de 0.0 à 0.5
Moyenne de -0.8 à -0.5 de 0.5 à 0.8
Forte de -1.0 à -0 fda`x t 0.8 de 0.8 à 1.0
§

§ Remarque:
§ le coefficient de corrélation indique uniquement une dépendance
linéaire. D'autres phénomènes, par exemple, peuvent être corrélés de
manière exponentielle.
§ Une erreur courante est de croire qu'un coefficient de corrélation élevé
induit une relation de causalité entre les deux phénomènes mesurés.

§ Calcul du coefficient de corrélation

Région xi yi xi ² yi ² xi yi
1 5 27 25 729 135
2 6 32 36 1024 192
3 9 31 81 961 279
4 12 40 144 1600 480
5 18 65 324 4225 1170
Total 50 195 610 8539 2256
§
2
!" !"#
§ 𝜇! = = 10 𝜎!! = − 10! = 22
! !
!"# !"#$
§ 𝜇! = = 39 𝜎!! = − 39! = 186,8
! !
!!"#
§ 𝜎!" = − 10 ∗ 39 = 61,2
!
!",!
§ 𝜌= = 0,96
!!×!"#,!
§ Il y a une forte corrélation linéaire positive entre les ventes et les frais
de publicité.

IV. Ajustement linéaire

• Principe :
§ S’il y a une forte corrélation linéaire entre les deux variables, on cherche alors
à faire un:
§ Ajustement linéaire: trouver la droite la plus « fidèle » au nuage de points.

§
• Comment (méthode des moindres carrées) : On cherche une droite d’équation telle
que la somme des écarts en tirets « aux carrées » est minimale. La droite vérifiant
cette propriété est appelée droite de régression de Y en fonction de X.

• Droite de régression de Y en fonction X.


§ La droite de régression de Y en fonction de X est donnée par l’équation
suivante:

𝑌 = 𝑎𝑋 + 𝑏.
avec

3
𝜎!"
𝑎=      𝑒𝑡   𝑏 = 𝜇! − 𝑎𝜇!
𝜎!!

• Calcul :

Région xi yi xi ² yi ² xi yi
1 5 27 25 729 135
2 6 32 36 1024 192
3 9 31 81 961 279
4 12 40 144 1600 480
5 18 65 324 4225 1170
Total 50 195 610 8539 2256

!" !"#
§ 𝜇! = !
= 10 𝜎!! = !
− 10! = 22
!"# !"#$
§ 𝜇! = !
= 39 𝜎!! = !
− 39! = 186,8
!!"#
§ 𝜎!" = !
− 10 ∗ 39 = 61,2
!",!
§ 𝑎= !!
= 2,78  𝑒𝑡  𝑏 = 39 − 2,78 ∗ 10 = 11,2
§
La droite de régression des ventes Y (en 1000 boites) en fonction
des frais de publicité X (en 1000 Dh) est donnée par l’équation
suivante:
𝑌 = 2,78×𝑋 + 11,2.

V. Application : Faire des prévisions

• Sur une sixième région, si on dépense X=12 (en 1000 Dh), estimer combien on
peut vendre (en 1000 boites).

Vous aimerez peut-être aussi