Vous êtes sur la page 1sur 33

Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation

Statistique Descriptive
Chapitre II : Ajustement linéaire, régression
et corrélation

Enseignant : Ragbi Aziz

Session universitaire : Automne-Hiver 2020-2021


1er Semestre

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

1 Chapitre II : Les distributions à deux caractères : Ajustement linéaire,


régression et corrélation
Diagramme de dispersion
Notion de régression
Régression linéaire simple
Corrélation
Le coe¢ cient de corrélation linéaire
Le rapport de corrélation
Statistique Descriptive Enseignant : Ragbi Aziz
Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Chapitre II : Ajustement linéaire, régression


et corrélation

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Introduction

Quatre notions peuvent caractériser la relation entre deux variables


statistiques :

1 Sens de la relation : la notion de covariance permet d’étudier le sens de la


relation ;
2 Nature de la relation : le diagramme de dispersion permet de caractériser
la nature de la relation ;
3 Intensité de la relation : la notion de corrélation permet de mesurer
l’intensité de la relation ;
4 Ajustement d’un modèle : la notion de régression permet d’ajuster un
modèle mathématique en fonction de la nature de la relation ;

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Diagramme de dispersion

De…nition
Le diagramme de dispersion d’une variable Y en fonction d’une autre
variable X est formé des points moyens conditionnels (xi, yi), et donne une
idée de la façon dont varie, en moyenne, la variable Y en fonction de la
variable X.
De façon analogue, on dé…nit le diagramme de régression de X en
fonction de Y.

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Exemple

Example
Les notes de mathématiques (X) et de statistique (Y)
obtenues de 12 étudiants.

N 1 2 3 4 5 6 7 8 9 10 11 12
xi 11 14 09 12 10 06 15 12 10 10 08 13
yi 10 15 11 11 09 08 14 13 11 12 10 12

Tracer le diagramme de dispersion ?

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Notion de régression

La courbe obtenue à partir du diagramme de dispersion est appelée la


courbe d’ajustement ;
La régression est une méthode statistique qui permet de déterminer
l’équation de la courbe d’ajustement ;
La régression peut être simple (deux variables statistique) ou multiple
(plusieurs variables) ;

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Régression linéaire simple

Si le nuage de points obtenus dans le diagramme de dispersion ressemble


à une droite, la relation est dite linéaire et on peut ajuster une droite
d’équation :
Y = aX + b (1)
La variable X est dite variable explicative ou variable indépendante. La
variable Y est dite variable à expliquer ou variable dépendante ;
La régression linéaire permet de déterminer la droite qui s’ajuste au mieux
aux valeurs observées ;
Cette droite est appelée droite de régression de Y en fonction de X ;

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Comment déterminer la droite de régression

De…nition
La méthode la plus utilisée est la méthode des moindres carrés (MMC).
b = f (x ) qui
Le problème d’ajustement consiste à trouver une fonction y
corresponde le plus exactement possible aux données de la série
statistique.
La MCO est une méthode d’ajustement qui consiste à minimiser la somme
des carrés des di¤érences entre les valeurs observées, yi , et les valeurs
bi par l’équation de la droite de régression :
estimées, y

ybi = axi + b (2)

La di¤érence entre la valeur observée yi et la veleur ajustée est un écart


ou un résidu, noté ε.

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Comment déterminer la droite de régression

De…nition
Il s’agit de déterminer les constantes a et b telle que l’expression
∑(yi ybi )2 soit minimum.
Avec ybi = axi + b
a est appelée coe¢ cient de régression linéaire ou pente de la droite de
régression, il mesure la variation de la variable dépendante lorsque la
variable indépendante varie d’une unité.
b est appelée ordonnée à l’origine, il correspond à la valeur de la variable
dépendante pour une valeur nulle de la variable indépendante.

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Comment déterminer la droite de régression

Soit la fonction :
f (a, b ) = ∑(yi ybi )2 (3)
f (a, b ) est minimum lorsque les dérivées partielles de f (a, b ) par rapport à a
et à b sont nulles.

df df
=0 et =0 (4)
da db
n
df
= 2 ∑ xi (yi axi b) (5)
da i =1
n
df
= 2 ∑ ( yi axi b) (6)
db i =1

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Comment déterminer la droite de régression

Il su¢ t de résoudre ce système d’équations à 2 inconnues a et b ;


La droite de régression de Y en fonction de X , selon la méthode des
moindres carrés est la droite d’équation :
Y = ax + b telle que :

COV (X , Y )
a= et b = y ax (7)
Sx2

Comme la droite de régression de Y en fonction de X , la droite de


régression de X en fonction de Y est la droite d’équation :
X = a0Y + b 0 telle que :

COV (X , Y )
a0 = et b0 = x a0 y (8)
SY2

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Example
n xi yi
1 11 10
2 14 15
3 09 11
4 12 11
5 10 09
6 06 08
7 15 14
8 12 13
9 10 11
10 10 12
11 08 10
12 13 12
N 130 136

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Solution
n xi yi xi2 yi2 yi xi ybi yi ybi
1 11 10 121 100 110 11,44 -1,44
2 14 15 196 225 210 13,45 1,55
3 09 11 81 121 99 10,10 0,90
4 12 11 144 121 132 12,11 -1,11
5 10 09 100 81 90 10,77 -1,77
6 06 08 36 64 48 08,09 -0,09
7 15 14 225 196 210 14,12 -0,12
8 12 13 144 169 156 12,11 0,89
9 10 11 100 121 110 10,77 0,23
10 10 12 100 144 120 10,77 1,23
11 08 10 64 100 80 09,43 0,57
12 13 12 169 144 156 12,78 -0,78
N 130 136 1480 1586 1521 136 0

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Solution
∑12 12 12 2 12 2
i =1 xi = 130 ∑i =1 yi = 136 ∑i =1 xi = 1480 ∑i =1 yi = 1586
∑12
i =1 xi yi = 1521 x = 130
12 = 10, 83
p
y = 136
12 = 11, 33
2
Sx = 12 1480 2
10, 83 = 6, 04 Sx = 6, 04 = 2, 46
p
Sy2 = 1586
12 11, 332 = 3, 8 Sy = 3, 8 = 1, 95
cov (X , Y ) = n1 ∑ni=1 xi yi xy = 1521
12 10, 83 11, 33 = 4, 05

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Solution
Connaissant la note de mathématique d’un étudiant, on peut estimer sa note
de statistique par la droite d’équation :
Y = ax + b telle que :
COV (X ,Y )
a= S x2
= 4,05
6,04 = 0, 67
b = y ax = 11, 33 0, 67 10, 83 = 4, 07
ybi = 0, 67xi + 4, 07

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Solution
Connaissant la note de statistique d’un étudiant, on peut estimer sa note de
mathématique par la droite d’équation :
X = a0 Y + b 0 telle que :
COV (X ,Y ) 4,05
a0 = S y2
= 3,8 = 1, 07
b0 = x a0 y = 10, 83 1, 07 11, 33 = 1, 29
b
xi = 1, 07xi 1, 29

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

2- La corrélation

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

1- Moyenne d’une somme de deux variables statistiques

X +Y = X +Y (9)
8a, b, c 2 R ax + by + c = ax + by + c (10)

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

2- Covariance entre deux variables statistiques

De…nition
La covariance de deux variables statistiques est la moyenne arithmétique des
produits des di¤érences des observations par rapport à leur moyenne ;

1- Cas d’une série statistique double :

x1 , x2 , x3 , . . . . . . xi , ......, xn
y1 , y2 , y3 , . . . . . . yi , ......, yn
n n
1 1
cov (X , Y ) =
n ∑ ( xi x )(yi y) =
n ∑ xi yi xy (11)
i =1 i =1

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

2- Covariance entre deux variables statistiques

2- Cas de données groupées dans un tableau de contingence (covariance


pondérée) :

X possède k modalités : x1 , x2 , x3 , . . . . . . xi , ......, xk


Y possède p modalités : y1 , y2 , y3 , . . . . . . yj , ......, yp
k l
cov (X , Y ) = ∑ ∑ fi /j (xi x )(yj y) (12)
i =1 i =1
k l n
= ∑ ∑ fi / j ∑ xi yj xy
i =1 i =1 i =1
∑i =1 ∑li =1
k
nij (xi x )(yj y)
=
n

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Covariance entre deux variables statistiques

1 Propriétés de la covariance

cov (X , Y ) = cov (Y , X ) (13)


cov (X , X ) = var (X ) (14)
var (X + Y ) = var (X ) + var (Y ) + 2cov (X , Y ) (15)

2 Interprétation
La relation entre deux variables statistiques est croissante ou décroissante, c’est
à dire selon que les valeurs élevées d’une série correspondent aux valeurs
élevées de l’autre ou l’inverse, selon que la covariance est positive ou négative.

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

3- Corrélation

Quand il s’agit de mettre en évidence le lien qui peut exister entre deux
variables quantitatives X et Y on utilise le coe¢ cient de corrélation
linéaire ρxy .
Mais lorsqu’il s’agit de déterminer le degré de liaison entre une variable
qualitative X et une autre quantitative Y , on choisit dans ce cas le
rapport de corrélation η Y /X .
Cette corrélation est détectée à l’aide d’un autre moyen le khi deux χ si
les variables sont toutes les deux qualitatives.

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Le coe¢ cient de corrélation linéaire

De…nition
On appelle coe¢ cient de corrélation linéaire entre deux variables
statistiques X et Y, le rapport de leur covariance par le produit de leurs
écarts-types ρ ;
ρ a pour objet de mesurer l’intensité de la liaison linéaire entre deux
variables statistiques X et Y :

cov (X , Y )
ρ(X ,Y ) = (16)
σ (X ) σ (Y )

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Le coe¢ cient de corrélation linéaire

cas de données groupées :

∑ki=1 ∑li =1 nij (xi x )(yj y)


ρ(X ,Y ) = q (17)
∑ki=1 ni (xi x )2 ∑li =1 n j (yj y )2
Cas de Données individuelles

∑ni=1 (xi x )(yi y)


r(X ,Y ) = q ;n = k (18)
∑ni=1 (xi x )2 ∑ni=1 (yi y )2

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Interprétation

Ce coe¢ cient est compris entre -1 et 1 :

1 r = 1 : dans ce cas les points se trouvent tous sur une même droite
croissante, on parle de corrélation linéaire positive parfaite.
2 r= 1 : dans ce cas les points se trouvent tous sur une même droite
décroissante, on parle de corrélation linéaire négative parfaite.
3 r = 0 : dans ce cas il n’y a aucune dépendance linéaire entre les deux
variables, on parle de corrélation linéaire nulle.
4 1 < r < 0 : dans ce cas les deux variables varient en sens inverse, la
relation linéaire est faible ou forte selon que le coe¢ cient de corrélation
linéaire est proche de 0 ou -1.

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Example
Les notes de mathématiques (X) et de statistique (Y)
obtenues de 12 étudiants.

N 1 2 3 4 5 6 7 8 9 10 11 12
xi 11 14 09 12 10 06 15 12 10 10 08 13
yi 10 15 11 11 09 08 14 13 11 12 10 12

Calculer la corrélation entre x et y

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Solution

∑12 12 12 2 12 2
i =1 xi = 130 ∑i =1 yi = 136 ∑i =1 xi = 1480 ∑i =1 yi = 1586
∑12
i =1 xi yi = 1521 x = 130
12 = 10, 83
p
y = 136
12 = 11, 33
2
Sx = 12 1480 2
10, 83 = 6, 04 Sx = 6, 04 = 2, 46
p
Sy2 = 1586
12 11, 332 = 3, 8 Sy = 3, 8 = 1, 95
cov (X , Y ) = n1 ∑ni=1 xi yi xy = 1521
12 10, 83 11, 33 = 4, 05
cov (X ,Y ) 4,05
ρ(X ,Y ) = σ (X ) σ (Y ) = 2,46 1,95 = 0, 84

Le coe¢ cient de corrélation linéaire est positif et relativement proche de 1, il y


a donc une corrélation linéaire croissante relativement forte entre les notes de
mathématiques et les notes de statistique.

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Le rapport de corrélation

De…nition
On appelle rapport de corrélation, noté η 2 , le rapport de la variance expliquée
sur la variance marginale Le rapport de corrélation de Y :

variance expliquée variance marginale


η2 = =1 (19)
variance marginale variance expliquée

Il y a donc deux rapport de corrélatioon :

V (x j ) ∑j n j (x j x )2 ;
de x en y noté η 2 x /y η 2 x /y = =
V (x ) ∑i ni (xi x )2
V (y j ) ∑j ni (y i y )2 ;
de y en x noté η 2 y /x η 2 y /x = =
V (y ) ∑ i n j ( yj y )2

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Interprétation

Si une variable quantitative Y est indépendante d’une variable qualitative X ,


alors leur rapport de corrélation est nul, mais la réciproque n’est pas vraie :
X et Y indépendantes =) η 2 Y /X = 0

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Exercice

X nY 2 4 6
2 0 1 1
4 2 3 0
6 1 1 1

1- Calculer les caractéristiques marginales, les caractéristiques conditionnelles et


la covariance
2- Interpréter les résultats

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

Corrigé

Caractéristiques marginales
x= n
1
∑3i =1 ni xi = 42
10 = 4, 2; y = n
1
∑3j =1 n j yj = 38
10 = 3, 8;
1 3 2 196
V (x ) = n ∑i =1 ni xi x2 = 10 (4, 2)2 = 1, 96;
1 3 2 164
V (y ) = n ∑j =1 n j yj y2 = 10 (3, 8)2 = 1, 96;
Caractéristiques conditionnelles
x 1 = n11 ∑3i =1 ni 1 xi = 14
3 = 4, 66;
1 3 2
V1 (x ) = n 1 ∑i =1 ni 1 xi x 21 = 68
3 (4, 66)2 = 0, 95;
x 2 = n12 ∑3i =1 ni 2 xi = 205 = 4;
V2 (x ) = n12 ∑3i =1 ni 2 xi2 x 22 = 88
5 (4)2 = 1, 6;
x 3 = n13 ∑3i =1 ni 3 xi = 82 = 4;
V3 (x ) = n13 ∑3i =1 ni 3 xi2 x 23 = 40
2 (4)2 = 4;

Statistique Descriptive Enseignant : Ragbi Aziz


Diagramme de dispersion
Chapitre II : Les distributions à deux caractères : Ajustement linéaire, régression et corrélation
Notion de régression
Corrélation

y 1 = n11
∑3j =1 n1j yj = 10
2 = 5;
1 3 2 52
V1 (y ) = n1 ∑j =1 n1j yj y 21 = 2 (5)2 = 1;
y 2 = n21
∑3j =1 n2j yj = 16
5 = 3, 2;
1 3
V2 (y ) = n2 ∑j =1 n2j yj2 y 22 = 56
5 (3, 2)2 = 0, 96;
y 3 = n31
∑3j =1 n3j yj = 12
3 = 4;
1 3 2 56
V3 (y ) = n3 ∑j =1 n3j yj y 23 = 3 (4)2 = 2, 66;
Covariance
1 1
COV (x, y ) = n ∑i ∑j nij xi yj xy = 10 156 (4, 2)(3, 8) =
0, 36;

Statistique Descriptive Enseignant : Ragbi Aziz

Vous aimerez peut-être aussi