Académique Documents
Professionnel Documents
Culture Documents
Statistique Descriptive
Chapitre II : Ajustement linéaire, régression
et corrélation
Introduction
Diagramme de dispersion
De…nition
Le diagramme de dispersion d’une variable Y en fonction d’une autre
variable X est formé des points moyens conditionnels (xi, yi), et donne une
idée de la façon dont varie, en moyenne, la variable Y en fonction de la
variable X.
De façon analogue, on dé…nit le diagramme de régression de X en
fonction de Y.
Exemple
Example
Les notes de mathématiques (X) et de statistique (Y)
obtenues de 12 étudiants.
N 1 2 3 4 5 6 7 8 9 10 11 12
xi 11 14 09 12 10 06 15 12 10 10 08 13
yi 10 15 11 11 09 08 14 13 11 12 10 12
Notion de régression
De…nition
La méthode la plus utilisée est la méthode des moindres carrés (MMC).
b = f (x ) qui
Le problème d’ajustement consiste à trouver une fonction y
corresponde le plus exactement possible aux données de la série
statistique.
La MCO est une méthode d’ajustement qui consiste à minimiser la somme
des carrés des di¤érences entre les valeurs observées, yi , et les valeurs
bi par l’équation de la droite de régression :
estimées, y
De…nition
Il s’agit de déterminer les constantes a et b telle que l’expression
∑(yi ybi )2 soit minimum.
Avec ybi = axi + b
a est appelée coe¢ cient de régression linéaire ou pente de la droite de
régression, il mesure la variation de la variable dépendante lorsque la
variable indépendante varie d’une unité.
b est appelée ordonnée à l’origine, il correspond à la valeur de la variable
dépendante pour une valeur nulle de la variable indépendante.
Soit la fonction :
f (a, b ) = ∑(yi ybi )2 (3)
f (a, b ) est minimum lorsque les dérivées partielles de f (a, b ) par rapport à a
et à b sont nulles.
df df
=0 et =0 (4)
da db
n
df
= 2 ∑ xi (yi axi b) (5)
da i =1
n
df
= 2 ∑ ( yi axi b) (6)
db i =1
COV (X , Y )
a= et b = y ax (7)
Sx2
COV (X , Y )
a0 = et b0 = x a0 y (8)
SY2
Example
n xi yi
1 11 10
2 14 15
3 09 11
4 12 11
5 10 09
6 06 08
7 15 14
8 12 13
9 10 11
10 10 12
11 08 10
12 13 12
N 130 136
Solution
n xi yi xi2 yi2 yi xi ybi yi ybi
1 11 10 121 100 110 11,44 -1,44
2 14 15 196 225 210 13,45 1,55
3 09 11 81 121 99 10,10 0,90
4 12 11 144 121 132 12,11 -1,11
5 10 09 100 81 90 10,77 -1,77
6 06 08 36 64 48 08,09 -0,09
7 15 14 225 196 210 14,12 -0,12
8 12 13 144 169 156 12,11 0,89
9 10 11 100 121 110 10,77 0,23
10 10 12 100 144 120 10,77 1,23
11 08 10 64 100 80 09,43 0,57
12 13 12 169 144 156 12,78 -0,78
N 130 136 1480 1586 1521 136 0
Solution
∑12 12 12 2 12 2
i =1 xi = 130 ∑i =1 yi = 136 ∑i =1 xi = 1480 ∑i =1 yi = 1586
∑12
i =1 xi yi = 1521 x = 130
12 = 10, 83
p
y = 136
12 = 11, 33
2
Sx = 12 1480 2
10, 83 = 6, 04 Sx = 6, 04 = 2, 46
p
Sy2 = 1586
12 11, 332 = 3, 8 Sy = 3, 8 = 1, 95
cov (X , Y ) = n1 ∑ni=1 xi yi xy = 1521
12 10, 83 11, 33 = 4, 05
Solution
Connaissant la note de mathématique d’un étudiant, on peut estimer sa note
de statistique par la droite d’équation :
Y = ax + b telle que :
COV (X ,Y )
a= S x2
= 4,05
6,04 = 0, 67
b = y ax = 11, 33 0, 67 10, 83 = 4, 07
ybi = 0, 67xi + 4, 07
Solution
Connaissant la note de statistique d’un étudiant, on peut estimer sa note de
mathématique par la droite d’équation :
X = a0 Y + b 0 telle que :
COV (X ,Y ) 4,05
a0 = S y2
= 3,8 = 1, 07
b0 = x a0 y = 10, 83 1, 07 11, 33 = 1, 29
b
xi = 1, 07xi 1, 29
2- La corrélation
X +Y = X +Y (9)
8a, b, c 2 R ax + by + c = ax + by + c (10)
De…nition
La covariance de deux variables statistiques est la moyenne arithmétique des
produits des di¤érences des observations par rapport à leur moyenne ;
x1 , x2 , x3 , . . . . . . xi , ......, xn
y1 , y2 , y3 , . . . . . . yi , ......, yn
n n
1 1
cov (X , Y ) =
n ∑ ( xi x )(yi y) =
n ∑ xi yi xy (11)
i =1 i =1
1 Propriétés de la covariance
2 Interprétation
La relation entre deux variables statistiques est croissante ou décroissante, c’est
à dire selon que les valeurs élevées d’une série correspondent aux valeurs
élevées de l’autre ou l’inverse, selon que la covariance est positive ou négative.
3- Corrélation
Quand il s’agit de mettre en évidence le lien qui peut exister entre deux
variables quantitatives X et Y on utilise le coe¢ cient de corrélation
linéaire ρxy .
Mais lorsqu’il s’agit de déterminer le degré de liaison entre une variable
qualitative X et une autre quantitative Y , on choisit dans ce cas le
rapport de corrélation η Y /X .
Cette corrélation est détectée à l’aide d’un autre moyen le khi deux χ si
les variables sont toutes les deux qualitatives.
De…nition
On appelle coe¢ cient de corrélation linéaire entre deux variables
statistiques X et Y, le rapport de leur covariance par le produit de leurs
écarts-types ρ ;
ρ a pour objet de mesurer l’intensité de la liaison linéaire entre deux
variables statistiques X et Y :
cov (X , Y )
ρ(X ,Y ) = (16)
σ (X ) σ (Y )
Interprétation
1 r = 1 : dans ce cas les points se trouvent tous sur une même droite
croissante, on parle de corrélation linéaire positive parfaite.
2 r= 1 : dans ce cas les points se trouvent tous sur une même droite
décroissante, on parle de corrélation linéaire négative parfaite.
3 r = 0 : dans ce cas il n’y a aucune dépendance linéaire entre les deux
variables, on parle de corrélation linéaire nulle.
4 1 < r < 0 : dans ce cas les deux variables varient en sens inverse, la
relation linéaire est faible ou forte selon que le coe¢ cient de corrélation
linéaire est proche de 0 ou -1.
Example
Les notes de mathématiques (X) et de statistique (Y)
obtenues de 12 étudiants.
N 1 2 3 4 5 6 7 8 9 10 11 12
xi 11 14 09 12 10 06 15 12 10 10 08 13
yi 10 15 11 11 09 08 14 13 11 12 10 12
Solution
∑12 12 12 2 12 2
i =1 xi = 130 ∑i =1 yi = 136 ∑i =1 xi = 1480 ∑i =1 yi = 1586
∑12
i =1 xi yi = 1521 x = 130
12 = 10, 83
p
y = 136
12 = 11, 33
2
Sx = 12 1480 2
10, 83 = 6, 04 Sx = 6, 04 = 2, 46
p
Sy2 = 1586
12 11, 332 = 3, 8 Sy = 3, 8 = 1, 95
cov (X , Y ) = n1 ∑ni=1 xi yi xy = 1521
12 10, 83 11, 33 = 4, 05
cov (X ,Y ) 4,05
ρ(X ,Y ) = σ (X ) σ (Y ) = 2,46 1,95 = 0, 84
Le rapport de corrélation
De…nition
On appelle rapport de corrélation, noté η 2 , le rapport de la variance expliquée
sur la variance marginale Le rapport de corrélation de Y :
V (x j ) ∑j n j (x j x )2 ;
de x en y noté η 2 x /y η 2 x /y = =
V (x ) ∑i ni (xi x )2
V (y j ) ∑j ni (y i y )2 ;
de y en x noté η 2 y /x η 2 y /x = =
V (y ) ∑ i n j ( yj y )2
Interprétation
Exercice
X nY 2 4 6
2 0 1 1
4 2 3 0
6 1 1 1
Corrigé
Caractéristiques marginales
x= n
1
∑3i =1 ni xi = 42
10 = 4, 2; y = n
1
∑3j =1 n j yj = 38
10 = 3, 8;
1 3 2 196
V (x ) = n ∑i =1 ni xi x2 = 10 (4, 2)2 = 1, 96;
1 3 2 164
V (y ) = n ∑j =1 n j yj y2 = 10 (3, 8)2 = 1, 96;
Caractéristiques conditionnelles
x 1 = n11 ∑3i =1 ni 1 xi = 14
3 = 4, 66;
1 3 2
V1 (x ) = n 1 ∑i =1 ni 1 xi x 21 = 68
3 (4, 66)2 = 0, 95;
x 2 = n12 ∑3i =1 ni 2 xi = 205 = 4;
V2 (x ) = n12 ∑3i =1 ni 2 xi2 x 22 = 88
5 (4)2 = 1, 6;
x 3 = n13 ∑3i =1 ni 3 xi = 82 = 4;
V3 (x ) = n13 ∑3i =1 ni 3 xi2 x 23 = 40
2 (4)2 = 4;
y 1 = n11
∑3j =1 n1j yj = 10
2 = 5;
1 3 2 52
V1 (y ) = n1 ∑j =1 n1j yj y 21 = 2 (5)2 = 1;
y 2 = n21
∑3j =1 n2j yj = 16
5 = 3, 2;
1 3
V2 (y ) = n2 ∑j =1 n2j yj2 y 22 = 56
5 (3, 2)2 = 0, 96;
y 3 = n31
∑3j =1 n3j yj = 12
3 = 4;
1 3 2 56
V3 (y ) = n3 ∑j =1 n3j yj y 23 = 3 (4)2 = 2, 66;
Covariance
1 1
COV (x, y ) = n ∑i ∑j nij xi yj xy = 10 156 (4, 2)(3, 8) =
0, 36;