Vous êtes sur la page 1sur 36

FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Chapitre 3

Série statistique à deux dimensions

1. Position du problème

Dans les deux premiers chapitres, les séries statistiques étudiées


étaient des séries simples ; on étudiait une population selon un seul
caractère. Cependant, il est souvent utile de considérer à la fois
plusieurs caractères de la même population : la taille, l’âge, et le poids
d’un groupe d’enfants ; le salaire et la qualification d’un ensemble de
salariés,… Nous nous limitons ici à l’étude simultanée de deux
caractères ; l’analyse des données permet d’en étudier un grand
nombre.

2. Définition

On appelle série statistique double de  pour les caractères X et Y


l’application qui à chaque élément de  associe le couple x i , y i  où les
xi sont les valeurs du caractère X et les y i les valeurs du caractère Y.
Les résultats de cette observation peuvent être présentés sous deux
formes.

2.1 Données non groupées

Ces données ponctuelles (ou non groupées) se présentent sous la


forme suivante :

Tableau de données ponctuelles

Individu 1 2  n
Valeur de X X1 X2  Xn
Valeur de Y Y1 Y2  Yn

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 1
1
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Représentation graphique

 

yj  M ij 
 

0 xi x

Exemple 1

Le tableau ci-dessous présente les poids (au kg près) X, les tailles (au
cm près) Y, de 10 élèves âgés de neuf ans.

Poids X 20 21 22 22 25 26 27 28 29 30
Taille Y 115 120 117 123 130 123 132 132 128 135

2.2 Données groupées

Les modalités de X et Y étant respectivement


x 1, x 2 , , x p
y 1, y 2 ,, y q

n ij est l’effectif des individus présentant simultanément les modalités


x i et y j . Si X est qualitatif, x i représente la modalité numéro i de ce
caractère. Si X est quantitatif, x i représente la i ème valeur de ce
caractère ou le centre de la i ème classe. On a de même pour Y.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 2
2
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Ces données se présentent sous la forme :

Tableau à double entrée ( ou tableau de contingence )

Y y1 yj yq
 
X
x1 n11  n1 j  n1q
     
xi n i1  n ij  n iq
     
xp n p1  n pj  n pq

A l’intersection de la ligne i et de la colonne j, on reporte l’effectif


n ij correspondant à l’observation conjointe de X  X i et Y  Y j .

Représentation graphique (nuage de points pondérés)

y3   
y2    
y1    

0 x1 x2 x3 x4 x

Exemple 2
A l’oral d’un examen, chaque candidat est interrogé en première langue
où il obtient la note X et en seconde langue où il obtient la note Y (notes
sur 20). Les résultats obtenus par 100 candidats sont donnés dans le
tableau de contingence ci-dessous

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 3
3
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Y
[0, 4[ [4, 8[ [8, 12[ [12, 16[ [16, 20]
X
[0, 4[ 2 5 2 0 0
[4, 8[ 1 12 10 3 0
[8, 12[ 0 3 28 12 1
[12, 16[ 0 1 5 10 2
[16, 20] 0 0 0 1 2

3. Tableaux de calculs
3.1 Données non groupées

Xi Yi Xi 2 Yi 2 X i Yi
X1 Y1 X12 Y12 X1Y1
X2 Y2 X22 Y2 2 X 2 Y2
    
Xn Yn Xn 2 Yn 2 X n Yn
n n n n n
 Yi
2
 Xi  Xi  Yi 2  X i Yi
i 1 i 1 i 1 i 1 i 1

3.1.1 Moyennes
1 n 1 n
X   Xi Y   Yi
n i 1 n i 1

3.1.2 Variances

1 n 2
Var(X)   Xi  X 2  (X)  Var(X)
n i 1

1 n 2
Var(Y)   Yi  Y 2  (Y)  Var (Y)
n i 1

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 4
4
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

3.1.3 Covariance

La covariance du couple (X,Y) est par définition le réel noté Cov (X,Y)
qui vaut :
1 n
Cov(X, Y)   (X i  X )(Yi  Y )
n i 1

Si on fait X  Y , on retrouve la formule de la variance.

La covariance est un indicateur du sens de la variation simultanée.

Si globalement, lorsque X croît, Y croît, alors la covariance est


positive.

Propriétés de la covariance

1 n
i) Cov(X, Y )   X i Yi  X Y
n i 1

ii) a , b, c, d désignant quatre réels on a :

Cov(a X  b, cY  d )  a c Cov(X, Y)

iii) Cov(X, Y)  (X ) (Y)

Les propriétés i) et ii) sont utiles pour le calcul numérique.

Démonstration

Propriété i)
1 n
Cov( X, Y )   ( X i  X)( Yi  Y )
n i1
1 n

n
 ( X i Yi  X i Y  X Yi  X Y )
i1

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 5
5
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

1 n 1 n 1 n 1 n

n
 X i Yi  Y 
n i1
Xi  X
n
 Yi  X Y . 1
n i1
i1 i1

1 n

n
 X i Yi  Y X  X Y  X Y
i1

1 n
  X i Yi  X Y
n i1

Propriété ii)

Posons
Xi '  a Xi  b on a X'  a X  b
Yi '  c Yi  d on a Y'  c Y  d

D’où X i '  X'  a ( X i  X) et Yi '  Y'  c ( Yi  Y )

On a alors

1 n
Cov(aX  b, cY  d )  Cov( X' , Y' ) 
n
 ( X i '  X' )( Yi '  Y' )
i1

1 n
ac  ( X i  X)( Yi  Y )
n i1
 a c Cov( X, Y )

Propriété iii)

On part de l’inégalité de Cauchy-Schwarz :

n n n
 X i Yi  (  X i ) (  Yi )
2 2

i1 i1 i1

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 6
6
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Si on remplace dans l’inégalité ci-dessus X i par X i  X et Yi par


Yi  Y . Alors on obtient :

n Cov( X, Y )  n 2 Var( X) Var ( Y )

Ce qui démontre la propriété iii).

3.1. 4 Coefficient de corrélation linéaire

Soient  (X ) et  (Y) les écart-types des deux caractères, Cov(X,Y)


la covariance du couple (X,Y). Le coefficient de corrélation linéaire noté
r (X,Y) du couple (X,Y) est par définition le nombre réel :

Cov(X, Y)
r ( X, Y ) 
 (X)  (Y)

Le coefficient de corrélation linéaire mesure le degré d’association


entre deux variables. Il peut varier de  1 à 1, en fonction du degré
d’association. Un coefficient de corrélation linéaire égal à zéro
indique qu’il n’existe aucune association linéaire entre les deux
variables.
Le tableau suivant donne une indication pour l’interprétation du
coefficient de corrélation linéaire :

Coefficient de corrélation Degré d’association


0,8 à 1,0 Important
0,5 à 0,8 Modéré
0,2 à 0,5 Faible
0 à 0,2 Négligeable

Les valeurs négatives du coefficient de corrélation linéaire indiquent


une corrélation négative où Y varie en raison inverse de X ( Exemple :
Prix et Demande).

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 7
7
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

L’interprétation est la même pour les corrélations négatives que pour


les corrélations positives.

Afin d’éliminer la possibilité que la corrélation observée ne soit due


au hasard, on peut tester statistiquement l’hypothèse de corrélation.

Remarque

Il ne faut pas confondre corrélation et causalité. La corrélation


n’entraîne pas la causalité.

Propriétés
n
 X i Yi  n X Y
i1
i) r ( X, Y ) 
 n  n 
  X i  n ( X) 2    Yi  n ( Y ) 2 
2 2

 i1  i1 

ii)  1  r ( X, Y )  1

iii) a , b, c, d désignant quatre réels on a :

ac
r (a X  b, cY  d)  r ( X, Y )
ac

Démonstration

Propriété i)

Il suffit d’utiliser les formules de définition.

Propriété ii)

Elle découle de la propriété iii) de la covariance.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 8
8
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Propriété iii)
Cov(aX  b, cY  d)
r (a X  b, cY  d) 
 (aX  b)  (cY  d)

On utilise les formules suivantes

Cov(a X  b, cY  d)  a c Cov( X, Y )
 (aX  b)  a  ( X)
 (cY  d)  c  (Y )

D’où
a c Cov( X, Y )
r (a X  b, cY  d) 
a c  ( X)  ( Y )
ac
 r ( X, Y )
ac

Exercice d’application : On considère la série statistique double de


l’exemple 1. Nous allons calculer son coefficient de corrélation linéaire.
Pour cela, nous dressons le tableau suivant :

Individu Poids X i Taille Yi X i Yi Xi 2 Yi 2


1 20 115 2 300 400 13 225
2 21 120 2 520 441 14 400
3 22 117 2 574 484 13 689
4 22 123 2 706 484 15 129
5 25 130 3 250 625 16 900
6 26 123 3 198 676 15 129
7 27 132 3 564 729 17 424
8 28 132 3 696 784 17 424
9 29 128 3 712 841 16 384
10 30 135 4 050 900 18 225
Total 250 1 255 31 570 6 364 157 929

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 9
9
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Calcul des moyennes

250 1255
X  25 kg ; Y  125,5 cm
10 10

Calcul des variances

6364
Var (X )   (25) 2  11,4  (X)  3,376
10
157929
Var(Y)   (125,5) 2  42,65  (Y)  6,53
10

Calcul de la covariance

Cov( X, Y )  3157  (25  125,5)  19,5

Calcul du coefficient de corrélation linéaire

On peut utiliser comme formule


n
 X i Yi  n X Y
i1
r ( X, Y ) 
 n  n 
  X i  n ( X) 2    Yi  n ( Y ) 2 
2 2

 i1  i1 

Soit
31570  10 (25 x 125,5)
r ( X, Y )   0,884
2 2
(6364  10 x 25 ) (157929  10 x 125,5 )

L’on a une très forte corrélation, mais il ne faut pas conclure à une
liaison entre les deux caractères étudiés. Seules les mesures, les
expressions numériques de ces deux caractères sont en étroite
corrélation.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 10
10
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

3.2 Données groupées

Y y1 yj yq n i.
 
X
x1 n11  n1 j  n1q n1
      
xi n i1  n ij  n iq n i.
      
xp n p1  n pj  n pq n p
nj n 1  nj  n q n

3.2.1 Distributions marginales

a) Effectifs marginaux

La somme des effectifs partiels contenus dans la ligne de x i est


égale à l’effectif des éléments dont la valeur du caractère X est x i

Elle est notée n i 


q
n i  n i1  n i2    n iq   n ij
j1
La somme des effectifs partiels contenus dans la ligne de y j est
égale à l’effectif des éléments dont la valeur du caractère Y est y j
Elle est notée n  j
p
n  j  n1j  n 2 j    n pj   n ij
i1

n i. et n . j sont appelés effectifs marginaux.


On a toujours :
p q p q
n   n i   n  j    n ij
i1 j1 i1 j1

n est appelé effectif total.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 11
11
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

b) Distribution marginale

De la distribution du couple (X, Y), on peut déduire les distributions


marginales :
x i , n i  est la distribution marginale de X.
y j , n  j  est la distribution marginale de Y.

c) Fréquence marginale


La fréquence de l’observation X  x i et Y  y j  est notée f ij :

n ij
f ij 
n

La fréquence marginale de l’observation X  x i  est notée f i. :

n i q
fi    fij
n j1

La fréquence marginale de l’observation Y  y j est notée f  j :  


n . j p
f j    fij
n i1
p q p q
On a :  fij   f i   f  j  1
i1 j1 i1 j1

Remarque
La connaissance des distributions marginales de X et Y ne suffit
pas, en général, pour déterminer la distribution du couple (X,Y). Cela
n’est possible que si X et Y sont indépendants.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 12
12
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Nous considérons le tableau à double entrée de l’exemple 2.

2 6 10 14 18 ni 
X Y
2 2 5 2 0 0 9
6 1 12 10 3 0 26
10 0 3 28 12 1 44
14 0 1 5 10 2 18
18 0 0 0 1 2 3
n j 3 21 45 26 5 100

Les distributions marginales en X et Y sont données par les


tableaux suivants, où l’on a assimilé les classes à leurs centres

xi 2 6 10 14 18
ni  9 26 44 18 3
yj 2 6 10 14 18
n j 3 21 45 26 5

On vérifie qu’on a bien


5 5
n   n i    n  j  100
i1 j1

Les fréquences marginales s’obtiennent en divisant par 100 les


effectifs marginaux n i  et n  j .

3.2.2 Indices de dépendance


On considère un tableau de contingence croisant deux variables X
et Y et on s’intéresse à la liaison pouvant exister entre ces
variables

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 13
13
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

a) Indépendance statistique
Deux caractères X et Y sont indépendants si, et seulement si :

 i  1,2,  , p ,  j  1,2,  , q 
n i  n  j
f ij  f i x f  j ou n ij 
n

L’indépendance statistique de X et Y correspond au fait que les


lignes (et les colonnes) du tableau à double entrée sont proportionnelles

b) Indices de dépendance

i) le Khi-Deux de contingence

La mesure de la liaison entre X et Y va se faire à partir des écarts entre


n i n  j
chaque effectif n ij et chaque quantité que l’on appelle effectif
n
théorique. On appelle Khi-Deux de contingence la quantité  2 définie
par :
2
 ni  n  j 
 n ij  
p q  n 
 
  
2

i1 j 1 ni  n  j
n
On voit que le Khi-Deux de contingence est toujours positif et qu’il
est nul dans le cas de l’indépendance des caractères X et Y. Par
construction le Khi-deux de contingence est d’autant plus grand que la
liaison entre X et Y est forte.
Pour calculer la valeur du Khi-Deux, on utilise le résultat suivant
obtenu par développement du carré :
p q n ij 2 
  n 
2
  1
 i1 j1 ni  n  j 
 

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 14
14
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

En effet on a :
  n n n n
2
n
2 
 n  2 
2 ij i   j

i   j 
p q 
ij
n n2 
 
  n 
2

 i1 j1 n i n  j 
 
 
 

 p q n ij 2 2 p q
1 p q 
 n      n ij    ni n  j 
 i1 j1 n i n  j n i1 j1 n2 i1 j1 
 

En utilisant les résultats suivants :


p q p q
 n ij  n et  n i n  j  n 2
i 1 j1 i 1 j1

On obtient
p q n ij 2 
  n 
2
  2  1
 i1 j1 ni  n  j 
 

p q n ij 2 
  n 
2
  1
 i1 j1 ni  n  j 
 

De plus on montre que

0   2  n Min( p, q )

La borne n Min (p, q) étant atteinte dans le cas de dépendance


Divers coefficients liés au Khi-Deux de contingence ont été proposés.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 15
15
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Citons :

ii) le  2 de Cramer

Il est défini par :


2
 
2
n

iii) le T de Tschuprow

Il est défini par :


2
T
(p  1) (q  1)

La principale propriété de T est d’être borné. On a toujours :

0  T 1

Si T est proche de 0, on dit qu’il y a indépendance entre les


caractères X et Y. Si T est proche de 1, on dit qu’il y a dépendance.

Par convention, deux caractères sont dits dépendants si la valeur


de T est supérieure ou égale à 0,15. Ils sont indépendants dans le
cas contraire.

Remarque

La valeur du T de Tschuprow ne permet pas toujours de conclure


de manière satisfaisante. Dans la pratique, on utilise un test
d’indépendance du Khi-Deux. Ce test est traité dans le tome 2.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 16
16
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Exercice d’application : Sur un échantillon de 200 ménages choisis


au hasard, on a étudié la propension moyenne à épargner (variable Y)
en fonction du revenu disponible (variable X). Pour la variable X, on a
distingué 3 classes (faibles revenus, revenus intermédiaires, revenus
élevés).

De même les taux d'épargne ont été classés en 3 niveaux (faibles taux,
taux intermédiaires, taux élevés). Les résultats sont présentés dans la
table de contingence :

Y1 : taux Y2 : taux Y3 : taux


Epargne
Revenus faibles intermédiaires élevés
X1 : faibles 53 14 6
X 2 : intermédiaires 15 58 8
X3 : élevés 7 10 29

1) Calculer le Khi-Deux de contingence.


2) En déduire les valeurs du  2 de Cramer et du T de Tschuprow.
3) Le taux d'épargne et le niveau de revenu disponible sont-ils
indépendants ?

Réponse

Le caractère X a 3 modalités, p  3
Le caractère Y a 3 modalités, q  3

Y
X y1 y2 y3 nj
x1 53 14 6 73
x2 15 58 8 81
x3 7 10 29 46
n i 75 82 43 200

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 17
17
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

 3 2 
 3 n 
 
2 ij
1)  n  1
 i  1 j  1 n 
i  n  j
 

Le calcul donne :

 53 2 14 2 62 15 2 58 2 
    
 75  73 82  73 43  73 75  81 82  81
 2  200     117
2 2 2 2
 8 7 10 29 
  43  81  75  46  82  46  43  46  1 
 

 2 117 2
2)  2    0,585 et T   0,5408
n 200 2

( (p  1)(q  1)  4  2 )

3) La valeur de T est supérieure à 0,15, les caractères X et Y


sont dépendants. Il existe donc une relation hautement significative
entre les caractères niveau de revenu et niveau d'épargne.

4. Ajustement linéaire

L’ajustement linéaire joue un rôle privilégié dans l’analyse et la


prévision des phénomènes économiques : analyse de la consommation,
prévision de la demande, etc…
La plupart des modèles qui visent à représenter, par exemple, l’évolution
de la consommation de certains produits en fonction de celle des
revenus et des prix, sont des modèles linéaires.

En effet, dans la pratique, l’adoption d’une fonction linéaire apparaît


comme une hypothèse raisonnable. De plus la simplicité des calculs
auxquels conduit l’ajustement linéaire le fait préférer à toute autre forme
d’ajustement.
Cours de statistique descriptive
Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 18
18
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

4.1 Principe de la méthode

Soit une distribution à deux variables quantitatives X et Y. On dispose


de n couples ( X i , Yi ) correspondant aux valeurs des variables X et Y
observées sur un échantillon de taille n.

Pour cela nous considérons la droite d’équation


Y  aX  b

Le problème posé est le suivant : comment choisir des valeurs â et b̂


pour qu’une droite d’équation â X  b̂ passe « le plus près possible » de
tous les points du nuage ? Cette droite sera appelée droite de régression
de Y en X. La solution adoptée définit la méthode des moindres carrés
ordinaires. Celle-ci consiste à retenir parmi toutes les droites du plan
celle pour laquelle la somme des carrés des écarts (e i ) des points
observés à la droite, mesurés parallèlement à l’axe des ordonnées est
minimum.
y

yi Pi Y  â X  b̂
ei
a Xi  b

xi x
La valeur des écarts (ou résidus) e i est

e i  Yi  aX i  b , i  1, 2,..., n

La somme des carrés des écarts est égale à :


n n
 
2
S(a, b)  ei  ( Yi  aX i  b) 2
i1 i1

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 19
19
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

â et b̂ sont donc solutions de :


Min S(a, b) (1)
a,b

S(a,b) est une fonction définie sur IR 2 et à valeurs dans IR, deux fois
continûment dérivable et convexe ( la matrice des dérivées secondes est
définie positive ). Les solutions des conditions du premier ordre définiront
donc bien le minimum de S(a, b).

Soit â et b̂ les solutions des conditions du premier ordre de (1). On a :


 S(a, b) n
 0   2  (Yi  aˆ X i  bˆ )  0 (2)
b i 1
 S(a, b) n
 0   2  X i (Yi  aˆ X i  bˆ )  0 (3)
a i 1

L’expression (2) implique :


n n
 Yi  â  X i  n b̂ (4)
i1 i1

Soit Y et X les moyennes de Y et X, définies par :


1 n 1 n
Y
n
 Yi et X
n
 Xi
i1 i1

On déduit de l’équation (4) le résultat suivant :

Y  â X  b̂ (5)

On obtient ainsi un premier résultat important de l’estimation par les


moindres carrés ordinaires : la droite estimée passe par le point moyen
( x , y ) de l’échantillon.

On tire alors la valeur de b̂

b̂  Y  â X (6)

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 20
20
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

On peut déduire maintenant la valeur de â . Partons de (3).

n
 ( Yi  â X i  b̂)X i 0
i1
n n n
 X i Yi  â  X i  b̂  X i  0
2

i1 i1 i1

On remplace b̂ par Y  â X .

D’où
n n n
 X i Yi  â  X i  ( Y  â X)  X i  0
2

i1 i1 i1


n n
 X i Yi  nX Y  â (  Xi
2
 n X2 )
i1 i1

On obtient alors la valeur de â

n
 X i Yi  n X Y
i1
â  n
(7)
 Xi
2
 n X2
i1

â est donc la pente de la droite de régression de Y en X.

En divisant par n le numérateur et de le dénominateur de (7), on obtient


l’expression

Cov( X, Y )
â 
Var ( X)

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 21
21
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

4.2 Application aux données de l’exemple 1

En utilisant les formules indiquées ci-dessus, on trouve :

n
 X iYi  n X Y
â  i  1  1,71
n
 X i2  n X 2
i1
et
b̂  Y  â X  82,75

D’où l’équation de la droite de régression de Y en X :

Y  1,71 X  82 ,75

Nuage de points et droite de régression de Y en X

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 22
22
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Droite de régression
Yi taille Y=1,71 X +82,75

135 -

33 -
+ +
131 - .
+
129 -
+
127 -

125 -

123 - + +

121 -
+
119 -

117 - . +

115- +

20 21 22 23 24 25 26 27 28 29 30 X i poids

4.3 Droite de régression de X en Y


Dans le calcul précédent, on a fait jouer un rôle dissymétrique aux
variables X et Y. Or, rien au plan statistique, ne permet de dire si
l’une des variables dépend de l’autre. Il est alors logique de
recommencer les calculs précédents, mais en inversant les rôles
des deux variables.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 23
23
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

On définit ainsi une droite de régression de X en Y d’équation :


X  â' Y  b̂'
avec
n

Cov(X, Y)
 X i Yi  n X Y
i1
b̂'  X  â' Y et â'   n
Var ( Y )
 Yi
2
 n Y2
i 1

Cette droite passe aussi par le point moyen de l’échantillon et a


pour pente â ' .

En utilisant toujours les données de l’exemple 1, on trouve :


n
 X i Yi  n X Y
i1
â'  n
 0,457 et b̂'  X  â' Y   32,35
 Yi
2
n Y 2

i1

D’où l’équation de la droite de régression de X en Y :

X  0,457 Y  32,35

4.4 Interprétation économique des coefficients de la droite de


régression

Nous considérons les trois modèles de régression les plus


couramment utilisés dans la pratique et donnons l’interprétation
économique des coefficients

a) Modèle 1 : Modèle sans logarithme Y  aX  b

Dans ce cas, le paramètre a est une propension marginale

a  Y / X   Y  a  X

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 24
24
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Illustration 1 : A l’aide de 35 observations, on souhaite estimer les


paramètres de la droite de régression Y  aX  b
où Y est l’épargne réalisée par un individu et X son revenu. Les
données sont en milliers de francs CFA.

L’estimation des paramètres par la méthode des moindres carrés


ordinaires donne aˆ  0,15 ; bˆ   120

Ep arg ne  0,15 Re venu  120

On a une fonction d’épargne, b̂ est l’estimation de l’épargne quand


le revenu est nul, c’est à dire si X  0 , ici  120 000 francs CFA par
an, c’est une désépargne.
â est l’estimation de la propension marginale à épargner
a  Y / X . On estime qu’un revenu qui augmente de 1 000
francs CFA se traduit par une épargne supplémentaire de 150
francs CFA.
La fonction de consommation est :

Consommati on  0,85 Re venu  120

1  aˆ  1  0,15  0,85 est l’estimation de la propension marginale à


consommer. On estime qu’un revenu qui augmente de 1 000 francs
CFA se traduit par une consommation supplémentaire de 850
francs CFA.

120 000 francs CFA est l’estimation de la consommation


incompressible (autonome), c’est l’estimation de la consommation
quand le revenu est nul.

Illustration 2 : Nous utilisons un exemple de mesure de l’efficacité


de la force de vente : au cours d’un mois donné, le représentant
d’une société commercialisant du matériel de bureau a visité 56
entreprises réparties sur sept départements.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 25
25
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

On souhaite estimer les paramètres de la droite de régression


Y  aX  b

où Y est le nombre de commandes réalisées et X le nombre de


visites.
L’estimation des paramètres par la méthode des moindres carrés
ordinaires donne aˆ  2,1214 ; bˆ  19

Commandes  19  2,12 14 Visites


Ce résultat peut être interprété de la façon suivante

 En l’absence de visite, le montant des commandes d’un


département s’élèverait à 19 000 francs.
 Chaque visite d’un représentant amène une masse de
commandes supplémentaires d’environ 2121,4 francs.

b) Modèle 2 : Modèle logarithmique log( Y )  a log( X)  b

Dans ce cas, le paramètre a est une élasticité :

Y X
a   log( Y ) /  log( X)  a
Y X
Illustration 1 : Les importations du Sénégal (Y) sont mises en
relation avec le Produit Intérieur Brut (X) sur la période 1962 à 1995 .

L’estimation des paramètres par la méthode des moindres carrés


ordinaires donne aˆ  0,75 ; bˆ  0,65

log(Im port )  0,65  0,75 log(Pib)

â est l’estimation de l’élasticité des importations par rapport au


Produit Intérieur Brut a   log( Y ) /  log( X) .

â  0,75  si le Produit Intérieur Brut Réel du Sénégal augmente


de 10 % alors les importations augmentent de 7,5%.

Il est à noter que b̂ n’a pas d’interprétation économique.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 26
26
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Illustration 2 : Les ventes du produit (Y) sont mises en relation


avec les dépenses de publicité (X). L’estimation des paramètres par
la méthode des moindres carrés ordinaires donne aˆ  0,25 ; bˆ  2,69

log( Ventes )  2,69  0,25 log(Publicite )

â est l’estimation de l’élasticité des ventes par rapport aux dépenses


de publicité a   log( Y ) /  log( X) .

â  0,25  si les dépenses de publicité augmentent de 10 %


alors les ventes augmentent de 2,5 %.

Il est à noter que b̂ n’a pas d’interprétation économique.

c) Modèle 3 : Modèle semi logarithmique log( Y )  aX  b

Dans ce cas, le paramètre a est une semi élasticité


Y
a   log( Y ) / X   a  X
Y

Illustration : L’investissement (Y) est mis en relation avec le taux


d’intérêt réel (X). L’estimation des paramètres par la méthode des
moindres carrés ordinaires donne â   0,06 ; b̂  2,59

log(Investisse ment )   2,59  0,06 Tx int

â est l’estimation de la semi élasticité de l’investissement par rapport


au taux d’intérêt réel a   log( Y ) / X  .

â   0,06  si le taux d’intérêt réel augmente d’un point (100 %)


alors l’investissement diminue de 6 %. Il est à noter que b̂ n’a pas
d’interprétation économique.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 27
27
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

4.5 Retour sur le coefficient de corrélation linéaire


Les deux droites de régression trouvées sont différentes. Le carré
du coefficient de corrélation linéaire est précisément égal au produit
des pentes.
r 2  â â '
En effet on a :

2
Cov( X, Y ) Cov( X, Y )  Cov( X, Y ) 
â â'  x    r2
Var( X) Var ( Y )  ( X) ( Y ) 

La valeur de r peut être obtenue par la formule :

r   â â'

Si les deux droites étaient identiques, r serait en valeur absolue égal


à 1. ( â et â' inverses l' une de l' autre ). Si les deux droites sont
proches, r est voisin de 1, ce qui correspond à un ajustement
valide. Par contre, si r n’est pas très différent de zéro, les deux
pentes â et â' sont loin d’être inverses l’une de l’autre, et par
conséquent les droites d’ajustement sont sensiblement différentes :
les points représentatifs sont loin d’être alignés.
On retrouve la valeur du coefficient de corrélation linéaire en utilisant
la relation ci-dessus.

r 2  â x â'  1,71 x 0,457  0,78147


D’où
r  0,7814  0,884

Le signe de r est donné par le signe de la covariance qui est ici


positif.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 28
28
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

4.6 Equation d’analyse de la variance

Soit Y  â X  b̂ l’équation de la droite de régression de Y en X.


Posons :

Ŷi  a X i  b̂ pour i  1, 2,..., n
ê i  Yi  Ŷi pour i  1, 2,..., n

Ŷi est la valeur ajustée de Yi et ê i est le résidu.

Les conditions du second ordre établies dans (2) et (3) peuvent


se réécrire :
n
 ê i 0 (2)’
i1
n
 X i ê i 0 (3)’
i1

De l’équation (2)’, on peut déduire :

ê  0 (9)

Ainsi, la moyenne des résidus est égale à 0.


On peut aussi déduire de (2)’ que la moyenne de Yi est égale à
la moyenne des valeurs estimées Ŷi .

En effet, comme, Yi  Ŷi  ê i , on a :

n n n
 Yi   Ŷi   ê i
i1 i1 i1

D’où
Y  Ŷ (10)

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 29
29
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

On démontre que :

n n n
 ( Yi  Y ) 2   ( Yi  Ŷi ) 2   ( Ŷi  Y ) 2 (11)
i1 i1 i1

Cette expression est appelée équation d’analyse de la variance.

Elle s’interprète de la manière suivante :

Variance de Y  Variance résiduelle + Variance expliquée par la


régression

ou
Var (Y)  Var (ê)  Var (Ŷ)
n 1
 ( Yi  Y ) 2 est égal, à un facteur
n
près, à la variance de Y
i1

n n 1
 ( Yi  Ŷi ) 2   ê i
2
est égal, à un facteur près, à la variance
i1 i1 n
résiduelle.

n n 1
 ( Ŷi  Y ) 2   ( Ŷi  Ŷ ) 2 est égal, à un facteur
n
près, à la variance de
i1 i1
Ŷ appelée variance expliquée par la régression.

Démonstration de l’équation d’analyse de la variance


On a :
( Yi  Y )  ( Yi  Ŷi )  ( Ŷi  Y )
D’où
n n n n
 ( Yi  Y ) 2   ( Yi  Ŷi ) 2   ( Ŷi  Y ) 2  2  ( Yi  Ŷi ) ( Ŷi  Y )
i1 i1 i1 i1

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 30
30
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

n
Montrons que l’expression  ( Yi  Ŷi ) ( Ŷi  Y ) est égale à 0.
i1
En effet on a :
n
 ( Yi  Ŷi ) ( Ŷi  Y )
i1
n
  ê i (â X i  b̂)
i1
n n
 â  ê i X i  b̂  ê i  0
i1 i1

en utilisant (2)’ et (3)’. On obtient donc bien l’équation d’analyse de


la variance donnée par (11).

Exercice d’application : Considérons les données de l’exemple 1


et vérifions l’équation d’analyse de la variance. Pour cela, posons,
pour i variant de 1 à 10 :
Ŷi  1,71 X i  82,75

i Ŷi Yi  Ŷi ( Yi  Ŷi ) 2 Ŷi  Y ( Ŷi  Y ) 2


1 116,95  1,95 3,8025  8,55 73,1025
2 118,66 1,34 1,7956  6,84 46,7856
3 120,37  3,37 11,3569  5,13 26,3169
4 120,37 2,63 6,9169  5,13 26,3169
5 125,5 4,5 20,25 0 0
6 127,21  4,21 17,8267 1,71 2,9241
7 128,92 3,08 9,4864 3,42 11,6964
8 130,63 1,37 1,8769 5,13 26,4195
9 132,34  4,34 18,8356 6,84 46,7856
10 134,05 0,95 0,9025 8,55 73,1025
Total 93,05 333,45

10
 (Yi  Y ) 2  426,5
i 1

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 31
31
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

On vérifie bien alors

10 10 10
 (Yi  Y )   (Yi  Ŷi )   (Ŷi  Y ) 2
2 2
i 1 i 1 i 1
426,5  93,05  333,45

4.7 Le coefficient de détermination

a) Définition du coefficient de détermination

Grâce à l’équation d’analyse de la variance, la variance de Y


apparaît comme la somme de deux composantes : la variance résiduelle
et la variance expliquée par la régression. Il est naturel d’en déduire
un indicateur mesurant le pourcentage de la variance de Y qui est
expliqué par le modèle de régression.

Cet indicateur, noté R 2 , est appelé coefficient de détermination. Il


est défini de la façon suivante :
n

Variance expliquée
 ( Ŷi  Y ) 2
i 1
R2   n
(12)
Variance totale
 ( Yi  Y ) 2

i 1

En divisant les deux membres de l’équation d’analyse de la variance


n
par  ( Yi  Y ) 2 , on obtient :
i1
n
 ê i
2

i1
1 n
 R2
 ( Yi  Y ) 2
i1

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 32
32
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

De cette écriture, on déduit une autre définition du R 2 :


n
 ê i
2

i1
R2  1  n
 ( Yi  Y ) 2
i1

Fort logiquement, le R 2 prend ses valeurs dans l’intervalle [0, 1] : au


pire, le modèle n’explique rien, au mieux il explique 100 % de la
variance de Y.

Interprétation de la valeur de R 2

Considérons la droite de régression Y  aX  b . Si on trouve que


R 2  0,98 alors on dit que 98 % des fluctuations de Y sont
expliquées par X ou encore que 98 % de la variance de Y est due
à la régression ou encore que la variance résiduelle représente 2 %
de la variance des observations Yi .

Illustration 1 : La consommation (Y) est mise en relation avec le


revenu (X). On considère la droite de régression

Y  aX  b

Si R 2  0,95 alors on dit que 95 % des fluctuations de la


consommation sont expliquées par le revenu.

Illustration 2 : L’investissement (Y) est mis en relation avec le taux


d’intérêt réel (X). On considère la droite de régression

Y  aX  b

Si R 2  0,85 alors on dit que 85 % des fluctuations de


l’investissement sont expliquées par le taux d’intérêt réel.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 33
33
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

b) Le R² en tant que coefficient de corrélation


Le coefficient de détermination R 2 est égal au carré du coefficient
de corrélation linéaire, r 2 ( X, Y ) , entre les variables X et Y.

Démonstration

On a :
Ŷi  â X i  b̂ et Y  â X  b̂

En utilisant le résultat (16), on a :

n n
 ( Ŷi  Y ) 2  (â X i  b̂  â X  b̂) 2 Var( X)
i1 i1
R2  n
 n
 â 2
Var ( Y )
 ( Yi  Y ) 2  ( Yi  Y ) 2
i1 i1

Or, d’après l’expression (7), on sait que :

Cov( X, Y )
â 
Var ( X)

On obtient donc bien :

Var ( X) Cov 2 ( X, Y ) Var ( X) Cov 2 ( X, Y )


R 2  â 2    r 2 ( X, Y )
Var ( Y ) Var ( X) Var ( Y )  ( X)  ( Y )
2 2 2

Calculons le coefficient de détermination des données de l’exemple 1


où X est le poids et Y la taille.

On utilise la relation

R 2  r 2  (0,884) 2  0,78

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 34
34
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

L’interprétation de la valeur trouvée est la suivante : 78 % des


fluctuations de la taille (Y) sont expliquées par l’âge (X).

L’ajustement linéaire n’est pas très bon.

Nous pouvons aussi calculer la valeur du coefficient de


détermination en considérant l’équation d’analyse de variance :

10 10 10
 (Yi  Y ) 2   (Yi  Ŷi ) 2   (Ŷi  Y ) 2
i 1 i 1 i 1
426,5  93,05  333,45

333,45
On trouve que R2   0,78 .
426,5

4.8 Prévision

Dans le cadre du modèle de régression


Y  aX  b

on se pose la question suivante : pour une valeur de X 0 de X t ,


quelle valeur peut-on prévoir pour la variable Yt ?

Dans ce cadre, on propose la prévision :

Ŷ0  â X 0  b̂

où â et b̂ sont les estimations par les moindres carrés ordinaires


des paramètres a et b.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 35
35
FASEG – UCAD – 2015 – Plateforme d’enseignement à distance

Considérons les données de l’exemple 1 où X est le poids et Y la


taille.

L’équation de la droite de régression de Y en X est :

Y  1,71 X  82,75

A l’aide de cette équation, nous pouvons faire une prévision de la


taille d’un élève de poids X 0  35

Ŷ0  1,71 x 35  82,75  142,6

La taille d’un élève pesant 35 Kg est estimé à 142,6 cm.

L’équation de la droite de régression de X en Y :

X  0,457 Y  32,35

Le poids d’un élève mesurant 140 cm est estimé à :

X̂ 0  0,457 x 140  32,35  31,63

Soit 32 kg.

Cours de statistique descriptive


Chapitre 3 : Série statistique à deux caractères
Responsable matière : Fodiyé Bakary DOUCOURE 36
36

Vous aimerez peut-être aussi