Vous êtes sur la page 1sur 19

Chapitre 03

STATISTIQUE DESCRIPTIVE

À DEUX VARIABLES

Cours de statistique 1
Cours de statistique 2
INTRODUCTION
La notion de statistique descriptive bivariée est abordée, lorsqu'une population statistique est décrite
simultanément selon deux caractères X et Y, et s'il existe un lien ou une liaison entre les deux caractères
de cette population, on parle alors d'une série statistique à deux variables X et Y ou bien d'une distribution
à deux caractères X et Y. Dans ce cas, les tableaux statistiques seront à deux dimensions, où il s'agit de
bien faire correspondre les effectifs des lignes et des colonnes.
Exemple: Etude statistique sur une population d'ouvrier selon deux caractères:
 1er caractère X: âge; 2ème caractère Y: salaire
 1er caractère X: salaire 2ème caractère Y: nombre d'enfant
 1er caractère X: âge 2ème caractère qualification

3.1 - APPROCHE GRAPHIQUE

3.1.1 – Tableau recensé de contingence


Les valeurs prises par les deux variables X et Y sont respectivement:
 xi  x1 , x2 ,......... .......... .xi ,......... .......... ..... xk 
 y j  y1 , y2 ,......... .......... y j ,......... .......... .... y p 
La distribution des effectifs est l'application qui, è chaque couple de valeurs (xi,yj) associé son effectif
partiel nij: (xi,yj) nij.

3.1.1.1 – Définition
On appelle tableau de contingence, ou tableau à double entrée, les tableaux statistiques qui décrivent
l'effectif nij de la population des individus qui ont simultanément la modalité xi du caractère X et la
modalité yj du caractère Y.

X\Y y1 y2 ………..yj…………….yp Total


x1 n11 n12 ………..n1j………..…n1p N1
x2 n21 n22 ………..n2j………..…n2p N2

xi ni1 ni2 ………..nij.....................nip Ni

xk nk1 nk2 ………..nkj………..…nkp Nk


Total N1 N2…………Nj…………...Np N

Les deux caractères X et Y, contenus dans le tableau de contingence peuvent être respectivement:

1°- Quantitatif simultanément


Exp: Etude statistique sur les salaires d'une entreprise selon:
 l'âge des salariéscaractère X
 le salaire mensuelcaractère Y
2° - Qualitatifs simultanément
Exp: Etude statistique sur un échantillon de chats selon:
 les espèces de chatscaractère X
 la couleur des yeuxcaractère Y
3° - Qualitatif et quantitatif
Exp: Etude statistique sur les ouvriers d'une entreprise selon:
 l'âgecaractère X
 la qualificationcaractère Y

Cours de statistique 2
3.1.1.2 – Elément du tableau de contingence

Pour pouvoir lire les éléments contenus dans le tableau de contingence, des conventions de notations
ont été établies.
 les modalités xi de la variable X apparaissent en colonne. Mais les effectifs nij apparaissent en
.ligne i.
 les modalités yj de la variable Y apparaissent en ligne. Mais les effectifs nij apparaissent en
.colonne j.
 nij: effectif partiel, il possède en même temps la modalité xi du caractère X et la modalité yj du
caractère Y.
 Ni: effectif marginal de la modalité xi. Il correspond à la somme des effectifs partiels de la
modalité xi.
p
N i  ni1  ni 2  .......... .  nij  .......... ...  nip   nij
j 1
 Nj: effectif marginal de la modalité yj. 9Il correspond à la somme des effectifs partiels de la
modalité yj
k
N j  n1 j  n2 j  .......... ..  nij  .......... ..  nkj   nij
i 1
 N: effectif total
p k k p
N   N i   N j   nij
j 1 i 1 i 1 j 1

3.2.1 – Fréquences relatives

3.2.1.1 – Fréquences relatives totales


La fréquence relative totale est définie comme le rapport du nombre d'individus possédant
nij
simultanément la modalité xi de X et la modalité yi de Y sur l'effectif total : f ij 
N
k p
La somme des fréquences relatives de tous les couples de valeurs (xi,yj) est égale à:  f
i 1 j 1
ij 1

3.2.1.2 – Fréquences relatives marginales

Ni
 fréquence relative marginale de la modalité xi : fi 
N
Nj
 fréquence relative marginale de la modalité yj : fj 
N
Avec:
k p

 fi   f j  1
i 1 j 1

Cours de statistique 3
3.2.1.3 – Fréquences conditionnelles
nij
 fréquence conditionnelle selon la variable X:
fi j  (lire fréquence de i SI j)
Nj
nij
 fréquence conditionnelle selon la variable Y:
f 
j
i
(lire fréquence de j SI i)
Ni
3.2.1.4 – Relation entre fréquences relatives marginales et conditionnelles

N i nij
fi . f 
j
i
 f ij
N Ni
N j nij
f j . fi j   f ij
N Nj
f ij  f i . f ji  f j . f i j

3.1.3 – Représentation graphique (Scatter plot ou nuage de point)

3.1.3.1 – le nuage de point (ou scatter plot)

La représentation graphique d'une série statistique à deux variables se fait dans un plan muni d'un
repère orthogonal dans lequel on peut associer au couple (xi,yj) de la série statistique double , un point Mi
de coordonnées xi et yj. L'ensemble des points Mi obtenus constitue le nuage de points (ou scatter plot)
représentant la série statistique

X
.
3.1.3.2 – Le point moyen

On appelle point moyen d'un nuage de n point Mi possédant les coordonnées (xi,yj), le point G de
coordonnées: G(xG,yG)
k p
1 1
xG  x 
Ni
x
i 1
i et yG  y 
Nj
y
j 1
j

Cours de statistique 4
3.2 – APPROCHE NUMERIQUE

3.2.1 – Paramètres marginaux de la variable X


Les paramètres marginaux (moyenne et variance) de la variable X, sont définit à partir de la colonne
marginale ou se trouve les effectifs Ni. Correspondant respectivement aux k modalités de X

1° – Moyenne arithmétique marginale


k k
1
x
N
 N .x   f .x
i 1
i i
i 1
i i Ou bien
1 k p
x   nij .xi
N i1 j 1

2° – Variance marginale

On définit la variance marginale de la variable X, comme étant égale à:


k k
1
V (X )   (X ) 
2

N
 N ( x  x)
i 1
i i
2
  f i ( xi  x) 2
i 1
ou bien en formule développée:
1 k 2 k 2
V ( X )  ( N i xi )  ( x )   f i xi2  ( x )
2

N i 1 i 1

3.2.2 – Paramètres marginaux de la variable Y


Les paramètres marginaux (moyenne et variance) de la variable Y, sont définit à partir de la ligne
marginale ou se trouve les effectifs Nj. Correspondant respectivement aux p modalités de Y

1° – Moyenne arithmétique marginale


1 p p
1 k p
y   N j .y j   f j .y j Ou bien y  nij . y j
N j 1 j 1 N i1 j 1

2° – Variance marginale

On définit la variance marginale de la variable X, comme étant égale à:


1 p p
V (Y )   (Y )   N j ( yi  y )   f j ( y j  y ) 2
2 2

N j 1 j 1
ou bien en formule développée:
1 p 2 p 2
V (Y )  ( N j y j )  ( y )   f j y j  ( y )
2 2

N j 1 j 1

3.2.2 – Paramètres conditionnels

3.2.2.1 – Paramètres conditionnels de X selon Y

On définit la moyenne arithmétique et la variance des distributions conditionnelles pour la variable


X, en fixant la modalité yj de la variable Y correspondant à la J-ème colonne des effectifs partiels tout en
faisant varier la variable X

Cours de statistique 5
1° - Moyenne arithmétique conditionnelle de X selon Y
k k
1
xj 
Nj
 n .x   f
i 1
ij i
i 1
i
j
.xi

La notation " x j " signifie: "moyenne conditionnelle de x", sachant Y=yj est fixe.

2° - Variance conditionnelle de X selon Y

Les paramètres conditionnels de X selon Y sont notés Vj(X). Ils sont définit comme suit:
k k
1
Vj (X ) 
Nj
 n (x  x )
i 1
ij i j
2
  f i j ( xi  x j ) 2
i 1

ou bien en formule développée:


1 k k
Vj ( X )  ( nij xi2 )  ( x 2j )   fi j xi2  ( x 2j )
N j i 1 i 1

3.2.2.2 – Paramètres conditionnel de Y selon X

On définit la moyenne arithmétique et la variance des distributions conditionnelles pour la variable


Y, en fixant la modalité xi de la variable X correspondant à la i-ème ligne des effectifs partiels tout en
faisant varier la variable Y

1° - Moyenne arithmétique conditionnelle de Y selon X


p p
1
yj 
Ni
 nij . y j   f ji . y j
j 1 j 1
La notation " y j " signifie: "moyenne conditionnelle de y", sachant X= xi est fixe.

2° - Variance conditionnelle de Y selon X


Les paramètres conditionnels de Y selon X sont notés V(Y). Ils sont définit comme suit:
p p
1
Vi (Y ) 
Ni
n (y
j 1
ij j  yi )   f i j ( y j  yi ) 2
2

j 1
ou bien en formule développée:
1 p p
Vi (Y )  ( nij y j )  ( yi )   fi j y 2j  ( yi2 )
2 2

N i j 1 j 1

3.2.3 – Relation entre paramètres marginaux et conditionnels


Les relations entres les paramètres marginaux et conditionnels concernent les liaisons entre les
moyennes mais également entre les variances. Ces relations trouvent leur importance dans le calcul du
rapport de corrélation.

3.2.3.1 – Relation entre moyenne marginale et conditionnelle


La moyenne marginale est égale à la moyenne des moyennes conditionnelles, pondérée par les
fréquences relatives marginales.
1 p p
1 k k
x   N j .x j   f j .x j et
y  N .y   f .y
i j i i
N j 1 j 1 N i 1 i 1
Cours de statistique 6
3.2.3.2 – Relation entre variance marginale et conditionnelle
p p
1 1
V (X ) 
N

j 1
N j ( x j  x) 
N
2
V ( X ) N
j 1
j j

k k
1 1
V (Y ) 
N

i 1
N i ( yi  y ) 2

N
 V (Y ) N
i 1
i i

3.2.3 – La covariance
La covariance du couple de variable (X,Y) est la moyenne du produit des écarts aux moyennes
( xi  x)( y j  y ) .
1 k p
COV ( X , Y )   nij ( xi  x)( y j  y)
N i1 j 1
ou bien avec les fréquences relatives
k p
COV ( X , Y )   f ij ( xi  x)( y j  y )
i 1 j 1
La formule développée:
k p
COV ( X , Y )   fij xi y j  x. y
i 1 j 1

3.3 – LIAISON ENTRE DEUX VARIABLES

3.3.1 – Indépendance et dépendance


On distingue en général trois types de liaisons entres les deux caractères X et Y.
 liaison nulle: aucun lien n'existe entre les deux caractères X et Y
 liaison totale: les deux caractères X et Y sont intimement liés, telle que la connaissance de l'un
implique la connaissance de l'autre.
 liaison relative: la dépendance entre les deux caractères X et Y est variable, elle n'est ni nulle (0%)
ni totale (100%), mais elle peut prendre des valeurs intermédiaires: faible, moyenne, ou forte,etc..)

3.3.2 – Indépendance totale


On dit que deux caractères X et Y sont totalement dépendants lorsque leurs influences réciproques
sont nulles. En termes plus formels, les deux caractères X et Y sont totalement indépendants si les
fréquences conditionnelles f i j ne dépendent pas de j, et elle sont égale aux fréquences marginales.
Exemple: Soit donnée la répartition d'un ensemble de 75 étudiants selon la caractère X résultats de
l'examen de mathématiques et la caractère Y couleur des cheveux :
X: Résultats de l'examen
Y: Couleur des yeux

X\Y Noirs Clairs Total


[60-70[ 5 10 15
[70-80[ 10 20 30
[80-90[ 5 10 15
[90-100[ 5 10 15
Total 25 50 75

Cours de statistique 7
Pour affirmer l'existence de la dépendance ou de l'indépendance entre les deux caractères X et Y, on
doit calculer les fréquences relatives marginales et conditionnelles.

X\Y Noirs Clairs Total fi fi1 fi2


[60-70[ 5 10 15 0.2 0.2 0.2
[70-80[ 10 20 30 0.4 0.4 0.4
[80-90[ 5 10 15 0.2 0.2 0.2
[90-100[ 5 10 15 0.2 0.2 0.2
Total 25 50 75 1 1 1
fj 0.333 0.666 1
fj1 0.333 0.666 1
fj2 0.333 0.666 1
fj3 0.333 0.666 1
fj4 0.333 0.666 1

On constate que :
 chacune des fréquences relatives conditionnelles f i
j
de X est égale à la fréquence relative
marginale fj de X.
 chacune des fréquences relatives conditionnelles f j
i
de Y est égale à la fréquence relative
marginale fj de Y.
Conclusion: les deux caractères sont indépendants

3.3.3 – Dépendance totale

On dit que deux caractères X et Y sont totalement dépendant ou bien possèdent une liaison
fonctionnelle si à chaque modalité yi de Y correspond une seule modalité xi de X.

X\Y y1 y2 y3 Total fi fi1 fi2 fi3


x1 5 0 0 5 0.25 1 0 0
x2 0 6 0 6 0.3 0 1 0
x3 0 0 9 9 0.45 0 0 1
Total 5 6 9 20 1 1 1 1
fj 0.25 0.3 0.45 1
fj1 1 0 0 1
fj2 0 1 0 1
fj3 0 0 1 1

Conclusion:
 Dans le cas de la dépendance totale, il n'y a qu'une seule valeur par ligne et par colonne
 les valeurs des variables sont égales aux moyennes conditionnelles

3.3.4 – liaison relative


On dit que deux caractères X et Y sont relativement liés lorsque la distribution statistique du couple
de valeurs (xi ,yj ) fait correspondre sur le graphe un nuage de point plus ou moins allongé.

Cours de statistique 8
3.2.5 – Exercice d'application

3.2.4.1- Enoncé
Au cours d'une expérience agricole, on a cherché à connaître l'influence du facteur quantité d'eau
(variable X) sur les rendements de betterave à sucre (variable Y). On désigne par x i les quantités d'eau
utilisées et yj les rendements de betterave sucrière correspondant. L'expérience a donné les résultats
suivants :
Les quantités d'eau xi [m3/ha] 3 5 6 8 9 11 13 15
Les rendements yj [Qx/ha] 5 7 8 10 12 14 17 20

a – Quel est le type de liaison entre la variable X et Y


b – Etablir le tableau recensé de la série statistique
c - Calculer les variances marginales
d - Calculer la covariance (X,Y)

3.2.4.2 – Méthode de résolution

1° - Type de liaison entre X et Y


Puisqu' à chaque modalité yj de la variable Y correspond une seule modalité xi de la variable X . A
cet effet, il s'agit d'une liaison fonctionnelle réciproque car les données sont connues individuellement et
sans pondération.

2° - Etablissement du tableau recensé de la série statistique

X \ Y 5 7 8 10 12 14 17 20 Ni
3 1 0 0 0 0 0 0 0 1
5 0 1 0 0 0 0 0 0 1
6 0 0 1 0 0 0 0 0 1
8 0 0 0 1 0 0 0 0 1
9 0 0 0 0 1 0 0 0 1
11 0 0 0 0 0 1 0 0 1
13 0 0 0 0 0 0 1 0 1
15 0 0 0 0 0 0 0 1 1
Nj 1 1 1 1 1 1 1 1 N=8

3° - Calcul des variances marginales


A partir du tableau recensé, on détermine les variances marginales :

xi yj xi2 yj2 xiyj


3 5 9 25 15
5 7 25 49 35
6 8 36 64 48
8 10 64 100 80
9 12 81 144 108
11 14 121 196 154
13 17 169 289 221
15 20 225 400 300
x i  70 y j  93  xi2  730  y 2j  1267  xi y j  961

Cours de statistique 9
1 8 1
x 
N i 1
xi  70  8.75
8
1 8 1
y 
N j 1
y j  93  11.625
8
1 8 2 1

2
V (X )  [ xi  x ]  [730  (8.75) 2 ]  14.6875
N i 1 8
1 8 2 1

2
V (Y )  [ y j  y ]  [1267  (11.625) 2 ]  23.234
N j 1 8

4° - Calcul de la covariance

1 8 1
cov( X , Y )  ( nij xi y j )  ( x. y )  (961)  [(8.75)(11.625)]  18.406
N i 1 8

3.4 – L'AJUSTEMENT

Les techniques générales de l'ajustement (théorie de la régression) sont très importantes. Les
éléments présentés ci-après sont de simples initiations è cette théorie. L'ajustement linéaire et non linéaire
par la méthode des moindres carrés possède un grand intérêt dans l'analyse des phénomènes.

3.4.2 – Principe d'ajustement

Le principe de l'ajustement consiste à faire la représentation graphique de couple (xi, yj) dans le plan
pour pouvoir établir une relation entre les coordonnées des points. La relation entre les coordonnées de
points s'appelle: l'équation de la courbe.
Lorsqu'on porte sur un graphique les points représentatifs (pi avec i=j) des couples des valeurs (xi,yj),
ces points forment un nuage de points. En fonction de la configuration de ce nuage de points on peut
ajuster par une courbe dont on connaît en général l'équation mathématique usuelle.

y y

x x
Nuage suggérant un ajustement Nuage suggérant un ajustement
2
par une droite: y=ax+b ; a>0 par une parabole: y=ax +bx+c

y y

x x
Nuage suggérant un ajustement Nuage suggérant indépendance:
par une hyperbole: y=1/(ax +b) points répartis au hasard dans le plan

Cours de statistique 10
3.4.3 – Les équations des courbes d'ajustement

Parmi les équations de courbe d'ajustement les plus connues, on peut citer:
1 – équation de la droite: y  ax  b
2 – équation de la parabole: y  ax 2  bx  c
1
3 – équation de l'hyperbole: y 
ax  b
4 – équation de l'exponentielle: y  ab x ou bien log( y )  log(a)  x log(b)
5 – la fonction puissance: y  ax b ou bien log( y )  log(a)  b log(x)
k
6 – la fonction puissance logistique: y 
1  e F (t )

7 – les lois d'ENGEL (enquêtes de consommation)

3.4.4 – Ajustement linéaire (ou affine)

Parmi toutes les méthodes citées ci-dessus, il faut définir la méthode qu'il y a lieu de retenir pour
minimiser chaque somme d'écarts. On distingue:
Les écarts en valeurs relatives, les écarts en valeurs absolues et le carré des écarts.
 Les écarts en valeurs relatives ne peuvent pas être retenus en raison de la compensation qui en
résulte.
 les écarts en valeurs absolues ne peuvent pas être retenus en raison des difficultés de leurs
maniements.
En conséquence, la somme des carrés des écarts fera l'objet de minimisation, cette méthode est
appelée: méthode des moindres carrés.
Le principe des moindres carrés a été développé au début du 19ème siècle, et a connu depuis, des
applications importantes dans de nombreux domaines. Il s'est révélé un instrument statistique d'une
grande utilité en donnant plus de rigueur et de rationalité à l'analyse des problèmes observés.

3.4..4.1 – Principe des moindres carrées

Le principe des moindres carrés a pour but de trouver l'équation d'ajustement qui rend minimum
l'écart ou la différence entre les valeurs observées dans la réalité et les valeurs théoriques données par la
courbe.
Pour une valeur donnée de xi il y aura un écart ei entre la valeur observée yj et la valeur y'j déterminé à
partir de la courbe. Cet écart ei peut être positif ou négatif ou nul. Ainsi pour chaque valeur de xi on peut
déterminer un écart vertical: e1,e2,…………ek.

- Soit yj' la valeur théorique (donnée par la y


courbe d'ajustement), on peut écrire: y 'j  f ( xi )
- La courbe d'équation y 'j  f ( xi ) ne peut être
considérée comme une meilleure équation
d'ajustement des points (xi,yj) si et seulement si
la somme des écarts ei  y 'j  y j est la plus
e

faible possible ou minimum.


yj
- Cet ensemble des écarts qu'il faudra minimiser
n
y'j
peut être caractérisé par: y
i 1
'
j  y j  minimum

Cours de statistique xi x 11
3.4.4.2 – Ajustement graphique

1° - Ajustement à la règle
On trace au jugé une droite D passant le plus près possible des points du nuage de points, en
s'efforçant d'équilibrer le nombre de points situés de part et d'autre de la droite D.
L'équation de D est alors de la forme y  ax  b . Pour trouver cette équation, il suffit de connaître deux
points de D

2° - Ajustement par la méthode de MAYER


On partage le nuage de points en deux nuages de points de nombre équivalents. On calcule alors le
point moyen de chaque nuage qu'on appelle G1 et G2. La droite (G1,G2) est la droite de Mayer. Elle
passe de plus par le point G. C'est une bonne approximation, si le nuage de points est allongé.

3.4.4.3 – Ajustement analytique (méthode des moindres carrés)

1° - La droite de régression
La méthode analytique consiste à ajuster le nuage de point (x i,yi) de la série d'observation par une
droite de la forme y  ax  b , tout en cherchant à minimiser les écarts entres les points.
Deux types d'écarts peuvent être définis: un écart vertical et un écart horizontal, et à chaque type
d'écart correspond un type de droites.
 L'écart vertical mesure le différence entre deux valeur de Y, c'est-à-dire yj (valeur observée) et yj'
(valeur théorique), sachant que la valeur xi de X est fixée. C'est l'étude du caractère Y en fonction
du caractère X.
A partir de la valeur xi, la valeur yj correspondante est ajustée par la valeur yj' déterminée
par une droite D ayant pour équation y 'j  axi  b où a et b sont deux paramètres à déterminer.
On appelle droite de régression de Y en X, la droite D telle que:
p p y

e
j 1
2
j  min   ( y  y j )  min
j 1
'
j
2

D
Le point M constitue le centre de gravité du nuage yj
de points par lequel passe la droite D.
ej

Ce centre de gravité a pour coordonnées ( x, y ) ou bien ( x , y ) y'j M


Lorsque i=j M devient le point moyen

xi x
 L'écart horizontal mesure le différence entre deux valeur de X, c'est-à-dire xi (valeur observée) et
xi' (valeur théorique), sachant que la valeur yj de Y est fixée. C'est l'étude du caractère X en
fonction du caractère Y.
A partir de la valeur yj , la valeur xi correspondante est ajustée par la valeur xi' déterminée
par une droite D' ayant pour équation xi'  a ' y j  b ' où a' et b' sont deux paramètres à déterminer.
On appelle droite de régression de X en Y, la droite D', telle que: y
k k

e
i 1
2
i  min   ( xi'  xi ) 2  min
i 1
D'
yj
le point N constitue le centre de gravité du nuage N
de points par lequel passe la droite D'.
Ce centre de gravité a pour coordonnées ( x, y ) ou bien ( x , y ) ei

Lorsque i=j N devient le point moyen


xi x'i x

Cours de statistique 12
2° - Détermination des coefficients des droites D et D'
Pour déterminer les coefficients a et b, a' et b' des deux droites y  ax  b et xi'  a' y j  b' , il faut que la
somme des carrés des écarts soit minimum.
cov( X , Y ) cov( X , Y )
a – Détermination de a et a': a et a' 
V (X ) V (Y )
b – Détermination de b et b': b  y  ax et b'  x  a ' y

3.4.5 – Exercice d'application

3.2.4.1- Enoncé
Au cours d'une expérience agricole, on a cherché à connaître l'influence du facteur quantité d'eau
(variable X) sur les rendements de betterave à sucre (variable Y). On désigne par x i les quantités d'eau
utilisées et yj les rendements de betterave sucrière correspondant. L'expérience a donné les résultats
suivants :
Les quantités d'eau xi [m3/ha] 3 5 6 8 9 11 13 15
Les rendements yj [Qx/ha] 5 7 8 10 12 14 17 20

a – Déterminer l'équation de la droite D de régression de y en x


b – Déterminer l'équation de la droite D' de régression de x en y
c – Tracer les droites de régression D et D'et ajuster les deux droites de régression D et D' aux
points de nuage, à partir de la série d'observations concernant les rendement de betterave (Y)
en fonction des quantités d'eau (X) utilisées.

On donne: cov(X,Y)= 18,406, V(X)= 14,6875, V(Y)=23,234

3.2.4.2 – Méthode de résolution

1° - Détermination de l'équation de la droite D:


L'équation de la droite D de régression de y en x est égale à : y  ax  b
cov( X , Y ) 18,406
 le coefficient a est égal: a    1,253
V (X ) 14,6875
 le coefficient b est égal: b  y  a x  11,625  (1,253)(8,75)  0,661

Donc: y  1,253x  0,661

2° - Détermination de l'équation de la droite D':


L'équation de la droite D' de régression de x en y est égale à : x  a' y  b'
cov( X , Y ) 18,406
 le coefficient a' est égal: a'    0,792
V (Y ) 23,234
 le coefficient b' est égal: b'  x  a' y  8,75  (0,792)(11,625)  0,457

Donc: x  0,792 y  0,457


Pour tracer la droite de régression D', on transforme l'équation x  0,792 y  0,457 en :
1 b'
y  x .
a' a'

Cours de statistique 13
1 0,457
d'où: y  x  y  1,262x  0577
0,792 0,792

3° - Le tracé des droites de régression Y


D'
D
x Y1 Y2 20
3 4.42 4.363
5 6.926 6.887 
6 8.179 8.149
15
8 10.685 10.673
9 11.938 11.935
11 14.444 14.459 y  11.625
13 16.95 16.983 10
15 19.456 19.507

x  8,75

5 10 15 20 X

Si on trace les deux droites de régression D et D', sur le plan cartésien, on obtient le graphe suivant:
 Les deux droites ramenées aux mêmes axes forment entre elles un angle  appelé angle de
régression.
 Comme ces deux droites D et D', ont un point commun ( x, y ) elles seront confondues si leur
1
pentes sont égales, c'est-à-dire a  , dans ce cas ont qu'il existe une liaison fonctionnelle entre la
a'
variable X et la variable Y.

3.5 – LA CORRELATION

Pour savoir dans quelle mesure la droite D (ou D') trouvée approche bien le nuage de points, on
introduit la notion de " coefficient de corrélation"

3.5.1 – Définition de la corrélation

La corrélation c'est l'étude des liaisons entre les variables d'une série d'observations. Cette étude est
importante, car elle permet de mesurer le degré de dépendance ou non entre les variables.

3.5.2 – Coefficient de corrélation

Le coefficient de corrélation est un instrument utiliser en statistique pour mesurer l'intensité de la


dépendance entre les variables. On distingue:
- coefficient de corrélation simple: étude de corrélation entre deux variables;
- coefficient de corrélation multiple: étude de corrélation entre plusieurs variables
La nature de la corrélation simple dépend de la nature de l'équation d'ajustement. La corrélation peut être
linéaire ou non linéaire.

Cours de statistique 14
3.5.3 – La corrélation linéaire

3.5.3.1 – Coefficient de corrélation de BRAVAIS -PEARSON


On dit qu'une variable est en corrélation linéaire avec une autre variable si son ajustement est traduit
par une équation linéaire avec cette autre variable.

L'angle de régression formé par les deux droites D et D', est un indicateur du degré de dépendance
entre les deux variables X et Y.

Cas 1: Si  = 0  a.a'=1  dépendance totale (ou liaison fonctionnelle)


Cas 2: Si  = 90°  a.a'= 0  Indépendance totale

C'est à partir de la dépendance totale (a.a'=1), que le coefficient de corrélation linéaire r a été défini,
c'est un coefficient sans dimension.
Pour faire apparaître les valeurs positives et négatives, la valeur de r sera égale au produit des deux
pentes a et a', est élevé au carré: r 2  a.a '  1 .On définit le coefficient de corrélation :

r   a.a'
En remplaçant a et a' par leurs expressions, on obtient:
[cov( X , Y )]2 cov( X , Y )
r d'où: r
V ( X ).V (Y )  ( X ). (Y )
3.5.3.2 – Propriétés du coefficient de corrélation

1° - Si r 2  a.a '  1 : r  1 ou bien r  1 , c'est-à-dire  1  r  1


2° - Si r > 0 :X et Y varient dans le même sens.
Si r < 0 :X et Y varient dans le sens contraire
3° - Si 0,70  r <1 : Présence d'une corrélation linéaire et ajustement par une droite possible
4° - Si r = 0 : X et Y sont indépendants

Cours de statistique 15
EXERCICE 01
Soit donnée, la distribution d'un échantillon de 200 personnes selon les deux caractères suivants:

Y
Fumeurs Non-fumeurs
X
Cancéreux 50 30
Non cancéreux 30 90

1°- Définir l'unité statistique et donner le nombre de caractères selon lesquels est décrite.
2°- Tracer le nuage des points.
3°- Déterminer le point moyen.
4°- Etablir le tableau de contingence.

EXERCICE 02
Soit donnée, la distribution des étudiants d'une classe selon l'âge et le sexe.

Sexe
Age Masculin Féminin
[18 - 20[ 10 15
[20 - 22[ 30 20
[22 - 24[ 20 5

1°- Définir l'unité statistique et donner le nombre de caractères selon lesquels est décrite.
2°- Tracer le nuage des points.
3°- Déterminer le point moyen.
4°- Etablir le tableau de contingence.
5°- Calculer les paramètres des lois marginales.
6°- Calculer les paramètres des lois conditionnelles.
7°- Calculer la covariance

EXERCICE 03
Soit donnée, la distribution des cadres d'une entreprise selon le salaire mensuel et le nombre
d'enfants.

Nb d'enfants
Salaire 1 2 3 4
[20 000 - 40 000[ 3 4 2 8
[40 000 - 60 000[ 6 5 3 5
[60 000 - 80 000[ 8 1 2 3

1°- Définir l'unité statistique et donner le nombre de caractères selon lesquels est décrite.
2°- Tracer le nuage des points.
3°- Déterminer le point moyen.
4°- Etablir le tableau de contingence.
5°- Calculer les paramètres des lois marginales.
6°- Calculer les paramètres des lois conditionnelles.
7°- Calculer la covariance
EXERCICE 04
On considère un échantillon de 800 ménages classés selon deux caractères: le nombre de pièces par
logement (variable X) et le nombre d'enfants (variable Y).

Y
X 1 2 3 4 5 6 7 8
1 10 15 5 2 1 0 0 0
2 20 20 25 30 10 5 3 2
3 15 50 60 50 70 80 40 20
4 5 20 40 18 35 25 20 25
5 3 4 5 8 10 15 5 15
6 1 1 2 3 5 2 3 2

1°- Calculer les moyennes marginales.


2°- Calculer les variances marginales.
3°- Calculer les écarts-types

EXERCICE 05
Soit donnée une série statistique bivariée concernant un échantillon de 100 personnes classées selon
les dépenses de consommation mensuelles (caractères X) et les revenus mensuels (caractère Y) en
milliers de dinars.

Revenus
Dépenses [15 – 16[ [16 - 17[ [17 – 18[ [18 - 19[
[3 – 4[ 20 9 1 0
[4 – 5[ 2 18 4 1
[5 - 6[ 0 6 19 20

1°- Calculer les moyennes marginales.


2°- Calculer les variances marginales.
3°- Calculer les écarts-types
4° - Calculer la covariance.
5° - Calculer le coefficient de corrélation

EXERCICE 06: (Ajustement par la droite de MAYER)


Dans un atelier de fabrication, une machine-outil produit automatiquement des pièces cylindriques.
Réglée initialement pour un diamètre de 8 [mm] , elle se dérègle en cours d'utilisation. Afin de contrôler
la fabrication et de procéder aux réglages éventuellement nécessaires, on demande de déterminer le
nombre de pièces que la machine-outil pourra produire avant que le diamètre n'atteigne 8,1 [mm].
Pour ce faire, on mesure le diamètre de la dernière pièce dans chaque série de 10 pièces produites.
Les résultats de ces mesures sont donné dans le tableau suivant.

N° de la pièce (xi) 10 20 30 40 50 60 70 80 90 100


 de la pièce (yi) 8.00 8.00 8.01 8.01 8.02 8.03 8.03 8.04 8.05 8.06

1°. Représenter dans un plans muni d'un repère orthonormé le nuage de points Mi(xi,yj) associé à la
statistique.On prendra :
 pour origine: le point de coordonnées (0,8),
 pour unité: 1[cm] → 10 [pièces] en abscisse et 1[cm] → 0,01 [mm] en ordonnées.
2°. Calculer les coordonnées du point moyen G du nuage et représentez le dans le graphique. du
nuage de points.
3°. Détermination de la droite de régression
a. Calculer les coordonnées du point G1 associé aux points du nuage ayant les cinq plus petites
abscisses et les coordonnées du point G2 associé aux cinq autres points du nuage.
b. Tracer la droite d'ajustement de MAYER qui passe par (G1,G2).
c. Formuler l'équation de la droite de MAYER.
4°. Sachant que les pièces produites doivent avoir un diamètre de 8 [mm], avec une tolérance de 0,1
[mm]. On demande de:
a. Déterminer graphiquement le nombre de pièces que l'on pourra produire avant que le diamètre
n'atteigne la valeur de 8,1 [mm].
b. Calculer ce même nombre à l'aide de l'équation de la droite de MAYER.

EXERCICE 07: (Ajustement par les moindres carrés)


Le tableau suivant donne la moyenne y des maxima de la tension artérielle en fonction de l'âge x
d'une population donnée.

Age (xi) 36 42 48 54 60 66
Tension (yi) 12 13.5 13.6 14.3 15.4 15

1°. Représenter graphiquement le nuage de points M(x,y) dans un repère orthogonal. On prendra:
 pour origine: le point de coordonnées (30,10).
 pour unité: 0,5[cm] → 1 [an] en abscisse et 1[cm] → 1 [unité de tension] en ordonnées.
2°. Détermination de la droite de régression.
a. Si on admet qu'un ajustement par la méthode des moindres carrés est justifié. Calculer, à 0.01
près, le coefficient de corrélation entre x et y.
b. Formuler l'équation de la droite de régression de y en x (précision des coefficients 0.001)
c. Représenter graphiquement la droite de régression.
d. Si une personne de 70 ans a une tension de 16.1.- Quelle serait sa tension théorique en
Utilisant la droite de régression? –Comparez cette tension théorique avec la tension réelle

Vous aimerez peut-être aussi