Vous êtes sur la page 1sur 15

Chapitre 3 

:Série statistique à deux caractères


(ou à deux variables)

On observe une population P suivant deux caractères quantitatifs X et Y . X présente r


 
modalités  x1 , x2 ,...., xr  et Y présente p modalités y1 , y2 ,....., y p . Si une des variables est
continue, les modalités associées à cette variable sont des classes.

I- Tableau de contingence.

Définition : on appelle distribution statistique à deux variables la donnée


  
xi ; y j ; nij ; i  1,...., r; j  1,....., p où nij désigne le nombre d’observations présentant à la
fois la modalité xi et la modalité y j .
On appelle « tableau de contingence » le tableau à couple entrée représentant cette
représentation.
Il permet de voir comment se distribuent les effectifs de chaque modalités d’un caractère
suivant les modalités de l’autre.

Y Y1 Y2 _ _ _ Yj ___ Yp ni 
X
x1 n11 n12 - n1 j - n1 p n1
x2 n21 n22 - n2 j - n2 p n2
- - - - - - - -
- - - - - -
xi ni1 ni 2 - nij - nip ni 
- - - - - - - -
- - - - - - - -
xr nr1 nr 2 - nrj - nrp nr 
n j n1 n2 ___ n j ___ n p n

nij
A partir de ce tableau, nous en pouvons définir la fréquence du couple  xi ; y j  par : f ij 
n
r  p 
où n     nij  et n étant l’effectif total. Cette fréquence représente la proportion
i 1  j 1 
d’individus vérifiant à la fois la modalité xi et la modalité y j . Les paramètres utilisés pour
caractériser les séries statistiques à deux variables sont de deux types :
 Ceux qui ne concernent qu’une variable à la fois à partir des distributions des variables
sont appelés « marginales et conditionnelles ».
 Ceux qui s’intéressent à la distribution globale et qui servent à décrire les relations qui
existe entre les deux variables d’observation.

II- Distribution marginales et conditionnelles.

1) Distribution marginale.
p

Définitions : on appelle effectif marginal associé à xi la quantité ni    nij .


j 1
r
De même, l’effectif marginal associé a y j est n j   nij .
i 1

ni 
Fréquences marginales : la fréquence marginale associé a xi est : fi   avec  i  1,...., r  .
n
n j
La fréquence marginale associé a y j est : f  j  avec
n
 j  1,...., p  .
Tableau des distributions marginales :

Pour X  : Pour Y :

ni  n j
X ni  fi   Y n j f j 
n n
x1 n1 f1 y1 n1 f 1
x2 n2 f2 y2 n2 f 2
- - - - - -
- - - - - -
xi ni 
fi  yi ni f i
- - - - - -
- - - - - -
xr nr  fr  yp n p f p
 n 1  n 1

Moyennes marginales : En notant par x la moyenne marginale de X , on a :


 ni    xi r  p 
 
r r
1
x    fi    xi        fij  xi  .
i 1 i 1 n n i 1  j 1 
De même, la moyenne marginale de Y est la quantité :
p p n
1 p r p

 
r
j
y   f j  y j    yj   nij  y j   f ij  y j .
j 1 j 1 n n j 1 i 1 j 1 i 1
Variances marginales : En notant respectivement par  x et  y ces variances, on a :
2 2

 n
  
r 2 r 2
 x2   fi  xi  x   i   xi  x
i 1 i 1 n
p
 y2   f  j  y j  y 
2

j 1

Exemple de base : On étudie la distribution de 20 individus suivant deux caractères : X


(salaire horaire en €) et Y (âge en années).

Tableau de contingence :

Y ni 
25 35 45 55
X
3 3 1 1 0 5
5 1 5 0 0 6
7 0 1 3 0 4
9 0 0 1 2 3
11 0 0 2 0 2
n j 4 7 7 2 20

Pour X  : Pour Y :

ni 
X ni  fi  
n n j
Y n j f j 
3 5 5 n
20 25 4 4
5 6 6 20
20 35 7 7
7 4 4 20
20 45 7 7
9 3 3 20
20 55 2 2
11 2 2 20
20  20 1
 20 1

Moyennes marginales :
5
5  3  6  5  4  7  3  9  2 11
x   fi   xi   6.10
i 1 20

4
4  25  7  35  7  45  2  55
y   f j  y j   38.5
j 1 20
Variances marginales :

 5 2 5  32  6  52  4  7 2  3  92  2 112
   
5 2 2
 x2   fi  xi  x    fi   xi    x    6.10   6.59
2

i 1  i 1  20
4
4  25  7  35  7  45  2  55
2 2 2 2
 y2   f j  yj  y    38.5   82.75
2 2

i 1 20

2) Distributions conditionnelles.

Si on étudie le caractère X uniquement sur les individus vérifiant, ou satisfaisant, à la


modalité y j de X alors on définit un nouveau type de distribution d’une série à 1 variable
appelée « distribution conditionnelle ».
 
Définition : on appelle distribution conditionnelle de X sachant Y  y j ,  X Y  y  , la
 j 

nij
j

donnée du couple  xi , fi  , i  1,....., r avec f i 
j

n j

(lire fi si j ).

Pour la variable X , il y a p distributions conditionnelles X Y .  


De même, la variable Y admet r distributions conditionnelles Y  
X , définies de la manière
 
suivante : « la distribution conditionnelle de Y sachant X  xi .  Y X  x  est la donnée de la
 i

nij

famille, et :  y j , f j  , j  1,...., p avec f j 
i i

ni 

(lire f j si i ).

Moyennes conditionnelles :
r
X
Pour Y  y j , j  fi xi , il y a donc p moyennes conditionnelles x j .
 j
x
i 1
p

Pour Y X  x , yi   f j y j , il y a donc r moyennes conditionnelles yi .


i
i j 1

Variances conditionnelles :
X
Pour Y  y j , on notera cette variance conditionnelle par V j  x  , ou par  y et
2

x x 
r
V j  x    fi j
i j avec  j  1,...., p   .
i 1
p

Pour Y X  x , la variance conditionnelle est : Vi  Y    f j  y j  y j  , avec  i  1,......, r  .


i 2

i j 1

Application numérique :
Supposons que l’on veut étudier la distributions du salaire horaire des individus ages de 35
ans, la variable étudiée est la variable conditionnelle X Y  35 ans .
Tableau de cette distribution :

ni 2
X ni 2 fi 2 
n2
Moyenne conditionnelle :
3 1 1 5
1  5  5  1  7
7 x 2   f i 2 xi   5€
i 1 7
5 5 5
7
7 1 1 Variance conditionnelle :

   
5 2 5 2
7 V2 (x)   fi 2 xi2  x 2   fi 2 xi2  x 2
9 0 0 i 1 i 1 .
1 3  5  5  1 7
2 2 2
  52  1.143 € 2
11 0 0 7

 7 1

Etudions maintenant la distribution de l’age des salaires gagnant un salaire horaire égal a 3€.
La variable étudiée est la variable conditionnelle Y X  3€ .

Tableau de cette distribution :

n1 j
Y ni j f j1  Moyenne conditionnelle :
n1
25 3 3 4
3  25  1 35  1 45
y1   f j1 y j   31 ans
7 j 1 5
35 1 1
7 Variance conditionnelle :
45 1 1
4
7 V1 ( y )   f j1 y 2j   y1 
2

55 0 0 j 1 .
3  252  1 352  1 452
 7 1   312  64 ans 2
5

3) Relations entre les distributions conditionnelles et marginales.

Lorsqu’une population  P  est décrite suivant 2 caractères X et Y la référence aux


distributions conditionnelles permet de considérer  P  comme un mélange de sous
populations. En effet, la distribution marginale de X résulte du mélange de distributions
X n j
conditionnelles Y  y j avec  j  1,...., p  , représentées en population f  j ou .
n
De même, la distribution marginale de Y résulte du mélange des r distributions
ni 
conditionnelles X Y  x avec  i  1,....., r  , représentées en proportions par fi  ou .
i n
a) Relation entre la moyenne marginale et les moyennes conditionnelles.

La moyenne marginale est la moyenne des moyennes conditionnelles, pondérée par les fi  ou
les f  j selon la variable considérée.
p r
D’où : x   f  j x j et y   fi   yi
j 1 i 1

b) Relation entre la variance marginale et les variances conditionnelles.

La technique de la composition de la variance globale dans le cadre des mélanges de sous


populations donne :
Variance globale  moyenne des variances conditionnelles  variance des moyennes conditionnelles
p p

D’où les résultats suivants : V ( x)   x   f  j  V j  x    f  j  x j  x 


2 2

j 1 j 1
r r
V ( y)   y2   fi   Vi  y    fi   yi  y  .
2

i 1 i 1

c) Rapport de corrélation.

Définition : On appelle rapport de corrélation de Y en X noté  y , la part de la variance des


2

x
r

 fi   y  y 
2
i
moyennes conditionnelles de X , c’est-à-dire : .
 y2  i 1

x V ( y)

De même, le rapport de corrélation de X en Y est la part de la variance


marginal de X représentée par la variance des moyennes conditionnelles de X et on le note
p

 f j  x  x
2

 2
x , on a : j 1
j
.
y  2x 
y V ( x)

Propriétés : le rapport de corrélation mesure le degré de dépendance fonctionnelle des


moyennes conditionnelles d’une variable en fonction de l’autre.
En général, on a : -  y   x
2 2

x y

- 0    1 (cf propriété de  2 )
Si  2
y  1 , on dit que Y est lié fonctionnellement à X . De même, si  x2  1 , on dit que X
x y
est lié fonctionnellement à Y .

Remarque :  y x =0   x y  0 .
2 2
Si  y  0 , alors on dit que Y est carrelée avec X .
2

Si  x y  0 , alors on dit que X est carrelée avec Y .


2

Application numérique :

Y ni  yi
25 35 45 55
X
3 3 1 1 0 5 31
5 1 5 0 0 6 33.33
7 0 1 3 0 4 42.5
9 0 0 1 2 3 51.66
1 0 0 2 0 2 45
n j 4 7 7 2 20
xj 3.5 5 7.86 9

4 n
4
j 4  3.5  7  5  7  7.86  2  9
x   fij x j    xj   6.10 .
j 1 j 1 n 20
5
5  312  6  33.332  4  42.52  3  51.662  2  452  38.52
y   fi   yi   0.67 .
i 1 82.750
L’âge est donc corrélé avec le salaire horaire.

4  3.52  7  52  7  7.862  2  9 2
f j  x j  x   6.102
2
4
 2x    20  0.561 .
y j 1 V ( x) 6.59
Le salaire horaire est corrélé avec l’âge comme  y   x y , la corrélation de Y avec X est
2 2

x
plus forte que celle de X avec Y .

III- Indépendance statistique

1) Définition :

X
Pour chaque valeur y j de Yi , la distribution conditionnelle de Y  y j est identique à la
distribution marginale de X , on dit que X est statistiquement indépendante de Y .
nij ni 
X est statistiquement indépendant de Y si et seulement si :   f i j  fi    i, j  .
n j n

2) Propriétés :
Si X est statistiquement indépendant de Y , alors :

a) Y est aussi indépendant de X  : on dit que X et Y sont indépendantes (l’une de


l’autre).

Preuve : On sait par définition que si X est indépendante de Y , alors on a :


nij ni  nij n j
    f ji  f  j .
n j n n j n

b) nij  n  n j  ni    i, j  ou encore fij  f  j  fi  .

nij  n n j ni 
En effet, nij  n  n j  ni     .
n  n n n

n i 1  j 1 n i 1 j


c)    i, j  , c’est-à-dire les lignes (ou les colonnes) du tableau de
ni j 1 nij
contingence sont proportionnels entre elles :
Y y j 1 yj
-----------
X
-------------- ----------- ----------- ---------

xi 1 ----------- n i 1  j 1 n i 1 j

xi ----------- ni j 1 nij

d) Si y  yi  i  , alors on a x  x j  j  (Attention la réciproque est fausse).

IV-Covariance et coefficient de corrélation linéaire.

1) Covariance.

Définition : On appelle covariance de X et de Y la quantité notée cov  X , Y  qui est égale à


la moyenne des produits  xi  x   y j  y  pondérée par les fréquences fij .
r p r p

D’où : cov  X , Y    fij  xi  x   y j  y    f ij xi y j  xy .


i 1 j 1 i 1 j 1

2) Coefficient de corrélation :

Définition : On appelle le coefficient de corrélation linéaire entre X et Y le rapport noté


cov  X , Y 
r  x, y  défini par r  x, y   .
 y x
Propriétés : a) 1  r  x, y   1 ou encore r  x, y   1
b) r  x, y   r  y, x 
c) Si r  x, y   0 , il n’existe pas de corrélations linéaires entre X et Y .
d) Si r  x, y   1 (c’est-à-dire r  x, y   1 ), on dit qu’il existe une relation
afférée entre X et Y , c’est-à-dire il existe un couple  a, b  tel que : y  ax  b .
e) r  x, y  mesure donc la dépendance linéaire entre X et Y et il n’est
intéressant que si r  x, y  est proche de 1.

Application numérique :

Y 25 35 45 55
X
3 3 1 1 0
75 105 135 
5 1 5 0 0
125 175  
7 0 1 3 0
 245 315 
9 0 0 1 2
  405 495
11 0 0 2 0
  495 

On a alors :
5 4

 nij x y i j

cov  X , Y   i 1 j 1
 xy
n
3  75  1105  1125  5 175  1 245  3  315  1 405  2  495
 cov  X , Y    17.15   0
20
En moyenne X et Y évoluent dans le même sens .
Calcul du coefficient de corrélation linéaire :

cov  X , Y  17.15
r  x, y     0.73 .
 x y 6.59  82.75

V- La liaison fonctionnelle.

1) Définition :

On dit que X est liée fonctionnellement à Y si à chaque modalité y j de Y correspond à une


seule modalité de X  : J  i    J   J  .
2) Propriétés :

- Si X est liée fonctionnellement à Y , alors dans chaque colonne du tableau de contingence,


un case et une seule est non vide.
- Si, en plus, à chaque modalité xi de X correspond à une modalité unique de Y , la liaison
fonctionnelle est réciproque et dans ce cas, dans chaque ligne et dans chaque colonne du
tableau figure une et une seule case non vide, et on a : i  J    i   i  .
1

Y y1 y2 y3 y4 ni 
X
x1 0 0 5 3 8
x2 0 6 0 0 6
x3 9 0 0 0 9
n j 9 6 5 3 23

X est liée fonctionnellement à Y , cette liaison n’est pas réciproque car Y n’est pas liée
fonctionnellement à X .

Autre exemple de tableau :

Y y1 y2 y3 y4 ni 
X
x1 4 0 0 0 4
x2 0 0 0 5 5
x3 0 0 6 0 6
x4 0 5 0 0 5
n j 4 5 6 5 20

La liaison fonctionnelle est réciproque.

VI-Courbes de régression.

On veut donner une interprétation graphique, à la notion de corrélation entre 2 variables X et


Y.

1) Définition :
a) Nuage de points d’une série statistique à 2 variables.

On appelle « nuage de points d’une série statistique à 2 variables, la représentation graphique


suivante : à chaque triplet  xi , y j , nij  du tableau de contingence, on associe, dans un repère
orthogonal, un point M ij  xi , y j  dont la surface est proportionnelle à l’effectif nij du couple
x,y  .
i j

Application numérique :

Y ni  yi
25 35 45 55
X
3 3 1 1 0 5 31
5 1 5 0 0 6 33.33
7 0 1 3 0 4 42.5
9 0 0 1 2 3 51.66
1 0 0 2 0 2 45
n j 4 7 7 2 20
xj 3.5 5 7.86 9

Courbe de régression

70

60

50

40 C(X/Y)
C(Y/X)
30 Mij(xi,yj)

20

10

0
0 2 4 6 8 10 12

 y2  0.67 et  2x  0.561 , donc CY est meilleur que C X pour résumer le nuage de


x y X Y

points.

b) Courbes de régression.
- la courbe de régression de Y en X notée CY X est la courbe des points M i  xi , y j   .
- la courbe de régression de X en Y notée C X Y est la courbe des points M j  xi , y j   .
- Les surfaces des points M i et M j sont proportionnelles respectivement à ni  et n j .
2) Relation entre courbes de régressions et le rapport de corrélation.

r p

 fi   y  y   f j  x  x  sont les
2 2
Les variances des moyennes conditionnelles i et j
i 1 j 1

variances expliquées respectivement par les courbes de régression CY X et C X Y .


Si  x y  0 , alors x j  x et C X Y est parallèle à  Oy  .
2
-

Si  y x  0 , alors yi  y et CY X est parallèle à  Ox  .


2
-
L’absence de corrélation entre X et Y se traduit par le parallélisme des 2 courbes de
régression avec les axes .

yi  y CY
X

xj  x

CX
Y

Si   1 , X est liée fonctionnellement à Y et à la courbe de liaison fonctionnelle.


2
- x
y

VII- Droites de régression.

On cherche à résumer au mieux le nuage de points M ij par une droite. Le critère utilisé est
celui « des moindres carrés ». Le problème de sa détermination relève de la méthode dite de
l’ajustement linéaire.

Préliminaires graphiques :

M i  xi , axi  b 
yj  ij
M ij  xi , yi 

xi

 a pour équation : y  ax  b  ; et on a :  ij   y j  axi  b 


Problème à résoudre : Peut-on trouver une droite  telle que :
r p n r p n


ij
 ij  
ij
  y j  axi  b  soit minimale. La solution des problèmes pour
2 2
  
i 1 j 1 n i 1 j 1 n

l’écart  ij compté parallèlement à l’axe des Y est la droite de régression de y en x que l’on
note par Dy x .

1) Equation de la droite Dy x .
On notera cette équation par y  ax ˆ  bˆ , car les valeurs exactes de a et de b ne seront jamais
connues, car dans les problèmes statistiques, on travaille surtout avec des échantillons.
â et b̂ sont donc, pour un échantillon donné, des valeurs approchées de a et de b , c’est-à-
dire des valeurs « estimées ».
cov  X , Y 
aˆ  , c’est la pente ou le coefficient directeur de Dy x .
V (x)
ˆ , c’est l’ordonnée à l’origine de Dy .
bˆ  y  ax x

ˆ traduit que Dy x passe par G  x , y  , qui est le centre de gravité du


L’équation bˆ  y  ax
nuage de points.

Dy
x
y G

2) Equation de la droite d’équation de régression de x en y ( D x y ).

nij nij
 
r p r p
  xi  ay j  b 
2
  
2
La droite D x y est la droite qui rend minimale :  eij
i 1 j 1 n i 1 j 1 n
eij Dx
y

yj M ij Mj

xi

L’équation de D x y est mise sous la forme x  ay  b , et eij   xi  ay j  b  .


L’erreur eij est un écart compté parallèlement à l’axe  Ox  . De la même manière que pour
Dy , on obtient : aˆ   cov  X , Y  et bˆ  x  aˆ   y .
x V (Y )
Pour déterminer la pente et l’ordonnée à l’origine, on transforme l’équation
1 bˆ
x  aˆ y  bˆ en y  x  .
aˆ  aˆ 
1 bˆ
On lit que la pente de D x y est égale à et l’ordonnée à l’origine de D x y est égale à  .
â aˆ 
Cas particulier : Pour les séries non classées   xi , yi ,1 , i  1,...., n , les résultats sont les
suivants :
 n 
cov  X , Y   i 1   xi yi    n  xy 

- Pour Dy x  : aˆ   n .
V (x)  2
   xi    n  x 
2

 i 1 
 n

cov  X , Y  
   i1 
xi yi    n  xy 
- Pour D x y  : aˆ   .
V (Y )  n 2
   yi    n  y 
2

 i 1 

Application numérique :
cov  X , Y   17.15  x2  6.59  y2  82.75 x  6.1 y  38.5

Equation de la droite de régression de Y en X  : Dy x .


cov  X , Y  17.15
aˆ    2.6 L’équation de Dy x est donc :
 x2 6.59
bˆ  y  ax
ˆ  2.5  2.6  6.1  22.6 y  2.6 x  22.6 .

Equation de la droite de régression de X en Y  : D x y .


cov  X , Y  17.15
aˆ     0.207 L’équation de D x y est donc :
 y2 82.75
1 1.88
bˆ  x  aˆ   y  6.1  0.207  38.5  1.88 y x
0.207 0.207

3) Coefficient de détermination.

Pour apprécier la qualité d’un ajustement linéaire, on utilise l’indicateur suivant :


cov  X , Y  
2

R 2
.
 y2   x2
R 2 est le coefficient de détermination de l’ajustement linéaire ; plus il est fort, meilleur est
l’ajustement.

Propriétés : a) R  r  x, y  , (carré su coefficient de corrélation linéaire)


2 2

b) 0  R 2  1 , car r  x, y   1
c) Si R 2  1 , il existe une relation affine entre X et Y , les points M ij sont
alignés.
d) Si R 2  1 , les deux droites d’ajustement sont parallèles aux axes.
e) R 2  aˆ  aˆ 

Preuve du e) :
cov  X , Y  cov  X , Y 
aˆ  et aˆ   ,
 x2  y2
cov  X , Y  cov  X , Y  cov  X , Y  
2

Donc on a : aˆ  aˆ      R2 .
x 2
y 2
 x  y
2 2

Application numérique :
 17.15 
2

 0.53 ET r  x, y    0.73  0.53 ET aˆ  aˆ   2.6  0.207  0.53 .


2 2
R 
2

6.59  82.75

Remarques :  y  0.67 ,  x y  0.561 et R 2  0.53 .


2 2

Donc, on a :  y x   x y  R , alors c’est al courbe de régression CY X qui est la meilleure pour
2 2 2

résumer le nuage de points.

Vous aimerez peut-être aussi