Vous êtes sur la page 1sur 9

Cours de Statistiques appliquées aux sciences sociales Prof.

MONDJELI

CHAPITRE 3 : LES DISTRIBUTIONS STATISTIQUES À


DEUX CARACTÈRES
Soit une population P ayant deux caractères quantitatifs X et Y . X présente r modalités
( )
( x1, x2 ,...., xr ) et Y présente p modalités y1 , y2 ,....., y p . Si une des variables est continue,
les modalités associées à cette variable sont des classes.

On appelle distribution statistique à deux variables la donnée :

{( x ; y ; n ); i = 1,...., r; j = 1,....., p}
i j ij

où nij désigne le nombre d’observations présentant à la fois la modalité xi et la modalité y j .

1. TABLEAU DE CONTINGENCE
On appelle tableau de contingence le tableau à double entrée représentant une distribution
statistique à deux variables. Il permet de voir comment se distribuent les effectifs de chaque
modalité d’un caractère suivant les modalités de l’autre.

Y Zu Zv --- Zƒ --- Z‡ R‚

Université de Yaoundé II-Soa 27 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

X
Yu Ruu Ruv --- Ruƒ --- Ru‡ Ru
Yv Rvu Rvv --- Rvƒ --- Rv‡ Rv
- - - --- - --- - -
- - - --- - --- - -
- - - --- - --- - -
Y‚ R‚u R‚v --- R‚ƒ --- R‚‡ R‚
- - - --- - --- - -
- - - --- - --- - -
- - - --- - --- - -
Yˆ Rˆu Rˆv --- Rˆƒ --- Rˆ‡ Rˆ
Rƒ Ru Rv --- Rƒ --- R‡ R
nij
À partir de ce tableau, nous pouvons définir la fréquence du couple xi ; y j ( ) par : fij =
n
, où

r ⎛ p ⎞
n = ∑ ⎜ ∑ nij ⎟ est l’effectif total. Cette fréquence représente la proportion d’individus
i =1 ⎝ j =1 ⎠
vérifiant à la fois la modalité xi et la modalité y j .

Les paramètres utilisés pour caractériser les séries statistiques à deux variables sont de deux
types :

 ceux qui ne concernent qu’une variable à la fois à partir des distributions des variables
sont appelés « marginales et conditionnelles » ;
 ceux qui s’intéressent à la distribution globale et qui servent à décrire les relations qui
existent entre les deux variables.

2. DISTRIBUTIONS MARGINALES ET CONDITIONNELLES


2.1. Distributions marginales
p
Définitions : on appelle effectif marginal associé à xi , la quantité ni  = ∑ nij .
j =1
r
De même, l’effectif marginal associé à y j est n j = ∑ nij .
i =1
n
Fréquences marginales : la fréquence marginale associée à xi est : fi  = i  , avec ( i = 1,...., r )
n
n j
la fréquence marginale associée à y j est : f  j = , avec ( j = 1,...., p )
n
Tableau des distributions marginales :

Pour X : Pour Y :

ni 
X ni  fi  =
n
x1 n1 f1

Université de Yaoundé II-Soa 28 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

x2 n2 f 2 n j
Y n j f j =
- - - n
- - -
y1 n1 f1
xi ni •
fi •
y2 n 2 f2
- - -
- - - - - -
- - -
xr nr  fr 
yi ni f i
∑ n 1 - - -
- - -
yp n p f p
∑ n 1

Moyennes marginales : En notant par Y la moyenne marginale de X , on a :


ˆ ˆ ˆ ‡ ˆ ‡
R‚ Y‚ 3
Y– L‚ Y‚ – – R‚ƒ Y‚ – L‚ƒ Y‚
R R
‚zu ‚zu ‚zu ƒzu ‚zu ƒzu

De même, la moyenne marginale de Y est la quantité :


‡ ‡ ‡ ˆ ‡ ˆ
Rƒ Zƒ 3
Z– Lƒ Zƒ – – R‚ƒ Zƒ – L‚ƒ Zƒ
R R
ƒzu ƒzu ƒzu ‚zu ƒzu ‚zu

Variances marginales : En notant respectivement par σ x2 et σ y2 ces variances, on a :

r r
2 ni  2
(
σ x2 = ∑ fi  xi − x = ∑
i =1
) i =1 n
(
× xi − x )
p
2
σ y2 = ∑ f j ( y j − y )
j =1

Exemple de base : On étudie la distribution de 20 individus suivant deux caractères : X (salaire


horaire) et Y (âge en années).

Tableau de contingence :

Y 25 35 45 55 ni 
X
3 3 1 1 0 5
5 1 5 0 0 6
7 0 1 3 0 4
9 0 0 1 2 3
11 0 0 2 0 2
n j 4 7 7 2 20

Pour X : Pour Y :

Université de Yaoundé II-Soa 29 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

ni 
X ni  fi  =
n n j
Y n j f j =
5 n
3 5
20 4
6 25 4
5 6 20
20 7
4 35 7
7 4 20
20 7
3 45 7
9 3 20
20 2
2 55 2
11 2 20
20
∑ 20 1
∑ 20 1

Moyennes marginales :
5
5 × 3 + 6 × 5 + 4 × 7 + 3 × 9 + 2 ×11
x = ∑ fi  × xi = = 6.10
i =1 20
4
4 × 25 + 7 × 35 + 7 × 45 + 2 × 55
y = ∑ f j × y j = = 38.5
j =1 20
Variances marginales :
5 2 ⎛ 5
⎞ 2 5 × 32 + 6 × 52 + 4 × 7 2 + 3 × 92 + 2 ×112
( )
σ x2 = ∑ fi  xi − x = ⎜ ∑ fi  ( xi ) ⎟ − x =
i =1 ⎝ i =1
2


() 20
2
− ( 6.10 ) = 6.59

4
2 4 × 252 + 7 × 352 + 7 × 452 + 2 × 552 2
σ y2 = ∑ f j ( y j − y ) = − (38.5) = 82.75 
i =1 20
2.2. Distributions conditionnelles

Si on étudie le caractère X uniquement sur les individus vérifiant, ou satisfaisant, à la modalité


y j de X , alors on définit un nouveau type de distribution d’une série à une variable appelée
« distribution conditionnelle ».

⎛ ⎞
Définition : on appelle distribution conditionnelle de X sachant Y = y j , ⎜ X ⎟ , la donnée
⎝ Y = y j ⎠

n
du couple xi , fi j , i = 1,....., r , avec f i j = ij (lire fi si j ).
{( ) }
n j

Pour la variable X , il y a p distributions conditionnelles X ( Y ).

Université de Yaoundé II-Soa 30 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

De même, la variable Y admet r distributions conditionnelles Y ( X ) , définies de la manière


suivante : la distribution conditionnelle de Y sachant X = xi . ⎛⎜ Y ⎞ est la donnée de la

⎝ X = xi ⎠
nij
{( )
famille : y j , f ji , j = 1,...., p avec f ji =}ni 
(lire f j si i ).

Moyennes conditionnelles :
r
Pour X , x j = ∑ fi j xi , il y a donc p moyennes conditionnelles x j .
Y = yj i =1

p
Pour Y f ji y j , il y a donc r moyennes conditionnelles yi .
X = xi yi = ∑
,
j =1

Variances conditionnelles :

Pour X , on notera cette variance conditionnelle par V j ( x ) , ou par σ y2 et


Y = yj
r 2

i =1
j
(
V j ( x ) = ∑ fi xi − x j ) avec ( j = 1,...., p ) .

p
2
Pour Y
X = xi
, la variance conditionnelle est : Vi (Y ) = ∑ f ji y j − y j ( ) , avec (i = 1,......, r ) .
j =1

Application numérique :
Supposons que l’on veut étudier la distribution du salaire horaire des individus âgés de 35 ans.
La variable étudiée est la variable conditionnelle X .
Y = 35 ans

Tableau de cette distribution :

ni 2
X ni 2 fi 2 =
n 2 Moyenne conditionnelle :
3 1 1/7
5
5 5 5/7 1× +5 × 5 + 1× 7
7 1 1/7 x 2 = ∑ fi 2 xi = = 5€
i =1 7
9 0 0
11 0 0 Variance conditionnelle :
∑ 7 1

Université de Yaoundé II-Soa 31 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

5 2 5 2
(
V2 (x) = ∑ f i 2 xi2 − x 2
i =1
) = ∑ f i 2 xi2 − x 2
i =1
( )
.
2 2 2
1× 3 + 5 × 5 + 1× 7
= − 52 = 1.143 € 2
7
Étudions maintenant la distribution de l’âge gagnant un salaire horaire égal à 3. La variable
étudiée est la variable conditionnelle Y .
X = 3€
Tableau de cette distribution :

n1 j Moyenne conditionnelle :
1
Y ni j f =
j 4
n1 3 × 25 + 1× 35 + 1× 45
y1 = ∑ f j1 y j = = 31 ans
25 3 3/5 j =1 5
35 1 1/5
45 1 1/5 Variance conditionnelle :
55 0 0 4
2
V1 ( y ) = ∑ f j1 y 2j − ( y1 )
∑ 5 1 j =1
.
3 × 252 + 1× 352 + 1× 452
= − 312 = 64 ans 2
5
2.3. Relations entre les distributions conditionnelles et marginales

Lorsqu’une population ( P) est décrite suivant 2 caractères X et Y , la référence aux


distributions conditionnelles permet de considérer ( P) comme un mélange de sous-
populations. En effet, la distribution marginale de X résulte du mélange de distributions
n j
conditionnelles X avec ( j = 1,...., p ) , représentées en population f  j ou .
Y = yj n 

De même, la distribution marginale de Y résulte du mélange des r distributions


n
conditionnelles X avec (i = 1,....., r ) , représentées en proportions par fi  ou i  .
Y = xi n 

2.3.1. Relation entre la moyenne marginale et les moyennes conditionnelles

La moyenne marginale est la moyenne des moyennes conditionnelles, pondérée par les fi  ou
les f  j selon la variable considérée.

p r
D’où : x = ∑ f j x j et y = ∑ fi  × yi
j =1 i =1

Université de Yaoundé II-Soa 32 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

2.3.2. Relation entre la variance marginale et les variances conditionnelles

La technique de la composition de la variance globale dans le cadre des mélanges de sous


populations donne :

Variance globale = moyenne des variances conditionnelles + variance des moyennes conditionnelles
p p
2
D’où les résultats suivants : V ( x) = σ x2 = ∑ f j ×V j ( x ) + ∑ f j x j − x ( )
j =1 j =1
r r
2
V ( y ) = σ y2 = ∑ fi  × Vi ( y ) + ∑ fi  ( yi − y ) .
i =1 i =1

2.3.3. Rapport de corrélation


2
Définition : On appelle rapport de corrélation de Y en X noté η y , la part de la variance des
x
r
2
∑ fi  ( y − y )
i
moyennes conditionnelles de Y, c’est-à-dire : η y2 = . i =1

V ( y) x

De même, le rapport de corrélation de X en Y est la part de la variance marginale de X


2
représentée par la variance des moyennes conditionnelles de X et on le note η x , on a :
y
p
2
∑ f j ( x
j =1
j − x)
η 2x =
y V ( x)
Propriétés : le rapport de corrélation mesure le degré de dépendance fonctionnelle des
moyennes conditionnelles d’une variable en fonction de l’autre.
En général, on a : - η y2 ≠ η 2x
x y
- 0 ≤ η ≤ 1.
Si η y2 = 1, on dit que Y est lié fonctionnellement à X . De même, si η x2 = 1, on dit que X
x y
est lié fonctionnellement à Y .
2 2
Remarque : η y =0 ⇔ η x = 0 .
x y

2
Si η y ≠ 0 , alors on dit que Y est corrélée avec X .
x

2
Si η x ≠ 0 , alors on dit que X est corrélée avec Y .
y

Application numérique :

Y yi
X
25 35 45 55 ni 
3 3 1 1 0 5 31
5 1 5 0 0 6 33.33

Université de Yaoundé II-Soa 33 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

7 0 1 3 0 4 42.5
9 0 0 1 2 3 51.66
1 0 0 2 0 2 45
n j 4 7 7 2 20

xj 3.5 5 7.86 9
4 4 n
j 4 × 3.5 + 7 × 5 + 7 × 7.86 + 2 × 9
x = ∑ fij x j = ∑ × xj = = 6.10 .
j =1 j =1 n 20

5
5 × 312 + 6 × 33.332 + 4 × 42.52 + 3 × 51.662 + 2 × 452 − 38.52
y = ∑ fi  × yi = = 0.67 .
i =1 82.750

L’âge est donc corrélé avec le salaire horaire.

4 × 3.52 + 7 × 52 + 7 × 7.862 + 2 × 92
4 f j ( x j − x )
2
− 6.102
η 2x = ∑ = 20 = 0.561.
y j =1 V ( x) 6.59

2 2
Le salaire horaire est corrélé avec l’âge comme η y > η x , la corrélation de Y avec X est plus
x y
forte que celle de X avec Y .

3. INDÉPENDANCE STATISTIQUE
3.1. Définition

Si pour chaque valeur y j de Yi , la distribution conditionnelle de X est identique à la


Y = yj
distribution marginale de X , on dit que X est statistiquement indépendante de Y .

nij ni 
X est statistiquement indépendant de Y si et seulement si : = ⇔ f i j = f i  ∀ ( i, j ) .
n j n

3.2. Propriétés

Si X est statistiquement indépendant de Y , alors :

a) Y est aussi indépendant de X : on dit que X et Y sont indépendantes (l’une de


l’autre).

Preuve : On sait par définition que si X est indépendante de Y , alors on a :


nij ni  nij n j
= ⇔ = ⇔ f ji = f j .
n j n n j n

b) nij × n = n j × ni  ∀ (i, j ) ou encore fij = f j × fi  .

Université de Yaoundé II-Soa 34 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

nij × n n j ni 
En effet, nij × n = n j × ni  ⇔ = × .
n × n n n

n(i −1)( j −1) n(i −1) j


c) = ∀ (i, j ) , c’est-à-dire les lignes (ou les colonnes) du tableau de
ni( j −1) nij
contingence sont proportionnels entre elles :

Y y j −1 yj
-----------
X
-------------- ----------- ----------- ---------

xi −1 ----------- n(i −1)( j −1) n(i −1) j

xi ----------- ni( j −1) nij

d) Si y = yi (∀i ) , alors on a x = xj (∀j ) (Attention la réciproque est fausse).

CHAPITRE 4 : DESCRIPTION NUMÉRIQUE DES SÉRIES


STATISTIQUES À DEUX CARACTÈRES
1. COVARIANCE ET COEFFICIENT DE CORRÉLATION LINÉAIRE
1.1. Covariance
Université de Yaoundé II-Soa 35 Année académique 2019-2020