Académique Documents
Professionnel Documents
Culture Documents
5.1 Introduction
Dans ce chapitre, on s’interresse à l’étude de deux variables X et Y
étudiées sur la même population. L’objectif de l’étude est de mettre en
évidence, une eventuelle variation simultannée de deux variables que nous
appelons liaison ou dépendance. Dans certains cas, cette liaison peut à priori
être causale, c’est à dire une variable expliquant l’autre. Dans d’autres cas,
les deux variables jouants des roles symetriques. Lorsque l’on utilisera les
données regroupées en classes, les modalités xi seront remplacées par les
centres de classes dans les formules.
34
5.2.2 Données groupées
C’est le cas le plus rencontrée en pratique. Considérons X1 , X2 , ..., XI
et Y1 , Y2 , ..., YJ les modalités des variables X et Y . Soit nij l’effectif de la
population qui présente à la fois la modalité Xi de X et Yj de Y . Ces données
sont souvent representées dans un tableau à double entrées appélé tableau
croisé ou tableau de contingence. Ces tableaux ont la forme suivantes :
Y1 Y2 ... Yj ... YJ Total
X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi ni1 ni2 ... nij ... niJ ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
XI nI1 nI2 ... nIj ... nIJ nI·
Total n·1 n·2 ... n·j ... n·J n··
I
P
Comme dans le cas des melanges des populations on a : n·j = nij ; ni· =
i=1
J
P I P
P J I
P J
P
nij ; n·· = nij = ni· = n·j
j=1 i=1 j=1 i=1 j=1
Remark 89. En divisant toute les valeurs du tableau par l’effectif total, on
obtient le tableau de frequences.
35
5.4 Statistique marginale
5.4.1 Données non groupées
Les données sont généralement regroupées dans le tableau suivant :
i 1 2 ... i ... n
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn
n n n
1 1 2 1
x2i −
P P P
Les statistiques marginales sont x = n
xi ; y = n
yi , σX = n
i=1 i=1 i=1
n
2 1 2
, σY2 yi2
P
x = n
−y
i=1
36
5.5 Distribution et statistique conditionnelle
Dans cette partie, on s’interressera uniquement aux données groupées.
Considérons le tableau ci-dessous
Y1 Y2 ... Yj ... YJ Total
X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi ni1 ni2 ... nij ... niJ ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
XI nI1 nI2 ... nIj ... nIJ nI·
Total n·1 n·2 ... n·j ... n·J n··
37
arithmétique des moyennes conditionnelles xj pondérées par les poids pj .
J J I I
x = n1·· pj xj ; y = n1··
P P P P
n·j xj = ni· y i = pi y i ,
j=1 j=1 i=1 i=1
J J J J
2 1
n·j σj2 + 1
n·j (xj − x)2 = pj σj2 + pj (xj − x)2
P P P P
VX = σX = n·· n··
j=1 j=1 j=1 j=1
La variance globale de X (resp. de Y) est égale à la moyenne arithmétique
des variances des moyennes conditionnelles de X (resp. de Y) pondérées par
les poids des sous populationsY = Yj (resp. X=xi ) auquel on ajoute la va-
riance des moyennes conditionnelles.
J I
pj σj2 (resp pi σi2 ) est appélé variance intra sous population
P P
Vintra =
j=1 i=1
ou variance résiduelle de X (resp. Y )
J I
pj (xj − x)2 (resp. pi (y i − y)2 ) est appélé variance inter
P P
Vinter =
j=1 i=1
sous population ou variance expliquée de X (resp. Y )
5.6 La covariance
Elle se calcule exactement de la même manière que pour les variables
aléatoires.
La covariance peut donner une valeur négative mais la variance est tou-
jours positive. la covariance est une mesure de la relation linéaire entre deux
variables statistiques. Plus la variance est élévé plus la relation linéaire est
entre deux variables est forte.
38
5.7 La regression et la corrélation statistique
5.7.1 Le coefficient de corrélation linéaire.
Le coefficient de corrélation linéaire encore appélé le coefficient de détermination
entre deux variables X et Y est le réel noté ρ (X, Y ) = Cov(X,Y
σX σY
)
Propriétés :
1. |ρ (X, Y )| ≤ 1
ac
2. ρ (aX + b, cY + d) = |ac|
ρ (X, Y )
39
variance marginale VY de Y (resp VX de X) representée par la variance inter
groupe.
I I
1
ni· (y i −y)2 1
ni· σi2
P P
n·· n··
ηY2 /X = i=1
VY
=1− i=1
σY2
J J
1 1
n·j σj2
P P
n··
n·j (xj −x) n··
2 j=1 j=1
ηX/Y = VX
=1− 2
σX
Les rapports de corrélation sont compris entre 0 et 1 et sont invariants par
changement de variables. Ils donnent une mesure du pourcentage de variation
explicable par la variable indépendante.
5.7.5 Indépendance
Nous dirons que deux variables X et Y sont indépendantes si on a xj =
x, ∀j ∈ {1, 2, ..., J} et y i = y, ∀i ∈ {1, 2, ..., I}, ainsi les courbes de regression
n ×n
sont parallèles aux axes. Dans ce cas, on a nij = i·n·· ·j
40