Vous êtes sur la page 1sur 7

Chapitre 5

Analyse d’une série statistique


à deux caractères

5.1 Introduction
Dans ce chapitre, on s’interresse à l’étude de deux variables X et Y
étudiées sur la même population. L’objectif de l’étude est de mettre en
évidence, une eventuelle variation simultannée de deux variables que nous
appelons liaison ou dépendance. Dans certains cas, cette liaison peut à priori
être causale, c’est à dire une variable expliquant l’autre. Dans d’autres cas,
les deux variables jouants des roles symetriques. Lorsque l’on utilisera les
données regroupées en classes, les modalités xi seront remplacées par les
centres de classes dans les formules.

5.2 Les tableaux


5.2.1 Données non groupées
Il s’agit de la donnée de la serie statistique brute sous la forme (xi , yi )
des modalités des variables X et Y pour chaque individu. Ces données sont
généralement representé dans le tableau suivant :
i 1 2 ... i ... n
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn

34
5.2.2 Données groupées
C’est le cas le plus rencontrée en pratique. Considérons X1 , X2 , ..., XI
et Y1 , Y2 , ..., YJ les modalités des variables X et Y . Soit nij l’effectif de la
population qui présente à la fois la modalité Xi de X et Yj de Y . Ces données
sont souvent representées dans un tableau à double entrées appélé tableau
croisé ou tableau de contingence. Ces tableaux ont la forme suivantes :
Y1 Y2 ... Yj ... YJ Total
X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi ni1 ni2 ... nij ... niJ ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
XI nI1 nI2 ... nIj ... nIJ nI·
Total n·1 n·2 ... n·j ... n·J n··
I
P
Comme dans le cas des melanges des populations on a : n·j = nij ; ni· =
i=1
J
P I P
P J I
P J
P
nij ; n·· = nij = ni· = n·j
j=1 i=1 j=1 i=1 j=1

Remark 89. En divisant toute les valeurs du tableau par l’effectif total, on
obtient le tableau de frequences.

5.3 Les representations graphiques


Dans cette partie, on s’interressera aux données quantitatives.

5.3.1 Données non groupées


On represente dans un répère orthonormé les points de coordonnées (xi , yi ).
L’ensemble de ces points forme le nuage de points. Le nombre de ces points
est égale au nombre d’individus.

5.3.2 Données groupées


On considère ici le tableau de contingence. On représente dans un répère
orthonormé les disques aux points de coordonnées (Xi , Yj ) dont la surface
ou le rayon est proportionnelle aux effectifs. le nombre de disque est égale à
I ×J

35
5.4 Statistique marginale
5.4.1 Données non groupées
Les données sont généralement regroupées dans le tableau suivant :
i 1 2 ... i ... n
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn
n n n
1 1 2 1
x2i −
P P P
Les statistiques marginales sont x = n
xi ; y = n
yi , σX = n
i=1 i=1 i=1
n
2 1 2
, σY2 yi2
P
x = n
−y
i=1

5.4.2 Données groupées


Les données sont généralement regroupées dans le tableau suivant :
Y1 Y2 ... Yj ... YJ Total
X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi ni1 ni2 ... nij ... niJ ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
XI nI1 nI2 ... nIj ... nIJ nI·
Total n·1 n·2 ... n·j ... n·J n··
Les couples (xi , ni· ) , 1 ≤ i ≤ I définissent la distribution statistique mar-
ginale de X. Les couples (Yj , n·j ) , 1 ≤ j ≤ J définissent la distribution
statistique marginale de Y. Les statistiques marginales (moyennes, variances,
écart types...) de X (resp. Y) sont les statistiques obtenues sur les distribu-
tions statistiques (xi , ni· ) , 1 ≤ i ≤ I (resp. (Yj , n·j ) , 1 ≤ j ≤ J) ainsi on
a:
I J
x = n1·· ni· xi ; y = n1··
P P
n·j yj ,
i=1 j=1
I I √
2 1
ni· (xi − x)2 = 1
ni· x2i − x2 ; σX =
P P
VX = σX = n·· n··
VX
i=1 i=1
J J √
VY = σY2 = 1
n·j (yj − y)2 = 1
n·j yj2 − y 2 ; σY =
P P
n·· n··
VY
j=1 j=1

36
5.5 Distribution et statistique conditionnelle
Dans cette partie, on s’interressera uniquement aux données groupées.
Considérons le tableau ci-dessous
Y1 Y2 ... Yj ... YJ Total
X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi ni1 ni2 ... nij ... niJ ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
XI nI1 nI2 ... nIj ... nIJ nI·
Total n·1 n·2 ... n·j ... n·J n··

5.5.1 Distribution et statistique conditionnelle de X


La distribution conditionnelle de X sachant Y = Yj notée Xj ou X|Y =Yj
est la serie constituée des couples (Xi , nij ) , 1 ≤ i ≤ I. C’est la distribu-
tion du caractère X dans la sous population des individus qui présentent la
modalité Yj du caractère Y . Les statistiques conditionnelles sont celles ob-
I
tenues sur la serie (Xi , nij ) , 1 ≤ i ≤ I. Ainsi xj = n1·j nij xi ; Vj = σj2 =
P
i=1
I I
1 2 1
p
nij x2i − xj 2 ; σj = Vj
P P
n·j
nij (xi − xj ) = n·j
i=1 i=1

5.5.2 Distribution et statistique conditionnelle de Y


La distribution conditionnelle de Y sachant X = Xi notée Yi ou Y |X=Xi
est la serie constituée des couples (Yj , nij ) , 1 ≤ j ≤ J). C’est la distribu-
tion du caractère Y dans la sous population des individus qui présentent la
modalité Xi du caractère X. Les statistiques conditionnelles sont celles ob-
J
tenues sur la serie (Yj , nij ) , 1 ≤ j ≤ J. Ainsi y i = n1i· nij yj ; Vj = σj2 =
P
j=1
J J √
1
nij (yj − y i )2 = 1
nij yj2 − y 2i ; σi =
P P
ni· ni·
Vi
j=1 j=1

5.5.3 Relation entre les statistique conditionnelles et


les statistiques marginales
n
Posons pj = n·j·· , qui est la part que represente la sous population Y = Yj
dans la population totale. La moyenne marginale (totale) de X est la moyenne

37
arithmétique des moyennes conditionnelles xj pondérées par les poids pj .
J J I I
x = n1·· pj xj ; y = n1··
P P P P
n·j xj = ni· y i = pi y i ,
j=1 j=1 i=1 i=1
J J J J
2 1
n·j σj2 + 1
n·j (xj − x)2 = pj σj2 + pj (xj − x)2
P P P P
VX = σX = n·· n··
j=1 j=1 j=1 j=1
La variance globale de X (resp. de Y) est égale à la moyenne arithmétique
des variances des moyennes conditionnelles de X (resp. de Y) pondérées par
les poids des sous populationsY = Yj (resp. X=xi ) auquel on ajoute la va-
riance des moyennes conditionnelles.
J I
pj σj2 (resp pi σi2 ) est appélé variance intra sous population
P P
Vintra =
j=1 i=1
ou variance résiduelle de X (resp. Y )
J I
pj (xj − x)2 (resp. pi (y i − y)2 ) est appélé variance inter
P P
Vinter =
j=1 i=1
sous population ou variance expliquée de X (resp. Y )

5.6 La covariance
Elle se calcule exactement de la même manière que pour les variables
aléatoires.

5.6.1 Données non groupées


n n
1 1
P P
Cov(X, Y ) = n
(xi − x) (yi − y) = n
xi yi − xy
i=1 i=1

5.6.2 Données groupées


I P
J I P
J
1 1
P P
Cov(X, Y ) = n··
nij (xi − x) (yj − y) = n··
nij xi yj − xy
i=1 j=1 i=1 j=1

Remark 90. — Cov (aX + b, cY + d) = acCov (X, Y )


— Cov (X, X) = V ar (X)

La covariance peut donner une valeur négative mais la variance est tou-
jours positive. la covariance est une mesure de la relation linéaire entre deux
variables statistiques. Plus la variance est élévé plus la relation linéaire est
entre deux variables est forte.

38
5.7 La regression et la corrélation statistique
5.7.1 Le coefficient de corrélation linéaire.
Le coefficient de corrélation linéaire encore appélé le coefficient de détermination
entre deux variables X et Y est le réel noté ρ (X, Y ) = Cov(X,Y
σX σY
)

Propriétés :
1. |ρ (X, Y )| ≤ 1
ac
2. ρ (aX + b, cY + d) = |ac|
ρ (X, Y )

5.7.2 Courbe ou ligne de regression


On appelle courbe de regression ou ligne de regression de Y en X ( resp.
de X en Y ) la courbe representative des points (xi , y i ) (resp. (xi , yi )) où y i
(resp. xi ) est la moyenne conditionnelle de Y (resp X) sachant que X = xi
(resp Y = yi ). Cette courbe permet d’estimer Y (resp X) en fonction de X
(resp Y ). C’est la raison pour laquelle cette courbe est encore appélée courbe
d’estimation de Y en X ( resp. de X en Y ). Elle fournit la valeur la plus
probable que peut prendre Y en X ( resp. X en Y ) pour une valeur donnée
de X. les courbes de regression de Y en X et. de X en Y se coupent au point
(x, y) . Ces courbes sont en réalité des lignes brisées que l’on peut lisser pour
obtenir une véritable courbe.

5.7.3 Droite de regression ou des moindres carrées


La droite de regression ou d’estimation ou des moindres carrés  de Y en
X notée DY /X a pour équation DY /X : Y − Y = aX X − X où aX =
Cov(X,Y )
2
σX
= ρ (X, Y ) σσXY .
La droite de regression de Y en X notée DX/Y a pour équation DX/Y :
X − X = aY Y − Y où aY = Cov(X,Y )

2
σY
.
Si ρ (X, Y ) = ±1, on dit qu’il y a une corrélation parfaite et les droites
DY /X et DX/Y sont confondus. Si |ρ (X, Y )| tend vers 1, la corrélation linéaire
est meilleure. Elle est dite positive si X et Y varie dans le même sens. Elle
est négative si les deux varient en sens opposé.

5.7.4 Le rapport de corrélation


Le rapport de corrélation est une mesure de l’intensité de la liaison qui
existe entre les deux variables X et Y . On appelle Rapport de corrélation
de Y en X ( resp. de X en Y ) notée ηY2 /X (resp. ηX/Y
2
) la proportion de la

39
variance marginale VY de Y (resp VX de X) representée par la variance inter
groupe.
I I
1
ni· (y i −y)2 1
ni· σi2
P P
n·· n··
ηY2 /X = i=1
VY
=1− i=1
σY2
J J
1 1
n·j σj2
P P
n··
n·j (xj −x) n··
2 j=1 j=1
ηX/Y = VX
=1− 2
σX
Les rapports de corrélation sont compris entre 0 et 1 et sont invariants par
changement de variables. Ils donnent une mesure du pourcentage de variation
explicable par la variable indépendante.

5.7.5 Indépendance
Nous dirons que deux variables X et Y sont indépendantes si on a xj =
x, ∀j ∈ {1, 2, ..., J} et y i = y, ∀i ∈ {1, 2, ..., I}, ainsi les courbes de regression
n ×n
sont parallèles aux axes. Dans ce cas, on a nij = i·n·· ·j

40

Vous aimerez peut-être aussi