Chap5_etudiant

Chapitre 5
Analyse d’une série statistique

à deux caractères
5.1 Introduction
Dans ce chapitre, on s’interresse à l’étude de deux variables X et Y
étudiées sur la même population. L’objectif de l’étude est de mettre en
évidence, une eventuelle variation simultannée de deux variables que nous
appelons liaison ou dépendance. Dans certains cas, cette liaison peut à priori
être causale, c’est à dire une variable expliquant l’autre. Dans d’autres cas,
les deux variables jouants des roles symetriques. Lorsque l’on utilisera les
données regroupées en classes, les modalités xi seront remplacées par les
centres de classes dans les formules.
5.2 Les tableaux

5.2.1 Données non groupées
Il s’agit de la donnée de la serie statistique brute sous la forme (xi , yi )
des modalités des variables X et Y pour chaque individu. Ces données sont
généralement representé dans le tableau suivant :
i 1 2 ... i ... n
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn
34
5.2.2 Données groupées
C’est le cas le plus rencontrée en pratique. Considérons X1 , X2 , ..., XI
et Y1 , Y2 , ..., YJ les modalités des variables X et Y . Soit nij l’effectif de la
population qui présente à la fois la modalité Xi de X et Yj de Y . Ces données
sont souvent representées dans un tableau à double entrées appélé tableau
croisé ou tableau de contingence. Ces tableaux ont la forme suivantes :
Y1 Y2 ... Yj ... YJ Total
X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi ni1 ni2 ... nij ... niJ ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
XI nI1 nI2 ... nIj ... nIJ nI·
Total n·1 n·2 ... n·j ... n·J n··
I
P
Comme dans le cas des melanges des populations on a : n·j = nij ; ni· =
i=1
J
P I P
P J I
P J
P
nij ; n·· = nij = ni· = n·j
j=1 i=1 j=1 i=1 j=1
Remark 89. En divisant toute les valeurs du tableau par l’effectif total, on
obtient le tableau de frequences.
5.3 Les representations graphiques

Dans cette partie, on s’interressera aux données quantitatives.

On represente dans un répère orthonormé les points de coordonnées (xi , yi ).
L’ensemble de ces points forme le nuage de points. Le nombre de ces points
est égale au nombre d’individus.

On considère ici le tableau de contingence. On représente dans un répère
orthonormé les disques aux points de coordonnées (Xi , Yj ) dont la surface
ou le rayon est proportionnelle aux effectifs. le nombre de disque est égale à
I ×J
35
5.4 Statistique marginale
Les données sont généralement regroupées dans le tableau suivant :
i 1 2 ... i ... n
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn
n n n
1 1 2 1
x2i −
P P P
Les statistiques marginales sont x = n
xi ; y = n
yi , σX = n
i=1 i=1 i=1
n
2 1 2
, σY2 yi2
P
x = n
−y
i=1

Les données sont généralement regroupées dans le tableau suivant :
X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
.. .. .. .. .. .. .. ..
. . . . . . . .
Total n·1 n·2 ... n·j ... n·J n··
Les couples (xi , ni· ) , 1 ≤ i ≤ I définissent la distribution statistique mar-
ginale de X. Les couples (Yj , n·j ) , 1 ≤ j ≤ J définissent la distribution
statistique marginale de Y. Les statistiques marginales (moyennes, variances,
écart types...) de X (resp. Y) sont les statistiques obtenues sur les distribu-
tions statistiques (xi , ni· ) , 1 ≤ i ≤ I (resp. (Yj , n·j ) , 1 ≤ j ≤ J) ainsi on
a:
I J
x = n1·· ni· xi ; y = n1··
P P
n·j yj ,
i=1 j=1
I I √
2 1
ni· (xi − x)2 = 1
ni· x2i − x2 ; σX =
P P
VX = σX = n·· n··
VX
i=1 i=1
J J √
VY = σY2 = 1
n·j (yj − y)2 = 1
n·j yj2 − y 2 ; σY =
P P
n·· n··
VY
j=1 j=1
36
5.5 Distribution et statistique conditionnelle
Dans cette partie, on s’interressera uniquement aux données groupées.
Considérons le tableau ci-dessous
X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
.. .. .. .. .. .. .. ..
. . . . . . . .
Total n·1 n·2 ... n·j ... n·J n··
5.5.1 Distribution et statistique conditionnelle de X

La distribution conditionnelle de X sachant Y = Yj notée Xj ou X|Y =Yj
est la serie constituée des couples (Xi , nij ) , 1 ≤ i ≤ I. C’est la distribu-
tion du caractère X dans la sous population des individus qui présentent la
modalité Yj du caractère Y . Les statistiques conditionnelles sont celles ob-
I
tenues sur la serie (Xi , nij ) , 1 ≤ i ≤ I. Ainsi xj = n1·j nij xi ; Vj = σj2 =
P
i=1
I I
1 2 1
p
nij x2i − xj 2 ; σj = Vj
P P
n·j
nij (xi − xj ) = n·j
i=1 i=1
5.5.2 Distribution et statistique conditionnelle de Y

La distribution conditionnelle de Y sachant X = Xi notée Yi ou Y |X=Xi
est la serie constituée des couples (Yj , nij ) , 1 ≤ j ≤ J). C’est la distribu-
tion du caractère Y dans la sous population des individus qui présentent la
modalité Xi du caractère X. Les statistiques conditionnelles sont celles ob-
J
tenues sur la serie (Yj , nij ) , 1 ≤ j ≤ J. Ainsi y i = n1i· nij yj ; Vj = σj2 =
P
j=1
J J √
1
nij (yj − y i )2 = 1
nij yj2 − y 2i ; σi =
P P
ni· ni·
Vi
j=1 j=1
5.5.3 Relation entre les statistique conditionnelles et

les statistiques marginales
n
Posons pj = n·j·· , qui est la part que represente la sous population Y = Yj
dans la population totale. La moyenne marginale (totale) de X est la moyenne
37
arithmétique des moyennes conditionnelles xj pondérées par les poids pj .
J J I I
x = n1·· pj xj ; y = n1··
P P P P
n·j xj = ni· y i = pi y i ,
j=1 j=1 i=1 i=1
J J J J
2 1
n·j σj2 + 1
n·j (xj − x)2 = pj σj2 + pj (xj − x)2
P P P P
VX = σX = n·· n··
j=1 j=1 j=1 j=1
La variance globale de X (resp. de Y) est égale à la moyenne arithmétique
des variances des moyennes conditionnelles de X (resp. de Y) pondérées par
les poids des sous populationsY = Yj (resp. X=xi ) auquel on ajoute la va-
riance des moyennes conditionnelles.
J I
pj σj2 (resp pi σi2 ) est appélé variance intra sous population
P P
Vintra =
j=1 i=1
ou variance résiduelle de X (resp. Y )
J I
pj (xj − x)2 (resp. pi (y i − y)2 ) est appélé variance inter
P P
Vinter =
j=1 i=1
sous population ou variance expliquée de X (resp. Y )
5.6 La covariance
Elle se calcule exactement de la même manière que pour les variables
aléatoires.

n n
1 1
P P
Cov(X, Y ) = n
(xi − x) (yi − y) = n
xi yi − xy
i=1 i=1

I P
J I P
J
1 1
P P
Cov(X, Y ) = n··
nij (xi − x) (yj − y) = n··
nij xi yj − xy
i=1 j=1 i=1 j=1
Remark 90. — Cov (aX + b, cY + d) = acCov (X, Y )

— Cov (X, X) = V ar (X)
La covariance peut donner une valeur négative mais la variance est tou-
jours positive. la covariance est une mesure de la relation linéaire entre deux
variables statistiques. Plus la variance est élévé plus la relation linéaire est
entre deux variables est forte.
38
5.7 La regression et la corrélation statistique
5.7.1 Le coefficient de corrélation linéaire.
Le coefficient de corrélation linéaire encore appélé le coefficient de détermination
entre deux variables X et Y est le réel noté ρ (X, Y ) = Cov(X,Y
σX σY
)
Propriétés :
1. |ρ (X, Y )| ≤ 1
ac
2. ρ (aX + b, cY + d) = |ac|
ρ (X, Y )
5.7.2 Courbe ou ligne de regression

On appelle courbe de regression ou ligne de regression de Y en X ( resp.
de X en Y ) la courbe representative des points (xi , y i ) (resp. (xi , yi )) où y i
(resp. xi ) est la moyenne conditionnelle de Y (resp X) sachant que X = xi
(resp Y = yi ). Cette courbe permet d’estimer Y (resp X) en fonction de X
(resp Y ). C’est la raison pour laquelle cette courbe est encore appélée courbe
d’estimation de Y en X ( resp. de X en Y ). Elle fournit la valeur la plus
probable que peut prendre Y en X ( resp. X en Y ) pour une valeur donnée
de X. les courbes de regression de Y en X et. de X en Y se coupent au point
(x, y) . Ces courbes sont en réalité des lignes brisées que l’on peut lisser pour
obtenir une véritable courbe.
5.7.3 Droite de regression ou des moindres carrées

La droite de regression ou d’estimation ou des moindres carrés de Y en
X notée DY /X a pour équation DY /X : Y − Y = aX X − X où aX =
Cov(X,Y )
2
σX
= ρ (X, Y ) σσXY .
La droite de regression de Y en X notée DX/Y a pour équation DX/Y :
X − X = aY Y − Y où aY = Cov(X,Y )

2
σY
.
Si ρ (X, Y ) = ±1, on dit qu’il y a une corrélation parfaite et les droites
DY /X et DX/Y sont confondus. Si |ρ (X, Y )| tend vers 1, la corrélation linéaire
est meilleure. Elle est dite positive si X et Y varie dans le même sens. Elle
est négative si les deux varient en sens opposé.
5.7.4 Le rapport de corrélation

Le rapport de corrélation est une mesure de l’intensité de la liaison qui
existe entre les deux variables X et Y . On appelle Rapport de corrélation
de Y en X ( resp. de X en Y ) notée ηY2 /X (resp. ηX/Y
2
) la proportion de la
39
variance marginale VY de Y (resp VX de X) representée par la variance inter
groupe.
I I
1
ni· (y i −y)2 1
ni· σi2
P P
n·· n··
ηY2 /X = i=1
VY
=1− i=1
σY2
J J
1 1
n·j σj2
P P
n··
n·j (xj −x) n··
2 j=1 j=1
ηX/Y = VX
=1− 2
σX
Les rapports de corrélation sont compris entre 0 et 1 et sont invariants par
changement de variables. Ils donnent une mesure du pourcentage de variation
explicable par la variable indépendante.
5.7.5 Indépendance
Nous dirons que deux variables X et Y sont indépendantes si on a xj =
x, ∀j ∈ {1, 2, ..., J} et y i = y, ∀i ∈ {1, 2, ..., I}, ainsi les courbes de regression
n ×n
sont parallèles aux axes. Dans ce cas, on a nij = i·n·· ·j
40

Chap5_etudiant

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap5_etudiant

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 5

Analyse d’une série statistique

5.2 Les tableaux

5.3 Les representations graphiques

5.3.1 Données non groupées

5.3.2 Données groupées

5.4.2 Données groupées

5.5.1 Distribution et statistique conditionnelle de X

5.5.2 Distribution et statistique conditionnelle de Y

5.5.3 Relation entre les statistique conditionnelles et

5.6.1 Données non groupées

5.6.2 Données groupées

Remark 90. — Cov (aX + b, cY + d) = acCov (X, Y )

5.7.2 Courbe ou ligne de regression

5.7.3 Droite de regression ou des moindres carrées

5.7.4 Le rapport de corrélation

Vous aimerez peut-être aussi