Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUE DESCRIPTIVE
À DEUX VARIABLES
Cours de statistique 1
Cours de statistique 2
INTRODUCTION
La notion de statistique descriptive bivariée est abordée, lorsqu'une population statistique est décrite
simultanément selon deux caractères X et Y, et s'il existe un lien ou une liaison entre les deux caractères
de cette population, on parle alors d'une série statistique à deux variables X et Y ou bien d'une distribution
à deux caractères X et Y. Dans ce cas, les tableaux statistiques seront à deux dimensions, où il s'agit de
bien faire correspondre les effectifs des lignes et des colonnes.
Exemple: Etude statistique sur une population d'ouvrier selon deux caractères:
1er caractère X: âge; 2ème caractère Y: salaire
1 caractère X: salaire 2ème caractère Y: nombre d'enfant
er
3.1.1.1 – Définition
On appelle tableau de contingence, ou tableau à double entrée, les tableaux statistiques qui décrivent
l'effectif nij de la population des individus qui ont simultanément la modalité xi du caractère X et la
modalité yj du caractère Y.
Les deux caractères X et Y, contenus dans le tableau de contingence peuvent être respectivement:
Cours de statistique 2
3.1.1.2 – Elément du tableau de contingence
Pour pouvoir lire les éléments contenus dans le tableau de contingence, des conventions de notations
ont été établies.
les modalités xi de la variable X apparaissent en colonne. Mais les effectifs nij apparaissent en
.ligne i.
les modalités yj de la variable Y apparaissent en ligne. Mais les effectifs nij apparaissent en
.colonne j.
nij: effectif partiel, il possède en même temps la modalité xi du caractère X et la modalité yj du
caractère Y.
Ni: effectif marginal de la modalité xi. Il correspond à la somme des effectifs partiels de la
modalité xi.
N j n1 j k
n2 .......... .. nij nkj
j nij
i1
N: effectif total
p k k p
N N i N j nij
j1 i1 i1 j1
La somme des fréquences relatives de tous les couples de valeurs (xi,yj) est égale
à:
f ij
1
i1 j1
Ni
fréquence relative marginale de la modalité xi : fi
N
Nj
fréquence relative marginale de la modalité yj :
fj
Avec: N
k p
f j 1
fi i1 j1
f nij
j
i Ni
f.f nij
f
i j ij
N Ni
N n
j
f j . fi
j ij
fij
N N
j
i j
f f.f f.f
ij i j j i
La représentation graphique d'une série statistique à deux variables se fait dans un plan muni d'un
repère orthogonal dans lequel on peut associer au couple (xi,yj) de la série statistique double , un point Mi
de coordonnées xi et yj. L'ensemble des points Mi obtenus constitue le nuage de points (ou scatter plot)
représentant la série statistique
X
.
3.1.3.2 – Le point moyen
On appelle point moyen d'un nuage de n point Mi possédant les coordonnées (xi,yj), le point G de
coordonnées: G(xkG,yG) p
1 1
xG x et y N y
j j j1
xi yG
N i i1
3.2 – APPROCHE NUMERIQUE
x
N
N .x f .x
i i i i Ou
bien x n ij .xi
i1 i1 N i1 j1
2° – Variance marginale
y Nj fj Ou y n .y j
.y j N ij
.y j bien N
j1 j1 i1 j1
2° – Variance marginale
n
j
xj .xi
.xi N
ij
fi i1
j i1
La notation " x j " signifie: "moyenne conditionnelle de x", sachant Y=yj est fixe.
Les paramètres conditionnels de X selon Y sont notés Vj(X). Ils sont définit comme suit:
k
j 2
Vj ( X ) 1 k
Nj
n
i1
ij (xi x j ) (xi x j )
2
fi i1
ou bien en formule développée:
k
1 2 2
k
j 2 2
Vj ( X ) ( nij xi ) (xj ) fi xi (x j )
j i 1 i 1
N
y j nij .y
j1
ji
f j .y j j1
La notation " y j " signifie: "moyenne conditionnelle de y", sachant X= xi est fixe.
Vi (Y ) 1 p p j 2
Ni
n
j1
ij ( y j yi ) ( y j yi )
2
fi
j1
ou bien en formule développée:
p 2
1 2
p
j 2 2
Vi (Y ) ( nij y j ) ( yi ) y j ( yi )
fi
i j 1 j 1
x Nj f j .x j y N .y f .y i i
N et i
i1
.x j
j1 j1
j
N i1
3.2.3.2 – Relation entre variance marginale et conditionnelle
p p
1 2 1
V(X)
N j (x j
N V ( X )N
j 1
j j
x)
N j 1
k k
1 2 1
V (Y )
N N (y i i
N V (Y )N
i 1
i i
y)
i 1
3.2.3 – La covariance
La covariance du couple de variable (X,Y) est la moyenne du produit des écarts aux moyennes
(xi x)(y j y) .
k p
1
COV ( X ,Y ) n
Ni1 j1
ij (xi x)(y j y)
On constate que :
j
chacune des fréquences relatives conditionnelles f i de X est égale à la fréquence relative
marginale fj de X.
i
chacune des fréquences relatives conditionnelles f j de Y est égale à la fréquence relative
marginale fj de Y.
Conclusion: les deux caractères sont indépendants
On dit que deux caractères X et Y sont totalement dépendant ou bien possèdent une liaison
fonctionnelle si à chaque modalité yi de Y correspond une seule modalité xi de X.
Conclusion:
Dans le cas de la dépendance totale, il n'y a qu'une seule valeur par ligne et par colonne
les valeurs des variables sont égales aux moyennes conditionnelles
3.2.4.1- Enoncé
Au cours d'une expérience agricole, on a cherché à connaître l'influence du facteur quantité d'eau
(variable X) sur les rendements de betterave à sucre (variable Y). On désigne par x i les quantités d'eau
utilisées et yj les rendements de betterave sucrière correspondant. L'expérience a donné les résultats
suivants :
Les quantités d'eau xi [m3/ha] 3 5 6 8 9 11 13 15
Les rendements yj [Qx/ha] 5 7 8 10 12 14 17 20
Y
Puisqu' à chaque modalité yj de la variable Y correspond une seule modalité x i de la variable X . A
cet effet, il s'agit d'une liaison fonctionnelle réciproque car les données sont connues individuellement et
sans pondération.
X\ Y 5 7 8 10 12 14 17 20 Ni
3 1 0 0 0 0 0 0 0 1
5 0 1 0 0 0 0 0 0 1
6 0 0 1 0 0 0 0 0 1
8 0 0 0 1 0 0 0 0 1
9 0 0 0 0 1 0 0 0 1
11 0 0 0 0 0 1 0 0 1
13 0 0 0 0 0 0 1 0 1
15 0 0 0 0 0 0 0 1 1
Nj 1 1 1 1 1 1 1 1 N=8
N
x xi 70 8.75
i1
1 8 1
N
y y j 93 11.625
j1
8
1 2
2 1 2
] [730 (8.75) ] 14.6875
V(X) [x i 8
x
N i1
8
1 2
2 1 2
] 23.234
] [1267 (11.625)
V (Y ) [ y j 8
y
N j1
4° - Calcul de la covariance
8
1 1
cov( X ,Y ) ( nij xi y j ) (x.y) (961) [(8.75)(11.625)] 18.406
N i1 8
3.4 – L'AJUSTEMENT
Les techniques générales de l'ajustement (théorie de la régression) sont très importantes. Les
éléments présentés ci-après sont de simples initiations è cette théorie. L'ajustement linéaire et non linéaire
par la méthode des moindres carrés possède un grand intérêt dans l'analyse des phénomènes.
Le principe de l'ajustement consiste à faire la représentation graphique de couple (xi, yj) dans le plan
pour pouvoir établir une relation entre les coordonnées des points. La relation entre les coordonnées de
points s'appelle: l'équation de la courbe.
Lorsqu'on porte sur un graphique les points représentatifs (pi avec i=j) des couples des valeurs (xi,yj),
ces points forment un nuage de points. En fonction de la configuration de ce nuage de points on peut
ajuster par une courbe dont on connaît en général l'équation mathématique usuelle.
y y
x x
Nuage suggérant un ajustement Nuage suggérant un ajustement
par une droite: y=ax+b ; a>0 par une parabole: y=ax 2+bx+c
y y
x x
Nuage suggérant un ajustement Nuage suggérant indépendance:
par une hyperbole: y=1/(ax +b) points répartis au hasard dans le plan
3.4.3 – Les équations des courbes d'ajustement
Parmi les équations de courbe d'ajustement les plus connues, on peut citer:
1 – équation de la droite: y ax b
2 – équation de la parabole: y ax2 bx c
1
3 – équation de l'hyperbole: y
ax b
4 – équation de y abx ou log(y) log(a) x log(b)
l'exponentielle: bien
5 – la fonction puissance: y axb ou bien log(y) log(a) b log(x)
Parmi toutes les méthodes citées ci-dessus, il faut définir la méthode qu'il y a lieu de retenir pour
minimiser chaque somme d'écarts. On distingue:
Les écarts en valeurs relatives, les écarts en valeurs absolues et le carré des écarts.
Les écarts en valeurs relatives ne peuvent pas être retenus en raison de la compensation qui en
résulte.
les écarts en valeurs absolues ne peuvent pas être retenus en raison des difficultés de leurs
maniements.
En conséquence, la somme des carrés des écarts fera l'objet de minimisation, cette méthode est
appelée: méthode des moindres carrés.
Le principe des moindres carrés a été développé au début du 19 ème siècle, et a connu depuis, des
applications importantes dans de nombreux domaines. Il s'est révélé un instrument statistique d'une
grande utilité en donnant plus de rigueur et de rationalité à l'analyse des problèmes observés.
Le principe des moindres carrés a pour but de trouver l'équation d'ajustement qui rend minimum
l'écart ou la différence entre les valeurs observées dans la réalité et les valeurs théoriques données par la
courbe.
Pour une valeur donnée de xi il y aura un écart ei entre la valeur observée yj et la valeur y'j déterminé à
partir de la courbe. Cet écart ei peut être positif ou négatif ou nul. Ainsi pour chaque valeur de xi on peut
déterminer un écart vertical: e1,e2,…............ek.
e
faible possible ou minimum.
- Cet ensemble des écarts qu'il faudra minimiser
yj y'j
n
y j' y
peut être caractérisé par:
i1
j
minimum
Cours de statistique xi x 11
3.4.4.2 – Ajustement graphique
1° - Ajustement à la règle
On trace au jugé une droite D passant le plus près possible des points du nuage de points, en
s'efforçant d'équilibrer le nombre de points situés de part et d'autre de la droite D.
L'équation de D est alors de la forme y ax b . Pour trouver cette équation, il suffit de connaître deux
points de D
xi x
L'écart horizontal mesure le différence entre deux valeur de X, c'est-à-dire x i (valeur observée) et
xi' (valeur théorique), sachant que la valeur yj de Y est fixée. C'est l'étude du caractère X en
fonction du caractère Y.
A partir de la valeur yj , la valeur xi correspondante est ajustée par la valeur xi' déterminée
par une droite D' ayant pour équation x'i a' y j b ' où a' et b' sont deux paramètres à déterminer.
On appelle droite de régression de X en Y, la droite D', telle que: y
min
k ' 2
k (x x ) min
2
e i i i
D'
i1 i1 yj
N
le point N constitue le centre de gravité du nuage Lorsque i=j N devient
de points par lequel passe la droite D'. le point moyen
ei
Ce centre de gravité a pour coordonnées ( x, y) ou bien (x, y)
Cours de statistique 12
xi x'i x
2° - Détermination des coefficients des droites D et D'
Pour déterminer les coefficients a et b, a' et b' des deux droites y ax b '
et x
i a' y b' , il faut que la
j
somme des carrés des écarts soit minimum.
a – Détermination de a et a':
cov( X ,Y ) cov( X ,Y )
a V(X) et a' V (Y )
b – Détermination de b et b':
b y ax et b' x a' y
3.2.4.1- Enoncé
Au cours d'une expérience agricole, on a cherché à connaître l'influence du facteur quantité d'eau
(variable X) sur les rendements de betterave à sucre (variable Y). On désigne par x i les quantités d'eau
utilisées et yj les rendements de betterave sucrière correspondant. L'expérience a donné les résultats
suivants :
Les quantités d'eau xi [m3/ha] 3 5 6 8 9 11 13 15
Les rendements yj [Qx/ha] 5 7 8 10 12 14 17 20
Cours de statistique 13
Donc: x 0,792y 0,457
Pour tracer la droite de régression D', on transforme l'équation x 0,792y 0,457 en :
1 b'
y x .
a' a'
d'où: 1 0,457
y x y 1,262x 0577
0,792 0,792
x 8,75
5 10 15 20 X
Si on trace les deux droites de régression D et D', sur le plan cartésien, on obtient le graphe suivant:
Les deux droites ramenées aux mêmes axes forment entre elles un angle appelé angle de
régression.
Comme ces deux droites D et D', ont un point commun ( x, y) elles seront confondues si leur
3.5 – LA CORRELATION
Pour savoir dans quelle mesure la droite D (ou D') trouvée approche bien le nuage de points, on
introduit la notion de " coefficient de corrélation"
La corrélation c'est l'étude des liaisons entre les variables d'une série d'observations. Cette étude est
importante, car elle permet de mesurer le degré de dépendance ou non entre les variables.
Cours de statistique 15
3.5.3 – La corrélation linéaire
L'angle de régression formé par les deux droites D et D', est un indicateur du degré de dépendance
entre les deux variables X et Y.
C'est à partir de la dépendance totale (a.a'=1), que le coefficient de corrélation linéaire r a été défini,
c'est un coefficient sans dimension.
Pour faire apparaître les valeurs positives et négatives, la valeur de r sera égale au produit des deux
pentes a et a', est élevé au carré: r 2 a.a' 1 .On définit le coefficient de corrélation :
r a.a'
En remplaçant a et a' par leurs expressions, on obtient:
Y
Fumeurs Non-fumeurs
X
Cancéreux 50 30
Non cancéreux 30 90
1°- Définir l'unité statistique et donner le nombre de caractères selon lesquels est décrite.
2°- Tracer le nuage des points.
3°- Déterminer le point moyen.
4°- Etablir le tableau de contingence.
EXERCICE 02
Soit donnée, la distribution des étudiants d'une classe selon l'âge et le sexe.
Sexe
Age Masculin Féminin
[18 - 20[ 10 15
[20 - 22[ 30 20
[22 - 24[ 20 5
1°- Définir l'unité statistique et donner le nombre de caractères selon lesquels est
décrite. 2°- Tracer le nuage des points.
3°- Déterminer le point moyen.
4°- Etablir le tableau de contingence.
5°- Calculer les paramètres des lois marginales.
6°- Calculer les paramètres des lois conditionnelles.
7°- Calculer la covariance
EXERCICE 03
Soit donnée, la distribution des cadres d'une entreprise selon le salaire mensuel et le nombre
d'enfants.
Nb d'enfants
Salaire 1 2 3 4
[20 000 - 40 000[ 3 4 2 8
[40 000 - 60 000[ 6 5 3 5
[60 000 - 80 000[ 8 1 2 3
1°- Définir l'unité statistique et donner le nombre de caractères selon lesquels est
décrite. 2°- Tracer le nuage des points.
3°- Déterminer le point moyen.
4°- Etablir le tableau de contingence.
5°- Calculer les paramètres des lois marginales.
6°- Calculer les paramètres des lois conditionnelles.
7°- Calculer la covariance
EXERCICE 04
On considère un échantillon de 800 ménages classés selon deux caractères: le nombre de pièces par
logement (variable X) et le nombre d'enfants (variable Y).
Y
X 1 2 3 4 5 6 7 8
1 10 15 5 2 1 0 0 0
2 20 20 25 30 10 5 3 2
3 15 50 60 50 70 80 40 20
4 5 20 40 18 35 25 20 25
5 3 4 5 8 10 15 5 15
6 1 1 2 3 5 2 3 2
EXERCICE 05
Soit donnée une série statistique bivariée concernant un échantillon de 100 personnes classées selon
les dépenses de consommation mensuelles (caractères X) et les revenus mensuels (caractère Y) en
milliers de dinars.
Revenus
Dépenses [15 – 16[ [16 - 17[ [17 – 18[ [18 - 19[
[3 – 4[ 20 9 1 0
[4 – 5[ 2 18 4 1
[5 - 6[ 0 6 19 20
1°. Représenter dans un plans muni d'un repère orthonormé le nuage de points Mi(xi,yj) associé à la
statistique.On prendra :
pour origine: le point de coordonnées (0,8),
pour unité: 1[cm] → 10 [pièces] en abscisse et 1[cm] → 0,01 [mm] en ordonnées.
2°. Calculer les coordonnées du point moyen G du nuage et représentez le dans le graphique. du
nuage de points.
3°. Détermination de la droite de régression
a. Calculer les coordonnées du point G1 associé aux points du nuage ayant les cinq plus petites
abscisses et les coordonnées du point G2 associé aux cinq autres points du nuage.
b. Tracer la droite d'ajustement de MAYER qui passe par (G1,G2).
c. Formuler l'équation de la droite de MAYER.
4°. Sachant que les pièces produites doivent avoir un diamètre de 8 [mm], avec une tolérance de 0,1
[mm]. On demande de:
a.Déterminer graphiquement le nombre de pièces que l'on pourra produire avant que le diamètre
n'atteigne la valeur de 8,1 [mm].
b. Calculer ce même nombre à l'aide de l'équation de la droite de MAYER.
Age (xi) 36 42 48 54 60 66
Tension (yi) 12 13.5 13.6 14.3 15.4 15
1°. Représenter graphiquement le nuage de points M(x,y) dans un repère orthogonal. On prendra:
pour origine: le point de coordonnées (30,10).
pour unité: 0,5[cm] → 1 [an] en abscisse et 1[cm] → 1 [unité de tension] en ordonnées.
2°. Détermination de la droite de régression.
a. Si on admet qu'un ajustement par la méthode des moindres carrés est justifié. Calculer, à
0.01 près, le coefficient de corrélation entre x et y.
b. Formuler l'équation de la droite de régression de y en x (précision des coefficients 0.001)
c. Représenter graphiquement la droite de régression.
d. Si une personne de 70 ans a une tension de 16.1.- Quelle serait sa tension théorique en
Utilisant la droite de régression? –Comparez cette tension théorique avec la tension réelle