Académique Documents
Professionnel Documents
Culture Documents
Partie II
Séries statistiques à deux variables
1- Introduction :
Lors de l’étude des certains phénomènes, il est courant d’avoir affaire à plus d’une
variable statistique (on parle alors d’analyse statistique multivariée), pour chaque
observation, on recueille plusieurs informations. Ceci complique énormément la
construction des tableaux statistiques et les représentations graphiques résumant ces
études. Nous nous contenterons dans ce chapitre, d’étudier les séries à deux variables
(analyse statistique bivariée). Le but est de savoir s’il existe une relation entre ces
deux variables.
2- Définition :
On appelle statistique à deux dimensions, ou Statistique Double, toute applications
2
C définie d’un ensemble fini vers R
C : R 2
C X ( ), Y ( )
On rassemble toutes ces données dans un tableau de contingence (un tableau à double
entrée):
Total n .1 n. 2 n. j n. l n
ni j
fij est la proportion du groupe d’individus présentant la modalité x i de X et la
n
modalité y j de Y.
ni .
fi . : la fréquence du groupe d’individus présentant la modalité x i de X
n
n. j
f.j ; la fréquence du groupe d’individus présentant la modalité y j de Y
n
k l k l
f i . = f . j = fi j 1
i 1 j 1 i 1 j 1
total f .1 f. 2 f. j f. l 1
4- Distributions marginales :
Les sommes des effectifs ou des fréquences en lignes, définissent la
distribution marginale du caractère X : appelé 1° distribution marginale.
n i. n 1. n 2. n i. n k. N
n.j n .1 n .2 n.j n .l N
Exemple 1:
Le tableau suivant indique la répartition de 50 logements d’une cité, en fonction de la surface
X exprimée en m 2 et le nombre de pièces principales Y.
X\Y 3 4 5 6 n i.
70 4 5 1 10
80 2 8 3 13
90 2 6 8
100 1 8 10 19
n. j 6 16 18 10 50
X ni . ni . xi
70 10 700
80 13 1040
90 8 720
100 17 1700
4160
Y n. j
3 6
4 16
5 18
6 10
4160
7- La surface moyenne de l’ensemble des logements : X 83,2 m 2
50
5- Distributions conditionnelles:
Considérons les n i . individus qui présentent la modalité x i de X , parmi ceux là, il y
ni j
a une proportion qui présentent simultanément la modalité y j de Y.
n i.
ni j
Cette proportion est appelée fréquence conditionnelle de la modalité y j
n i.
ni j
sachant la modalité x i de X. et on note : fY y / X x .
j i n i.
ni j
f X xi / Y y j : est la fréquence conditionnelle de la modalité x i de X
n. j
sachant la modalité y j de Y.
6- moyenne et variance :
Les moyennes et variances sont définies de la même manière que dans le chapitre
précédent :
2
1 k 1 k
et ( X ) V ( X ) ni . xi X
2
X n i . xi
n i 1 n i 1
2
1 l
Y n. j y j
n j 1
et (Y ) V (Y )
2 1 l
n . j y j Y
n j 1
X\Y 3 4 5 6 n i.
70 4 5 1 10
80 2 8 3 13
90 2 6 8
100 1 8 10 19
n. j 6 16 18 10 50
X 70 80 90 100 Total
f 5 8 2 1 1
X xi / Y 4
16 16 16 16
xi f X xi / Y 4 350 640 180 100 1270
79 .37
16 16 16 16 16
8- propriétés :
ni j fi j
f X xi / Y y j f i j f X xi / Y y j . f . j
n. j f. j
ni j fij
f Y y j / X xi f i j fY y j / X xi . f i .
n i. f i.
9- indépendance :
X et Y sont dites indépendantes ssi f i j f i . . f . j , i 1,..., k
j 1,...,l
Remarque :
Si X et Y sont deux variables indépendantes, alors
f X x i / Y y j f X xi
fY y j / X xi f Y y j
n x X y j Y
k l
Cov X , Y X Y
1
ij i
n i 1 j 1
1 k l
ni j xi y j X Y
n i 1 j 1
Démonstration :
n x X y j Y
k l
Cov X , Y X Y
1
i j i
n i 1 j 1
ni j xi y j ni j xi Y ni j y j X ni j X Y
1 k l
n i 1 j 1
1 k l 1 k l 1 k l 1 k l
ni j xi y j ni j xi Y ni j y j X ni j X Y
n i 1 j 1 n i 1 j 1 n i 1 j 1 n i 1 j 1
1 k l 1 k l
1 k l 1 k l
ij i j n
n i 1 j 1
n x y Y
i 1
xi i j
j 1
n X ij j
n i 1 j 1
n y X Y ni j
n i 1 j 1
1 k l 1 k 1 l k
1 k l
ij i j n
n i 1 j 1
n x y Y
i 1
n x
i. i X
n
j 1
yj ni j X Y
i 1
ni j
n i 1 j 1
k l l
1 1
n i 1 j 1
ni j xi y j Y X X n. j y j X Y
n j 1
1 k l
ni j xi y j X Y
n i 1 j 1
Remarque : Cov X , X X X V X
Démonstration :
Cov X , Y
r X ,Y
X Y
n x X y j Y
k l
Cov X , Y
1
ij i
n i 1 j 1
xi X y j Y
k l ni j
i 1 j 1 n
k l
f i j xi y j X Y
i 1 j 1
XY XY
0
Exemple 2:
On désire étudier la corrélation entre
La variable X : le nombre d’absences
La variable Y : la moyenne générale obtenue de 30 étudiants.
Les résultats sont donnés dans le tableau de contingence suivant :
0 0 0 3 5
1 0 3 1 0
2 3 4 1 0
3 5 3 2 0
n. j
0 0 0 3 5 8 0 0
0 0 0 0
1 0 3 1 0 4 4 4
0 18 10 0
2 3 4 1 0 8 16 32
12 48 20 0
3 5 3 2 0 10 30 90
30 54 60 0
n. j 8 10 7 5 30 50 126
n. j y j
16 60 70 70 216
n i 1 30
k
V Y n. j y j Y 2
1 2072
Y 17.23 Y 4.15
2 2
n i 1 30
Le point moyen, c’est le point de coordonnées X , Y , ce point est noté
G X , Y on l’appelle aussi le centre de gravité ou le barycentre.
b. Coefficient de détermination :
Il est à noter que, pour laisser de côté le signe du coefficient de corrélation r X , Y ,
on préfère s’intéresser au coefficient de détermination de la série, qui est le nombre
noté R r X , Y (le carré du coefficient de corrélation)
2 2
Si R²= 1 tous les points sont exactement alignés sur la droite de régression.
Exemple 3 :
Le tableau suivant donne l’évolution du nombre d’adhérents à un club, de 2008 à 2013.
Année 2008 2009 2010 2011 2012 2013
rang Xi 1 2 3 4 5 6
Y i :le nombre 70 90 115 140 170 220
d’adhérents
On donne :
6 6 6 6 6
i 1
xi 21 , yi 805 , x
i 1 i 1
2
i 91 ,
i 1
y 2
i 213125 ,
i 1
xi y i 3325
Le but est d’étudier cette série statistique de deux variables (le rang et le nombre d’adhérents),
afin de prévoir l’évolution du nombre d’adhérents pour les années suivantes.
On peut remarquer que le nuage de points a une forme allongée au voisinage d’une droite,
donc un ajustement linéaire est envisageable.
1 6 21
X
6 i1
xi 3.5
6 ,
6
1 805
Y yj 134 .17
6 j 1 6
1 6 2
V X xi X 2
91
X 2.92 x 1.71
2
6 i1 6
6
V Y y j Y 2
1 213125
Y 2519 .25 Y 50.19
2 2
6 i1 6
r X ,Y
cov ( X , Y ) 84.58
0.98
X Y (1.71).(50.19)
Le coefficient de détermination : R r
2 2
X ,Y 0.96
Donc 96% de la dispersion est expliquée par la régression linaire
Une très forte corrélation linéaire.
Exemple 4 :
Lors d’un examen d’une durée de 04h, on a relevé la durée de composition (c’est-à-dire
au bout de combien de temps chacun a rendu sa copie) : Y
et la note (sur 20) X des12 étudiants qui se sont présentés.
Numéro de 1 2 3 4 5 6 7 8 9 10 11 12
l’étudiant
La note : Xi 8 14 9 17 19 3 7 15 12 11 9 16
Le nuage de points est dispersé, l’ajustement linéaire n’est pas approprié, le coefficient de
détermination R r X , Y 0.5 , donc une faible corrélation linéaire.
2 2
On peut avoir besoin d’effectuer une approximation du nuage par une courbe, dépendant
de sa distribution, afin d’obtenir, par exemple, une prévision d’un certain phénomène.
C’est cette approximation que l’on appelle ajustement.
Dans un premier temps, nous allons nous intéresser à des ajustements par des fonctions
affines, ce qui n’a un sens que lorsque le nuage de points semble être distribué le long
d’une droite.
Droite de régression de Y en X :
La droite D d’équation Y a X b est appelée droite de régression de Y en X , si
et seulement si, la quantité suivante est minimale
n n 2
M i Qi yi a xi b
2
i 1 i 1
Y a X b :
Cov X , Y
a , b Y a X .
V (X )
b est tel que , la droite passe par le point moyen G X ,Y : le centre de gravité.
Droite de régression de X en Y:
La droite D d’équation X Y est appelée droite de régression de X en Y ,
n 2
si et seulement si la quantité xi yi est minimale
i 1
D:X Y
Cov X , Y
, X Y
V (Y )
est tel que la droite passe par le point moyen G X ,Y : le centre de gravité.
Remarque :
- Les deux droites D et D passent par le même point G X , Y : le
point moyen ou centre de gravité.
D:
X X car :
Cov X , Y
0 , X
V (Y )
La distance de freinage d’un véhicule sur une route sèche, en fonction de sa vitesse est
donnée par le tableau suivant :
1. Représenter graphiquement la série (X,Y). Que peut-on dire sur la liaison entre X et Y.
2. Calculer le coefficient de corrélation linéaire entre X et Y. donner le coefficient de
détermination, que peut-on conclure ?
3. Donner les équations des deux droites de régression.
4. Peut-on estimer la distance de freinage, si le véhicule roule à 130 km/h ?
On donne :
10 10 10 10 10
2 2
xi 750 , yi 640 , xi 64500 , yi 59336 , xi y i 60060
i 1 i 1 i 1 i 1 i 1
Réponse :
a. Ajustement exponentiel
C’est un ajustement qui s’applique pour des phénomènes à croissance forte ou à
décroissance rapide, il peut être recommandé d’approcher la forme générale du nuage
a x b
par une fonction exponentielle de la forme x e . Pour déterminer les valeurs
de a et b on effectue un ajustement affine (par la méthode des moindres carrés) sur
la série xi , ln yi . en posant zi ln yi
aX b
Faire un ajustement : Z ln Y aX b Y e
Cov X , Z
Avec ; a
V X
b Z a X
Exemple 6 :
Le tableau ci-dessous indique le salaire brut annuel, en euros, perçu par un cadre.
rang Xi 1 2 3 4 5
Y i : le salaire annuel 42900 50200 64100 81600 125000
zi ln yi 10.66 10.83 11.07 11.31 11.73
5 5 5 5 5
On donne :
i 1
xi 15 , zi 55.6 , x
i 1 i 1
2
i 55 ,
i 1
z 2
i 618 .98 ,
i 1
xi z i 169 .4
La répartition des points au sein du nuage laisse penser que l’augmentation du salaire
de ce cadre est de plus en plus rapide au fil des années, phénomène qui ne peut pas être
modélisé pas une droite.
X 3 V X 11 3 2 X 1.41
2
Z ln Y 0.26 X 10.34
Y e0.26 X 10.34
Un très bon ajustement fonctionnel entre les variables X et Y :
Y e0.26 X 10.34 exp 0.26 X 10.34
Z ln Y 0,26 X 10,34
X 6 : ln Y 0,26 6 10,34 11,9
Y exp 11,9 147266 ,62 euros
b. Ajustement logarithmique
A l’opposé des fonctions exponentielles, les fonctions logarithmes x a ln x b
sont tout à fait indiquées dans la modélisation des phénomènes à décroissance lente.
Pour cela, on effectue un ajustement affine sur la série ln xi , yi , en posant
zi ln xi , faire un ajustement affine entre Y et Z , c’est trouver l’équation de la
droite de régression de Y en Z, par la méthode des moindres carrées.
Y a Z b a ln X b
Avec :
Cov Z , Y
a et b Y a Z
V Z
Exemple 6:
Le tableau ci-dessous donne la production d’électricité d’origine nucléaire en France,
exprimée en milliards de kWh entre 1995 et 2019 (source : site web du Ministère de
l’industrie).
Année 1995 1998 2001 2004 2007 2010 2013 2016 2019
rang X i de 5 8 11 14 17 20 23 26 29
l’année
Y i : la 137.9 213.1 297.9 358.8 395.2 401.3 416.5 420.7 427.7
production
zi ln xi 1.61 2.08 2.40 2.64 2.83 3.00 3.14 3.26 3.37
Le nuage de points M i x i , yi :
On remarque que le nuage de points n’a pas une forme allongée au voisinage d’une
droite, donc un ajustement linéaire n’est pas approprié.
Le nuage de points M i z i , yi :
Le nuage de points donne une allure d’une droite, donc un ajustement linéaire sera
adapté.
(Un calcul par excel nous donne l’équation de la droite de régression ainsi que le coefficient
de détermination) :
Y 173,86 ln X 128,71