Vous êtes sur la page 1sur 16

Ecole Supérieure Algérienne des Affaires L2, 2023/2024

Chapitre deux : Statistique double

1/ Définitions :
Soit une population d’effectif n. Lorsqu’on étudie 2 caractères X et Y simultanément,
on dit qu’on étudie une série statistique double.

quantitatif, quantitatif

Ces deux caractères peuvent être quantitatif, qualitatif

qualitatif, qualitatif

Exemples : à chaque individu, on peut relever les caractères suivants :


1. X = taille, Y = poids
2. X = couleur des yeux Y = couleur des cheveux
3. X = série du bac Y = moyenne annuelle en 1ère année

Tableau de données : c’est la série (x , y )


i i i = 1,..., n

Xi x1 x2 ….. xn
Yi y1 y2 ….. yn

Exemple : On a mesuré la taille et le poids de 5 étudiants.


Soient X= taille, Y = poids,

Xi (cm) 160 150 150 155 160


Yi (kg) 60 60 50 50 65

Chacun de ces deux caractères pris seul, représente une variable statistique simple :
Pour les caractères quantitatifs, on peut donc calculer la moyenne, la variance et tout
autre paramètre défini au chapitre précédent.

Page 1
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

Ce qui nous intéresse en plus par rapport à l’étude séparée de chacun des deux
caractères (chapitre 1) est de voir dans quelle mesure les 2 caractères pris
ensembles, s’influencent l’un et l’autre. On présente alors les données sous forme
d’un tableau à double entrée, appelé tableau de contingence, ou tableau de
distribution conjointe.

Soient x1 , x2 ,..., x p les p observations distinctes (modalités) du caractère X, et

y1 , y2 ,..., yk les k observations distinctes (modalités) de Y.

Y y1 y2 … yj … yk ni.
X
x1 n11 n12 … n1j … n1k n1.
x2 n21 n22 … n2j … n2k n2.

xi ni1 ni2 … nij … nik ni.


xp np1 np2 … npj … npk np.

n.j n.1 n.2 … n.j … n.k n

Où nij est le nombre d’individus qui possèdent en même temps les caractères x i et
yj. On a de plus les notations suivantes :

 
k p

ni • = nij et n• j = nij
j =1 i =1

 
k k p

n.• j = nij = n
j =1 j =1 i =1

 
p p k

n.• j = nij = n
i =1 i =1 j =1

Page 2
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

Exemple : On reprend le tableau précédent sur les tailles et les poids

.
Y 50 60 65 ni. fi.
X
150 1 1 0 2 0.40

155 1 0 0 1 0.20

160 0 1 1 2 0.40
n.j 2 2 1 5

f.j 0.40 0.40 0.20 1

2/ Statistique marginale :
Définitions : La série (xi, ni.)i=1,…,p (respectivement (yj, n.j)j=1,…,k) est appelé 1ère
statistique marginale (respectivement 2ème statistique marginale). Ce sont toutes
les deux des statistiques simples pour lesquelles on a les tableaux de distribution
respectifs :

Xi x1 x2 ….. xi … xp total
Distribution de la 1ère statistique marginale.
ni. n1. n2. ….. ni. … np. n
f i. f1. f2. ….. fi. … fp. 1

Yj y1 y2 ….. yj … yk total
Distribution de la 2ème statistique marginale.
n.j n.1 n.2 ….. n.j … n.k n
f.j f.1 f.2 ….. f.j … f.k 1

fi. = ni. /n = fréquence du caractère xi dans la population.


f.j = n.j /n = fréquence du caractère yj dans la population.
fij = nij /n = fréquence des caractères xi et yj dans la population.

Page 3
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

Exemple :
On a relevé les notes en statistique et en physique obtenues par 100 étudiants d’une
section ST. On a obtenu le tableau suivant :

.
Y 2 6 8 10 12 ni. fi.
X
4 2 1 0 0 0 3 0.03
8 5 12 3 1 0 21 0.21
10 2 10 28 5 0 45 0.45
14 0 3 12 10 1 26 0.26
18 0 0 1 2 2 5 0.05
n.j 9 26 44 18 3 100

f.j 0.09 0.26 0.44 0.18 0.03 1

1. Il y a 12 = n43 étudiants qui ont obtenu 14 en statistique et 08 en physique.


2. Il n’y a aucun (0) étudiant qui a obtenu 4 en statistique et 12 en physique (n 15)
3. Il y a 3 = n1. étudiants qui ont obtenu 4 en statistique.
4. Il y a n.3 = 44 étudiants ayant obtenu 08 en physique.

Distribution marginale de X :

Xi 4 8 10 14 18 total
ni. 3 21 45 26 5 100
f i. 0.03 0.21 0 .45 0.26 0.05 1

Distribution marginale de Y :

Yj 2 6 8 10 12 total
n.j 9 26 44 18 3 100
f.j 0.09 0.26 0 .44 0.18 0.03 1

Page 4
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

3/ Distributions conditionnelles :
Définitions

1. La série statistique (x , n )
i i j i =1,..., p est appelée série statistique

conditionnelle de X sachant que Y prend la valeur yj.

2. La série statistique (y , n )
j i j ij =1,..., k est appelée série statistique

conditionnelle de Y sachant que X prend la valeur xi.

Exemple
On reprend l’exemple sur les notes
Distribution conditionnelle de X sachant Y= 8

Xi 4 8 10 14 18 total
ni3 0 3 28 12 1 n.3=44 fi3 = ni3 / n.3
fi3 0 0.07 0 .64 0.27 0.02 1

4 / Indépendance entre 2 caractères


Deux caractères X et Y sont indépendants si les variations de l’un des caractères
n’entrainent pas de variations pour l’autre caractère.
On posera alors la définition suivante :
Définition : les séries statistiques (xi, ni.)i=1,…,p et (yj, n.j)j=1,…,k sont dites
indépendantes si on a :

f i •  f • j = f ij i = 1,..., p
et j = 1,..., k

Exemple
Dans le tableau de contingence précédent (page 4), pour i=1 et j=2 on a

1
f1• = 0,03 f • 2 = 0,26 et f 12 =
= 0,01
100
d' où f1•  f • 2  f 12  X et Y ne sont pas indépendantes.

Page 5
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

5/ Représentation graphique : nuage de points

Soit ( x i , y i ) i = 1,..., n une série statistique double.


Le nuage de points défini par cette série est la représenation dans le plan IR2 des
( xi , yi )
points de coordonnées

Exemple
Chaque début de mois, une entreprise consacre une somme à des opérations
publicitaires. Elle relève à la fin du mois les ventes réalisées. Une étude portant
sur 8 mois a donné les résultats suivants (exprimés en millions d’euros)

X= frais de pub. 0.24 0.3 0.25 0.32 0.35 0.2 0.18 0.3
Y= Ventes 38 42 39 40 45 35 34 41

Nuage de points : Frais de pub/ Vente

50
40
Vente 30

20
10
0
0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4
Frais de publicité
:

6/ Covariance entre deux caractères


Définition : On appelle covariance d'une série statistique double (X ; Y) où les

caractères X et Y sont quantitatifs, le nombre noté cov(X, Y) ou  XY défini

par :

Page 6
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

 XY
1 n
(
=  xi − x y i − y
n i =1
)( ) (1)

Théorème de Huyghens-König :

1 

n

 XY =  xi yi  − X Y
 n 
 i =1 

Lorsque la série statistique est donnée sous forme d’un tableau de


contingence, la définition précédente (1) devient :

  n (x
p k
1
 xy = ij i
− X )( y j − Y )
n
i =1 j =1

Ou encore :

 1 
 
p k

 xy =  n ij x i y j  − XY
 n 
 i = 1 j = 1 

7/ Coefficient de corrélation linéaire

Définition : On appelle coefficient de corrélation linéaire du couple (X, Y), le

nombre réel, noté rXY défini par :

cov( X , Y )
rXY =
 X Y
Ce coefficient permet de mesurer le degré de liaison linéaire entre X et Y.

Page 7
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

Propriétés :
1. cov( X , Y ) = cov(Y , X )

2. − 1  rXY  1
3. Si X et Y sont indépendants (au sens de la définition précédente), alors

cov( X , Y ) = 0
Ce qu’il faut retenir :
Lorsque la corrélation est forte (| r | > 0 .7), les deux droites de régression sont très
proches et le nuage peut être approximé par une droite.
• Si r = 1 ou -1 alors les droites ( DY / X ) et ( DX / Y ) sont confondues ; on dit
que l’ajustement affine est parfait.
• Si 0,7< | r | <1. On dit que l’ajustement affine est justifié.
• Si | r | <0,7 alors l’angle entre les deux droites est supérieur à 45°.
L’ajustement affine ne se justifie pas.

8/ Régression linéaire simple


On cherche à modéliser la relation entre deux variables quantitatives continues.
Un modèle de régression linéaire simple est de la forme suivante :

y=β0+β1 x+ε(1) où :
Y est la variable à expliquer (à valeurs dans R) ;
X est la variable explicative (à valeurs dans R) ;

ε est le terme d’erreur aléatoire du modèle ;


β0 et β1 sont deux paramètres à estimer.

• La désignation “simple” fait référence au fait qu’il n’y a qu’une seule


variable explicative x pour expliquer y.
• La désignation “linéaire” correspond au fait que le modèle (1) est linéaire
en β0 et β1.
Pour n observations, on peut écrire le modèle de régression linéaire simple sous
la forme :

yi=β0+β0xi+εi

Page 8
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

9/ Ajustement linéaire
Soit ( xi , yi ) i =1,..., n une série statistique double, avec le nuage de points
Mi (xi, yi) associé.
Lorsque les points du nuage paraissent presque alignés, on peut chercher une
relation de la forme y = ax + b qui exprime de façon approchée les valeurs de la série
(yi) en fonction des valeurs de la série (xi) , autrement dit, une fonction affine f telle
que l’égalité y = f(x) s’ajuste au mieux avec les données.
Graphiquement, cela signifie qu’on cherche une droite qui passe au plus près de
tous les points du nuage. Une telle relation permettrait notamment de faire des
prévisions. Pour trouver cette relation linéaire, nous appliquons la méthode des
moindres carrés.

Méthode des moindres carrés


On considère un nuage de points Mi (xi, yi) et soit (D) une droite d’équation y = ax + b
que l’on cherche à déterminer.
A chaque point Mi (xi, yi) de ce nuage de point, on peut faire correspondre un point Pi
de la droite (D) ayant la même abscisse que Mi, pour avoir une idée des écarts entre
les points Mi du nuage et la droite (D).

Page 9
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

Posons

E = (P M )
1 1
2
+ (P2 M 2 ) + ... + (Pn M n )
2 2

Alors


n

E = y i
− (axi + b )
2

i =1

 
 n
 n

= nb2 − 2b

( yi − axi ) + (y i − axi )
2

 i =1  i =1

On cherche a et b tel que ce nombre E (qui représente la somme des carrés des
écarts entre la droite D et les points du nuage) soit minimum.

Ce nombre est une fonction des deux variables : a et b. Il atteint son minimum si

ses dérivées partielles s'annulent et si les dérivées secondes sont négatives: Donc
E E
on cherche a et b tels que = 0 et = 0 . D’où
a b

Page 10
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

E
1) = 0 :
b
 

n
E
= 2nb − 2 ( yi − axi )  = 0
b  
 i =1 
1 

n

 b =  ( yi − axi )  = Y − a X
n 
 i =1 
2) D’autre part,
n

E =   yi
i =1
− (axi + b )
2

n n

 ( yi − axi − b ) =  (y )
2 2
= i − axi − Y + a X
i =1 i =1
n

 − a ( x  2
= i − X ) + ( yi − Y )
i =1

d ' où
n
E
a
=  2− a ( x
i =1
i − X ) + ( y i − Y ) − ( xi − X )  
n n

= 2  a (x
i =1
i − X) − 2 2
 (x
i =1
i − X )( y i − Y )

Donc :
n

E
 (x i − X )( y i − Y )
= 0  a = i =1

a n

 (x
i =1
i − X )2

En multipliant les deux sommes précédentes par 1/n, remarquez que a peut
alors s’écrire

n
1
n  ( x − x)( y − i i y)
cov( X , Y )
a = i =1
=
n
 2

n 
1 X
( x − x) i
2

Page 11
i =1
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

On a donc les valeurs a et b qui rendent minimale l’expression E :

cov( X , Y )
a =
 2X
b = y − ax

10/ Droites de régression


Définition :
La droite d’équation y = ax + b est appelée droite de régression de Y en X, obtenue
par la méthode des moindres carrés.

cov( X , Y ) cov( X , Y )
( DY / X ) y = x + (y − x)
 2
X  2X

De même on peut définir la droite de régression de X en Y en passant par les


mêmes étapes et on déduit l’équation :

cov( X , Y ) cov( X , Y )
( DX / Y ) x = y + (x − y)
 2
Y  2Y

Page 12
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

Exercices

1/ Chaque début de mois, une entreprise consacre une somme à des opérations
publicitaires. Elle relève à la fin du mois les ventes réalisées. Une étude portant
sur 8 mois a donné les résultats suivants (exprimés en millions d’euros)

X= frais de pub. 0.24 0.3 0.25 0.32 0.35 0.2 0.18 0.3
Y= Ventes 38 42 39 40 45 35 34 41
xi2 0.0576 0.09 0.0625 0.1024 0.1225 0.04 0.0324 0.09

yi2 1444 1764 1521 1600 2025 1225 1156 1681

xiyi 9.12 12.6 9.75 12.8 15.75 7 6.12 12.3

Nuage de points : Frais de pub/ Vente

50
40
Vente 30

20
10
0
0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4
Frais de publicité

Calcul des moyennes, écart-type, covariance et coefficient de corrélation :

X = 0.2675 Var(X) = [(1/n) Σ xi2] – X = 3.118 10-3 σX = 0 .0558

Y = 39.25 Var(Y) = [(1/n) Σ yi2)] – Y = 11.437 σY = 3.382

Cov(X,Y) = σXY = [ (1/n) Σ xi yi] – X Y = 0.181

r(X,Y) = 0.956

D’après le graphe, il semble que les points soient presque alignés, ceci est
confirmé par le coefficient de corrélation linéaire qui est très proche de 1.
Page 13
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

On peut alors dire qu’il y a une relation linéaire entre les frais engagés pour la
publicité et les ventes. Cette relation est quantifiée par les droites de régression

Droite de régression de y en x : y = 58.05x +23.72


Droite de régression de x en y : x = 0.0158y – 0.3536

Ces deux droites de régression nous permettent de faire des prévisions sur les
ventes en utilisant la première droite, ou sur les frais de publicité en utilisant la
deuxième droite. C'est-à-dire que je peux prévoir pour le 9ème mois les ventes
réalisées si j’ai des frais de publicité égaux à 400 000 euros, en utilisant la
première droite de régression, on aura :
y = 58.05* 0.4 +23.72 = 46.94
les ventes seront de l’ordre 46.94 millions d’euros

De même on peut prévoir le budget pour les frais de publicité si je veux


atteindre un chiffre de vente de l’ordre de 30 millions : ici on y = 30 et on utilise
la deuxième droite de régression :
x= 0.0158* 30 – 0.3536 = 0.1204
les frais de pub à prévoir sont de l’ordre de 120 400 euros.

2/ on reprend l’exemple sur les notes

Page 14
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

Y 2 6 8 10 12 ni. ni. xi (xi- X )2


X
4 2 1 0 0 0 3 12 46.7856
8 5 12 3 1 0 21 168 8.0656
10 2 10 28 5 0 45 450 0.7056
14 0 3 12 10 1 26 364 9.9856
18 0 0 1 2 2 5 90 51.2656

n.j 9 26 44 18 3 n = 100 Σ ni. xi Σ ni. (xi-X)2 =


=1084 857.44

n.j yj 18 156 352 180 36


Σ n.j yj
=742

(yj-Y)2 29.3764 2.0164 0.3364 6.6564 20.9764 Σ n.j (yi- Y )2 =


514.36

Σ Σ nij xiyj
= 8448

D’après le tableau, on a :
X = 10.84 Var(X) = (1/n) Σ ni. (xi- X )2 =8.5744 σX = 2.98

Y = 7.42 Var(Y) = (1/n) Σ n.j (yj- Y )2 =5.1436 σY = 2.27

1 

5 5
 nij xi y j  − X Y = 4.0472
Cov(X,Y) = σXY = 
n
 i =1 j =1 

Page 15
Ecole Supérieure Algérienne des Affaires L2, 2023/2024

r(X,Y) = 0.6 : le coefficient de corrélation est médiocre (pas bon), il ne justifie


pas la recherche d’un alignement statistique. On peut quand même donner les
droites de régression mais celles-ci ne seront pas utilisables (si on veut faire
des prévisions).

Droite de régression de y en x : y = 0.4720x + 2.3034


Droite de régression de x en y : x = 0.7868y + 5.0016

Page 16

Vous aimerez peut-être aussi