Académique Documents
Professionnel Documents
Culture Documents
1/ Définitions :
Soit une population d’effectif n. Lorsqu’on étudie 2 caractères X et Y simultanément,
on dit qu’on étudie une série statistique double.
quantitatif, quantitatif
qualitatif, qualitatif
Xi x1 x2 ….. xn
Yi y1 y2 ….. yn
Chacun de ces deux caractères pris seul, représente une variable statistique simple :
Pour les caractères quantitatifs, on peut donc calculer la moyenne, la variance et tout
autre paramètre défini au chapitre précédent.
Page 1
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
Ce qui nous intéresse en plus par rapport à l’étude séparée de chacun des deux
caractères (chapitre 1) est de voir dans quelle mesure les 2 caractères pris
ensembles, s’influencent l’un et l’autre. On présente alors les données sous forme
d’un tableau à double entrée, appelé tableau de contingence, ou tableau de
distribution conjointe.
Y y1 y2 … yj … yk ni.
X
x1 n11 n12 … n1j … n1k n1.
x2 n21 n22 … n2j … n2k n2.
…
xi ni1 ni2 … nij … nik ni.
…
xp np1 np2 … npj … npk np.
Où nij est le nombre d’individus qui possèdent en même temps les caractères x i et
yj. On a de plus les notations suivantes :
k p
ni • = nij et n• j = nij
j =1 i =1
k k p
n.• j = nij = n
j =1 j =1 i =1
p p k
n.• j = nij = n
i =1 i =1 j =1
Page 2
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
.
Y 50 60 65 ni. fi.
X
150 1 1 0 2 0.40
155 1 0 0 1 0.20
160 0 1 1 2 0.40
n.j 2 2 1 5
2/ Statistique marginale :
Définitions : La série (xi, ni.)i=1,…,p (respectivement (yj, n.j)j=1,…,k) est appelé 1ère
statistique marginale (respectivement 2ème statistique marginale). Ce sont toutes
les deux des statistiques simples pour lesquelles on a les tableaux de distribution
respectifs :
Xi x1 x2 ….. xi … xp total
Distribution de la 1ère statistique marginale.
ni. n1. n2. ….. ni. … np. n
f i. f1. f2. ….. fi. … fp. 1
Yj y1 y2 ….. yj … yk total
Distribution de la 2ème statistique marginale.
n.j n.1 n.2 ….. n.j … n.k n
f.j f.1 f.2 ….. f.j … f.k 1
Page 3
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
Exemple :
On a relevé les notes en statistique et en physique obtenues par 100 étudiants d’une
section ST. On a obtenu le tableau suivant :
.
Y 2 6 8 10 12 ni. fi.
X
4 2 1 0 0 0 3 0.03
8 5 12 3 1 0 21 0.21
10 2 10 28 5 0 45 0.45
14 0 3 12 10 1 26 0.26
18 0 0 1 2 2 5 0.05
n.j 9 26 44 18 3 100
Distribution marginale de X :
Xi 4 8 10 14 18 total
ni. 3 21 45 26 5 100
f i. 0.03 0.21 0 .45 0.26 0.05 1
Distribution marginale de Y :
Yj 2 6 8 10 12 total
n.j 9 26 44 18 3 100
f.j 0.09 0.26 0 .44 0.18 0.03 1
Page 4
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
3/ Distributions conditionnelles :
Définitions
1. La série statistique (x , n )
i i j i =1,..., p est appelée série statistique
2. La série statistique (y , n )
j i j ij =1,..., k est appelée série statistique
Exemple
On reprend l’exemple sur les notes
Distribution conditionnelle de X sachant Y= 8
Xi 4 8 10 14 18 total
ni3 0 3 28 12 1 n.3=44 fi3 = ni3 / n.3
fi3 0 0.07 0 .64 0.27 0.02 1
f i • f • j = f ij i = 1,..., p
et j = 1,..., k
Exemple
Dans le tableau de contingence précédent (page 4), pour i=1 et j=2 on a
1
f1• = 0,03 f • 2 = 0,26 et f 12 =
= 0,01
100
d' où f1• f • 2 f 12 X et Y ne sont pas indépendantes.
Page 5
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
Exemple
Chaque début de mois, une entreprise consacre une somme à des opérations
publicitaires. Elle relève à la fin du mois les ventes réalisées. Une étude portant
sur 8 mois a donné les résultats suivants (exprimés en millions d’euros)
X= frais de pub. 0.24 0.3 0.25 0.32 0.35 0.2 0.18 0.3
Y= Ventes 38 42 39 40 45 35 34 41
50
40
Vente 30
20
10
0
0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4
Frais de publicité
:
par :
Page 6
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
XY
1 n
(
= xi − x y i − y
n i =1
)( ) (1)
Théorème de Huyghens-König :
1
n
XY = xi yi − X Y
n
i =1
n (x
p k
1
xy = ij i
− X )( y j − Y )
n
i =1 j =1
Ou encore :
1
p k
xy = n ij x i y j − XY
n
i = 1 j = 1
cov( X , Y )
rXY =
X Y
Ce coefficient permet de mesurer le degré de liaison linéaire entre X et Y.
Page 7
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
Propriétés :
1. cov( X , Y ) = cov(Y , X )
2. − 1 rXY 1
3. Si X et Y sont indépendants (au sens de la définition précédente), alors
cov( X , Y ) = 0
Ce qu’il faut retenir :
Lorsque la corrélation est forte (| r | > 0 .7), les deux droites de régression sont très
proches et le nuage peut être approximé par une droite.
• Si r = 1 ou -1 alors les droites ( DY / X ) et ( DX / Y ) sont confondues ; on dit
que l’ajustement affine est parfait.
• Si 0,7< | r | <1. On dit que l’ajustement affine est justifié.
• Si | r | <0,7 alors l’angle entre les deux droites est supérieur à 45°.
L’ajustement affine ne se justifie pas.
y=β0+β1 x+ε(1) où :
Y est la variable à expliquer (à valeurs dans R) ;
X est la variable explicative (à valeurs dans R) ;
yi=β0+β0xi+εi
Page 8
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
9/ Ajustement linéaire
Soit ( xi , yi ) i =1,..., n une série statistique double, avec le nuage de points
Mi (xi, yi) associé.
Lorsque les points du nuage paraissent presque alignés, on peut chercher une
relation de la forme y = ax + b qui exprime de façon approchée les valeurs de la série
(yi) en fonction des valeurs de la série (xi) , autrement dit, une fonction affine f telle
que l’égalité y = f(x) s’ajuste au mieux avec les données.
Graphiquement, cela signifie qu’on cherche une droite qui passe au plus près de
tous les points du nuage. Une telle relation permettrait notamment de faire des
prévisions. Pour trouver cette relation linéaire, nous appliquons la méthode des
moindres carrés.
Page 9
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
Posons
E = (P M )
1 1
2
+ (P2 M 2 ) + ... + (Pn M n )
2 2
Alors
n
E = y i
− (axi + b )
2
i =1
n
n
= nb2 − 2b
( yi − axi ) + (y i − axi )
2
i =1 i =1
On cherche a et b tel que ce nombre E (qui représente la somme des carrés des
écarts entre la droite D et les points du nuage) soit minimum.
Ce nombre est une fonction des deux variables : a et b. Il atteint son minimum si
ses dérivées partielles s'annulent et si les dérivées secondes sont négatives: Donc
E E
on cherche a et b tels que = 0 et = 0 . D’où
a b
Page 10
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
E
1) = 0 :
b
n
E
= 2nb − 2 ( yi − axi ) = 0
b
i =1
1
n
b = ( yi − axi ) = Y − a X
n
i =1
2) D’autre part,
n
E = yi
i =1
− (axi + b )
2
n n
( yi − axi − b ) = (y )
2 2
= i − axi − Y + a X
i =1 i =1
n
− a ( x 2
= i − X ) + ( yi − Y )
i =1
d ' où
n
E
a
= 2− a ( x
i =1
i − X ) + ( y i − Y ) − ( xi − X )
n n
= 2 a (x
i =1
i − X) − 2 2
(x
i =1
i − X )( y i − Y )
Donc :
n
E
(x i − X )( y i − Y )
= 0 a = i =1
a n
(x
i =1
i − X )2
En multipliant les deux sommes précédentes par 1/n, remarquez que a peut
alors s’écrire
n
1
n ( x − x)( y − i i y)
cov( X , Y )
a = i =1
=
n
2
n
1 X
( x − x) i
2
Page 11
i =1
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
cov( X , Y )
a =
2X
b = y − ax
cov( X , Y ) cov( X , Y )
( DY / X ) y = x + (y − x)
2
X 2X
cov( X , Y ) cov( X , Y )
( DX / Y ) x = y + (x − y)
2
Y 2Y
Page 12
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
Exercices
1/ Chaque début de mois, une entreprise consacre une somme à des opérations
publicitaires. Elle relève à la fin du mois les ventes réalisées. Une étude portant
sur 8 mois a donné les résultats suivants (exprimés en millions d’euros)
X= frais de pub. 0.24 0.3 0.25 0.32 0.35 0.2 0.18 0.3
Y= Ventes 38 42 39 40 45 35 34 41
xi2 0.0576 0.09 0.0625 0.1024 0.1225 0.04 0.0324 0.09
50
40
Vente 30
20
10
0
0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4
Frais de publicité
r(X,Y) = 0.956
D’après le graphe, il semble que les points soient presque alignés, ceci est
confirmé par le coefficient de corrélation linéaire qui est très proche de 1.
Page 13
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
On peut alors dire qu’il y a une relation linéaire entre les frais engagés pour la
publicité et les ventes. Cette relation est quantifiée par les droites de régression
Ces deux droites de régression nous permettent de faire des prévisions sur les
ventes en utilisant la première droite, ou sur les frais de publicité en utilisant la
deuxième droite. C'est-à-dire que je peux prévoir pour le 9ème mois les ventes
réalisées si j’ai des frais de publicité égaux à 400 000 euros, en utilisant la
première droite de régression, on aura :
y = 58.05* 0.4 +23.72 = 46.94
les ventes seront de l’ordre 46.94 millions d’euros
Page 14
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
Σ Σ nij xiyj
= 8448
D’après le tableau, on a :
X = 10.84 Var(X) = (1/n) Σ ni. (xi- X )2 =8.5744 σX = 2.98
1
5 5
nij xi y j − X Y = 4.0472
Cov(X,Y) = σXY =
n
i =1 j =1
Page 15
Ecole Supérieure Algérienne des Affaires L2, 2023/2024
Page 16