Académique Documents
Professionnel Documents
Culture Documents
Analyse bivariée
1 / 62
Plan
1 1- Définitions :
2 2- Paramètres et tableaux de calculs
2.1-Données non groupées :
2.2- Données groupées :
2.3- Propriétés :
2.4 Distribution conditionnelle, indépendance
2.5- Exemple :
3 3- Ajustement linéaire
3.1- Introduction
3.2- Définitions
3.3- Méthode des moindres carrés :
3.4-Ajustement et corrélation
3.5 -Exemple (Ajustement exponentiel) :
4 4- Conclusion
5 Exercices
2 / 62
1- Définitions :
3 / 62
On obtient aussi un nuage de n points constituant un diagramme de
dispersion.
Individu 1 2 ··· n
Valeur X x1 x2 ··· xn
Valeur Y y1 y2 ··· yn
4 / 62
Données groupées :
Les valeurs prises par X et Y étant respectivement x1 , x2 , · · · , xp et
y1 , y2 , · · · , yq .
nij est l’effectif des individus dont les valeurs de X et Y sont
respectivement xi et yj .
5 / 62
Ce tableau doit être lu de la façon suivante :
l’effectif du caractère double (xi , yi ) est nij .
nij est l’effectif des individus présentant simultannement les
modalités xi et yj .
P
L’effectif de toute la population est n = i,j nij .
nij X
En fréquence fij = et fij = 1.
n
i,j
6 / 62
Exemple. Soit Ω la population constituée par les quatre pays
suivants : France, Allemagne, Grande bretagne et l’Italie. Notons X la
production de fonte (bronze) et Y la production d’acier arrondies en
millons de tonnes
8 / 62
ni. et n. j : sont appelés effectifs partiels marginaux.
On a :
Xp Xq p X
X q
n= ni. = n. j = nij .
i=1 j=1 i=1 j=1
9 / 62
- Fréquences marginales
ni.
fi. = fréquence marginale de xi .
n
n. j
f. j = fréquence marginale de yj .
n
On a
p
X q
X p X
X q
fi. = f. j = fij = 1.
i=1 j=1 i=1 j=1
10 / 62
2- Paramètres et tableaux de calculs
2.1-Données non groupées :
Comme dans le cas d’un seul caractère, on a :
n n
1X 1X
Moyennes X = xi et Y = yi .
n n
i=1 i=1
n
1X 2
Variances V (X ) = σX2 = xi − X
n
i=1
n
!
1X 2 2
= xi − X
n
i=1
n
1X 2
et V (Y ) = σY2 = yi − Y
n
i=1
n
!
1X 2 2
= yi − Y .
n
i=1
11 / 62
On introduit maintenant deux nouveaux caractères qui dépendent à la
fois de X et de Y .
Covariance. la Covariance de X et Y , notée cov (X , Y ), est définie
par :
n
1X
σXY = cov (X , Y ) = xi − X yi − Y .
n
i=1
12 / 62
2.2- Données groupées :
Plus généralement et surtout lorsque l’effectif total est grand, si x1 , . . . , xp
sont les modalités de X et y1 , . . . , yq sont les modalités de Y , on dresse le
tableau suivant :
q q
X X
X Y y1 ··· yq ni. ni. xi ni. xi2 nij yj xi nij yj
j=1 j=1
x1 n11 ··· n1q n1. n1. x1 n1. x12
.. .. .. .. ..
. . . . .
xp np1 ··· npq np. np. xp np. xp2
n..j n.1 ··· n.q n
n. j yj n. 1 y1 ··· n. q yq
n. j yj2 n. 1 y12 ··· n. q yq2
p
X
nij xi ···
i=1
p
X
yj nij xi ···
i=1
13 / 62
p q
1X 1X
i) Moyennes : X = ni. xi et Y = n.j yj
n n
i=1 j=1
ii) Variances :
p
1X 2
V (X ) = σX2 = ni. xi − X
n
i=1
p
!
1X 2 2
= ni. xi − X
n
i=1
q
1X 2
et V (Y ) = σY2 = n.j yi − Y
n
j=1
q
1 X 2
= n.j yi2 − Y
n
j=1
p p
iii) Ecart-type : σX = V (X ) et σY = V (Y )
14 / 62
iv ) Covariances :
On appelle covariance du couple
(X , Y ) et on le note cov (X , Y ) ou
σXY la moyenne de X − X Y − Y
p q
1 XX
cov (X , Y ) = nij xi − X yi − Y .
n
i=1 j=1
p q
1 XX
On montre que : σXY = cov (X , Y ) = nij xi yj − X Y . v )
n
i=1 j=1
Coefficient de correlation linéaire :
cov (X , Y )
ρ(X , Y ) = .
σX σY
15 / 62
2.3- Propriétés :
On montre que :
|ρ(X , Y )| ≤ 1.
aa0
ρ(aX + b, a0 Y + b0 ) = ρ(X , Y ). donc
|aa0 |
ρ(aX + b, a0 Y + b0 ) = ±ρ(X , Y )
1
cov (aX + b, a0 Y + b0 ) = cov (X , Y ).
aa0
Ces formules sont utilisables pour simplifier les calculs.
16 / 62
X −c
En effectuant les changement de variables suivants : X 0 = de et
d
Y − c0
Y0 =
d0
avec d, d 0 6= 0, on obtient :
1
cov (X 0 , Y 0 ) = cov (X , Y ).
dd 0
|dd 0 |
ρ(X 0 , Y 0 ) = ρ(X , Y )
dd 0
donc ρ(X 0 , Y 0 ) = ±ρ(X , Y ).
17 / 62
2.4 Distribution conditionnelle, indépendance
nij fij
fi/j = =
n· j f· j
18 / 62
Définition
Deux variables statistiques X et Y sont dites statistiquement
indépendantes si et seulement si, pour chacune des deux variables,
les distributions conditionnelles sont identiques à la distribution
marginale :
fi/j = fi· ou fj/i = f· j ∀ (i, j)
19 / 62
2.5- Exemple :
Sur le tableau suivant figure l’âge de la mère (x) et le poids de l’enfant
(y) pour un échantillon de 40 naissances, présentés avec un
groupement à deux dimensions en classe d’âge de 5 ans et en classe
de poids de 500g
20 / 62
3-Ajustement linéaire
3.1- Introduction
21 / 62
3.2- Définition
22 / 62
Exemples de différents nuages
23 / 62
Coefficient de correlation
24 / 62
Si les caractères X et Y sont indépendants alors ρ = 0.
Cependant la réciproque n’est pas necessairement vraie. Si
ρ = 0, on dit qu’il y a correlation nulle entre X et Y ; la liaison entre
X et Y peut être de forme outre que linéaire.
Si 0 < ρ < 1, la correlation est positive (X et Y varient dans le
même sens) La valeur ρ = +1 indique une relation linéaire
parfaite Y = aX + b avec a > 0. C’est un cas extrème très peu
rencontré en pratique.
Si −1 < ρ < 0, la correlation est négative (X et Y varient dans le
sens contraire) La valeur ρ = −1 indique une relation linéaire
parfaite Y = aX + b avec a < 0. C’est un cas extrème très peu
rencontré en pratique.
25 / 62
3.3-Méthode des moindres carrés :
26 / 62
27 / 62
Le problème admet une solution unique solution du système linéaire
issue de l’annulation des dérivées partielles premières de la fonction
δ(a, b). Il s’agit de résoudre
n
∂δ X
∂a = −2 xi (yi − axi − b) = 0
i=1
n
∂δ X
= −2 (yi − axi − b) = 0
∂b
i=1
cov (X , Y )
a= et b = y − ax.
V (X )
28 / 62
Théorème
Soit Mi (xi , yi )1≤i≤n un ensemble fini de points fixes du plan euclidien
où xi sont les modalités d’un caractère X et yi celles d’un autre
caractère Y définis sur une même population Ω.
n n n
1X 1X 1X
Soient x = xi , y = yi , V (X ) = (xi − x)2 et
n n n
i=1 i=1 i=1
n
1 X
cov (X , Y ) = (xi − x) (yi − y ) .
n
i=1
cov (X , Y )
La droite d’équation y − y = a (x − x) où a = est la droite
V (X )
de régression de y en x et est notée Dy /x .
29 / 62
Remarque
i) On définit de même la droite de régression de x en y notée Dx/y et
d’équation
cov (X , Y )
x − x = a0 (y − y ) avec a0 = .
V (Y )
ii) Les droites Dy /x et Dx/y passent par le point G(x, y ).
30 / 62
3.4- Ajustement et corrélation
31 / 62
(4) et (40 ) sont confondues si elles ont la même pente (car elles
passent toutes les deux par G(X , Y )).
1
dans ce cas a = 0 c.à.d. aa0 = 1 donc ρ(x, y ) = ±l. les points Mij
a
sont alors alignés.
La corrélation linéaire est d’autant bonne (ou forte) que le
coefficient de corrélation ρ est proche en valeur absolue de 1
1
(ρ ' 1 ⇐⇒ a ' 0 ).
a
si ρ est proche de zéro, on dit qu’il y a corrélation linéaire très
mauvaise entre X et Y. il faudrait alors approcher le nuage des
points Mij par une courbe.
32 / 62
(4) et (40 ) sont confondues si elles ont la même pente (car elles
passent toutes les deux par G(X , Y )).
1
dans ce cas a = 0 c.à.d. aa0 = 1 donc ρ(x, y ) = ±l. les points Mij
a
sont alors alignés.
La corrélation linéaire est d’autant bonne (ou forte) que le
coefficient de corrélation ρ est proche en valeur absolue de 1
1
(ρ ' 1 ⇐⇒ a ' 0 ).
a
si ρ est proche de zéro, on dit qu’il y a corrélation linéaire très
mauvaise entre X et Y. il faudrait alors approcher le nuage des
points Mij par une courbe.
33 / 62
Remarque
i) La corrélation est dite forte lorsque ρ(x, y )2 > 0.75, et dans ce cas
on estime qu’on peut approcher le nuage de points par une droite (la
méthode des moindres carrés s’applique).
ii) Dans le cas contraire, on ne peut pas approcher le nuage de points
par une droite (l’approximation serait trop mauvaise) mais il se peut
que d’autre courbe permette un bon ajustement (ajustement
exponentiel par exemple)
En général, si le coefficient de corrélation est fort, on peut conclure à
une corrélation entre les deux séries statistiques, mais ce n’est pas
toujours vrai
34 / 62
3.5- Exemple (Ajustement exponentiel) :
35 / 62
Exemple (suite)
x − 1961
On effectue le changement de variable X = , on a
4
Xk Yk = log yk
-3 1.417
-2 1.613
-1 1.748
0 1.863
1 1.987
2 2.019
3 2.217
4 2.316
1 15.18
On en déduit X = ,Y = ' 1.8975
2 8
σXY 0.64
A = 2
' ' 0.12
σX 5.25
B = Y − AX ' 1.836.
0.64
ρXY ' √ ' 0.99
5.25 × 0.0794
ce qui justifie la recherche d’un ajustement exponentiel.
37 / 62
4- Conclusion :
38 / 62
Exercices
Exercice
1 Montrer que :|ρ(X , Y )| ≤ 1.
2 On considère deux séries statistiques (xi ) et (yi ) de taille n
Soient αi et βi deux séries statistiques liées aux séries
statistiques (xi ) et (yi ) par les relations suivantes :
xi − c
∀i αi = avec d 6= 0 c, d ∈ R
d
yi − c 0
∀i βi = avec d 0 6= 0 c 0 , d 0 ∈ R
d0
Montrer les propriétés suivantes :
1 |dd 0 |
i) cov (α, β) = cov (x, y ) et ii) ρ(α, β) = ρ(x, y )
dd 0 dd 0
39 / 62
1 On a
|cov (X , Y )|
|ρ(X , Y )| =
σX σY
n
1 1 X
= xi − X yi − Y
σX σY n
i=1
Par application de l’inégalité de Cauchy-Schwarz,
v v
Xn u n
uX uX
u n
ai bi ≤ t 2
ai t bi2
i=1 i=1 i=1
avec ai = xi − X et bi = yi − Y on obtient
v v
X n u n
uX
u n
uX
xi − X yi − Y ≤ t (xi − X ) t (yi − Y )2
2
n
1X
i)cov (α, β) = (αi − α) βi − β
n
i=1
n
yi − c 0 y − c 0
1 X xi − c x − c
= − −
n d d d0 d0
i=1
n
1 X xi − x yi − y
=
n d d0
i=1
n
1 1X
= (xi − x) (yi − y )
dd 0 n
i=1
cov (X , Y )
cov (α, β) =
dd 0 41 / 62
cov (α, β)
ii) On a ρ(α, β) =
σα σβ
σx σy cov (X , Y )
Or σα = , σβ = 0 et cov (α, β) =
|d| |d | dd 0
cov (α, β)
ρ(α, β) =
σα σβ
|dd 0 |
ρ(α, β) = ρ(X , Y )
dd 0
42 / 62
Exercice
Le tableau suivant représente des âges de patients X et les tensions
artérielles Y de 9 malades.
L’âge X 56 42 72 36 63 47 55 49 38
T.A Y 147 125 160 118 149 128 150 145 115
1 1. Représenter le nuage de points M(xi ; yi ) dans le repère orthogonal
ci-dessous.
2 Calculer la moyenne et l’écart-type de chacun des deux caractère X et Y.
3 Placer le point G(X , Y ) dans le repère précédent.
4 Calculer la covariance et le coefficient de corrélation du couple (X,Y).
Que peut-on conclure ?
5 Trouver la droite de régression de X en Y.
6 Lorsque l’âge est 75 ans , quelle Tension artérielle Y peut-on prévoir ?
43 / 62
1
44 / 62
2 On a n = 9 n
1X
X = xi
n
i=1
458
=
9
= 50.89
n
1X
Y = yi .
n
i=1
1237
=
9
= 137.44 !
n
1X 2 2
V (X ) = σX2 = xi − X
n
i=1
24428
= − 50.892
9
= 124.54
⇒ σX = 11.16
45 / 62
n
!
1X 2 2
V (Y ) = σY2 = yi −Y .
n
i=1
172093
= − 137.442
9
= 230.47
⇒ σY = 15.18
3 Voir figure
4
n
!
1X
σXY = cov (X , Y ) = xi yi −X Y
n
i=1
64378
= − 50.89 × 137.44
9
= 158.72
46 / 62
cov (X , Y )
ρ(X , Y ) =
σX σY
158.72
=
11.16 × 15.18
= 0, 94
X Y [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[
[150, 160[ 10 3 1 0 0
[160, 170[ 2 12 6 7 2
[170, 180[ 1 7 11 17 4
[180, 190[ 0 2 2 4 9
48 / 62
49 / 62
1 On a n = 100, p = 5 et q = 4
p
1X
X = ni. xi
n
i=1
17100
=
100
= 171, 00
q
1X
Y = n.j yj
n
j=1
7580
=
100
= 75, 80
50 / 62
p
!
1X 2
V (X ) = ni. Xi2 −X
n
i=1
2932700
= − 1712
100
= 86, 00
⇒ σX = 9, 27
q
1 X 2
= n.j Yj2 − Y
n
j=1
590900
= − 75.802
100
= 163, 36
⇒ σy = 12, 78
51 / 62
2
p q
1 XX
σXY = cov (X , Y ) = nij xi yj − X Y
n
i=1 j=1
1303600
= − 171 × 75, 80
100
= 74, 20
cov (X , Y )
ρ(X , Y ) =
σX σY
74, 20
=
9, 27 × 12, 78
= 0, 63
3 l’équation de la droite de régression de Y en X :
cov (X , Y )
Y −Y =a X −X avec a = .
V (X )
Donc : Y − 75, 80 = a(X − 171) avec : a = 0, 862790698
52 / 62
Exercice
On dispose pour un secteur industriel donné et sur une période de 8
années du nombre de salariés Y (en milliers) et du chiffre d’affaires X
(en dizaines de milliards) :
Année 1 2 3 4 5 6 7 8
X 3 4 5 6 8 9 11 13
Y 3.5 4.2 5 5.5 6 6.5 6.7 7.2
Ln(X) 1,1 1,4 1,6 1,8 2,1 2,2 2,4 2,6
53 / 62
Exercice
4 a) Donner le coefficient de corrélation linéaire ρ(X , Y ) de la série
statistique (xi , yi ) . Un ajustement affine est-il justifié ?
b) Ecrire une équation de la droite de régression D de Y en X .
Représenter D dans le repère précédent
5 Calculer la moyenne et l’écart-type de variable Z.
6 Calculer la covariance du couple (Z , Y ).
7 a) Donner le coefficient de corrélation linéaire ρ(Z , Y ) de la série
statistique (zi , yi ) . Un ajustement affine est-il justifié ?
b) Ecrire une équation de la droite de régression ∆ de Y en Z .
8 En l’an 2010, on prévoit pour le secteur étudié un chiffre d’affaires
de 400 milliards.
i)Utiliser les droites (D) : Y = aX + b et (∆) : Y = a0 Z + b0 pour
proposer deux prévisions du nombre d’employés de ce secteur à
l’horizon 2010.
ii) Quelle prévision vous semble la plus appropriée
54 / 62
1
55 / 62
n
2 1X
X = xi
n
i=1
59
=
8
= 7, 375
n
1X
Y = yi .
n
i=1
44, 6
=
8
= 5, 575
n
!
1X 2 2
V (X ) = σX2 = xi − X
n
i=1
521
= − 7, 3752
8
= 10, 734375
⇒ σX = 3, 276335606
56 / 62
n
!
1X 2 2
V (Y ) = σY2 = yi −Y .
n
i=1
260, 12
= − 5, 5752
8
= 1, 434375
⇒ σY = 1, 197653957
n
!
1X
σXY = cov (X , Y ) = xi yi −X Y
n
i=1
359, 1
= − 7, 375 × 5, 575
8
= 3, 771875
57 / 62
4 a) On a
cov (X , Y )
ρ(X , Y ) =
σX σY
3, 771875
=
3, 276335606 × 1, 197653957
= 0, 961252664
⇒ ρ2 (X , Y ) = 0.92 > 0.75
58 / 62
5
n
1X
Z = Zi
n
i=1
15, 12561478
=
8
= 1, 891
n
!
1X 2 2
V (Z ) = σZ2 = Zi − Z
n
i=1
30, 41019332
= − 1, 8912
8
= 0, 226520689
⇒ σZ = 0, 475941896
59 / 62
6
n
!
1X
σZY = cov (Z , Y ) = Zi Yi −Z Y
n
i=1
88, 86158867
= − 1, 891 × 5, 575
8
= 0, 567035784
7 a) On a
cov (Z , Y )
ρ(Z , Y ) =
σZ σY
0, 567035784
=
0, 475941896 × 1, 197653957
= 0, 99477572
⇒ ρ2 (Z , Y ) = 0, 989578733 > 0.75
61 / 62
ii) On a ρ2 (Z , Y ) > ρ2 (X , Y ) donc Y = AZ + B fourni une
qualité d’ajustement meilleure que celle du Y = aX + b
par conséquent la prévision la plus appropriée est :
Y ' 10076 salariés
62 / 62