Analyse de Donnée 2

Chapitre 2
Analyse bivariée
1 / 62
Plan
1 1- Définitions :
2 2- Paramètres et tableaux de calculs
2.1-Données non groupées :
2.2- Données groupées :
2.3- Propriétés :
2.4 Distribution conditionnelle, indépendance
2.5- Exemple :
3 3- Ajustement linéaire
3.1- Introduction
3.2- Définitions
3.3- Méthode des moindres carrés :
3.4-Ajustement et corrélation
3.5 -Exemple (Ajustement exponentiel) :
4 4- Conclusion
5 Exercices
2 / 62
1- Définitions :
On se donne une population de taille n et sur chaque élément de cette

population on effectue deux observations portant sur deux caractères
différents X et Y .
Pour chaque élément de l’échantillon, on peut associer un couple de
valeurs (xi , yi ) où xi est la valeur du caractére X et yi est la valeur du
caractére Y .
3 / 62
On obtient aussi un nuage de n points constituant un diagramme de
dispersion.
Les résultats de ces observations peuvent être présentés sous deux

formes
Données non groupées :
Individu 1 2 ··· n
Valeur X x1 x2 ··· xn
Valeur Y y1 y2 ··· yn
4 / 62
Données groupées :
Les valeurs prises par X et Y étant respectivement x1 , x2 , · · · , xp et
y1 , y2 , · · · , yq .
nij est l’effectif des individus dont les valeurs de X et Y sont
respectivement xi et yj .
X Y y1 y2 ... yj ... yq Totaux

x1 n11 n12 ... n1j ... n1q n1.
x2 n21 n22 ... n2j ... n2q n2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni1 ni2 ... nij ... niq ni.
.. .. .. .. .. .. .. ..
. . . . . . . .
xp np1 np2 ... npj ... npq np.
Totaux n.1 n.2 ... n.j ... n.q n
5 / 62
Ce tableau doit être lu de la façon suivante :
l’effectif du caractère double (xi , yi ) est nij .
nij est l’effectif des individus présentant simultannement les
modalités xi et yj .
P
L’effectif de toute la population est n = i,j nij .
nij X
En fréquence fij = et fij = 1.
n
i,j
6 / 62
Exemple. Soit Ω la population constituée par les quatre pays
suivants : France, Allemagne, Grande bretagne et l’Italie. Notons X la
production de fonte (bronze) et Y la production d’acier arrondies en
millons de tonnes
Ω Allemagne France G. B. Italie

X 27.2 15.9 17.6 3.5
Y 37.2 19.8 26.7 9.8
Il est naturel de s’interroger sur la relation qui lié X et Y . On regroupe
les valeurs des xi et des yi dans le tableau suivant :
Y X 3.5 15.2 17.6 27.2 Totaux

9.8 1 0 0 0 1
19.8 0 1 0 0 1
26.7 0 0 1 0 1
37.3 0 0 0 1 1
Totaux 1 1 1 1 4
Ici, on a ce qu’on appelle données groupées.

7 / 62
Définitions
- Effectifs marginaux.
La somme des effectifs contenus dans la ligne de xi est égale à
l’effectif des élements dont la valeur du caractère X est xi . Elle est
notée ni. .
q
X
ni. = ni1 + · · · + niq = nij .
j=1
La somme des effectifs partiels contenus dans la colonne de yj est

égale à l’effectif des élements dont la valeur du caractère Y est yj . Elle
est notée n. j .
p
X
n. j = n1j + · · · + npj = nij .
i=1
8 / 62
ni. et n. j : sont appelés effectifs partiels marginaux.
On a :
Xp Xq p X
X q
n= ni. = n. j = nij .
i=1 j=1 i=1 j=1
9 / 62
- Fréquences marginales
ni.
fi. = fréquence marginale de xi .
n
n. j
f. j = fréquence marginale de yj .
n
On a
p
X q
X p X
X q
fi. = f. j = fij = 1.
i=1 j=1 i=1 j=1
(fij fréquence partielle correspondant à X = xi et Y = yj ).

Les couples (xi , ni. )1≤i≤p et yj , n. j 1≤j≤q définnissent les distributions
statistiques marginales.
10 / 62
2- Paramètres et tableaux de calculs
2.1-Données non groupées :
Comme dans le cas d’un seul caractère, on a :
n n
1X 1X
Moyennes X = xi et Y = yi .
n n
i=1 i=1
n
1X 2
Variances V (X ) = σX2 = xi − X
n
i=1
n
!
1X 2 2
= xi − X
n
i=1
n
1X 2
et V (Y ) = σY2 = yi − Y
n
i=1
n
!
1X 2 2
= yi − Y .
n
i=1
11 / 62
On introduit maintenant deux nouveaux caractères qui dépendent à la
fois de X et de Y .
Covariance. la Covariance de X et Y , notée cov (X , Y ), est définie
par :
n
1X
σXY = cov (X , Y ) = xi − X yi − Y .
n
i=1
On montre aisément que :

n
!
1X
σXY = xi yi − X Y.
n
i=1
Le coefficient de corrélation linéaire du couple (X , Y ) noté ρ(X , Y ), est

définis par :
cov (X , Y )
ρ(X , Y ) = .
σX σY
12 / 62
2.2- Données groupées :
Plus généralement et surtout lorsque l’effectif total est grand, si x1 , . . . , xp
sont les modalités de X et y1 , . . . , yq sont les modalités de Y , on dresse le
tableau suivant :
q q
X X
X Y y1 ··· yq ni. ni. xi ni. xi2 nij yj xi nij yj
j=1 j=1
x1 n11 ··· n1q n1. n1. x1 n1. x12
.. .. .. .. ..
. . . . .
xp np1 ··· npq np. np. xp np. xp2
n..j n.1 ··· n.q n
n. j yj n. 1 y1 ··· n. q yq
n. j yj2 n. 1 y12 ··· n. q yq2
p
X
nij xi ···
i=1
p
X
yj nij xi ···
i=1
13 / 62
p q
1X 1X
i) Moyennes : X = ni. xi et Y = n.j yj
n n
i=1 j=1
ii) Variances :
p
1X 2
V (X ) = σX2 = ni. xi − X
n
i=1
p
!
1X 2 2
= ni. xi − X
n
i=1
q
1X 2
et V (Y ) = σY2 = n.j yi − Y
n
j=1
 
q
1 X 2
=  n.j yi2  − Y
n
j=1
p p
iii) Ecart-type : σX = V (X ) et σY = V (Y )
14 / 62
iv ) Covariances :
On appelle covariance du couple
(X , Y ) et on le note cov (X , Y ) ou
σXY la moyenne de X − X Y − Y
p q
1 XX
cov (X , Y ) = nij xi − X yi − Y .
n
i=1 j=1
 
p q
1 XX
On montre que : σXY = cov (X , Y ) =  nij xi yj  − X Y . v )
n
i=1 j=1
Coefficient de correlation linéaire :
cov (X , Y )
ρ(X , Y ) = .
σX σY
N.B L’importance des paramètres cov (X , Y ) et ρ(X , Y ) apparaîtra

quand on s’intéressera au lien (ou corrélation) éventuel entre X et Y .
15 / 62
2.3- Propriétés :
On montre que :
|ρ(X , Y )| ≤ 1.
aa0
ρ(aX + b, a0 Y + b0 ) = ρ(X , Y ). donc
|aa0 |
ρ(aX + b, a0 Y + b0 ) = ±ρ(X , Y )
1
cov (aX + b, a0 Y + b0 ) = cov (X , Y ).
aa0
Ces formules sont utilisables pour simplifier les calculs.
16 / 62
X −c
En effectuant les changement de variables suivants : X 0 = de et
d
Y − c0
Y0 =
d0
avec d, d 0 6= 0, on obtient :
1
cov (X 0 , Y 0 ) = cov (X , Y ).
dd 0
|dd 0 |
ρ(X 0 , Y 0 ) = ρ(X , Y )
dd 0
donc ρ(X 0 , Y 0 ) = ±ρ(X , Y ).
Démonstration : (cf. exercice 1 ; fiche TD N◦ 2)
17 / 62
2.4 Distribution conditionnelle, indépendance
La fréquence conditionnelle de xi sachant yj (yj réalisé)
nij fij
fi/j = =
n· j f· j
Où nij est l’effectif correspondant à X = xi et n· j l’effectif partiel

marginal de yj .
nij fij
On a fj/i = = .
ni· fi·
Ainsi fij = fi· × fj/i = f· j × fi/j .
18 / 62
Définition
Deux variables statistiques X et Y sont dites statistiquement
indépendantes si et seulement si, pour chacune des deux variables,
les distributions conditionnelles sont identiques à la distribution
marginale :
fi/j = fi· ou fj/i = f· j ∀ (i, j)
Conséquence : Les caractères X et Y sont indépendants si et

seulement si
∀ (i, j) fij = fi· × f· j
19 / 62
2.5- Exemple :
Sur le tableau suivant figure l’âge de la mère (x) et le poids de l’enfant
(y) pour un échantillon de 40 naissances, présentés avec un
groupement à deux dimensions en classe d’âge de 5 ans et en classe
de poids de 500g
2500 3000 3500 4000 4500 ni.

20 1 5 4 2 - 12
25 2 3 5 1 - 11
30 1 2 2 1 - 6
35 - 3 3 1 1 8
40 - 2 - 1 - 3
n.j 4 15 14 6 1 40
n13 = 4 signifie qu’il ya 4 enfants dont l’âge de la mère est 20 ans et

dont le poids est 3500g. Il y a 6 mères dont l’âge est 30 ans. Il Y a 14
enfants dont le poids est 3500g.
20 / 62
3-Ajustement linéaire
3.1- Introduction
On considère une population de taille (effectif total) n sur laquelle on

définit une statistique double X et Y . (On éffectue sur Ω deux
observations portant sur 2 caractères différents).
Le problème qui se pose est celui qui consiste à rechercher s’il existe
une relation entre X et Y .
A chaque élement ωi de l’échantillon, on associe un couple de valeurs
(xi , yi ) qu’on représente graphiquement par un point Mi (xi , yi ) du plan.
Et on obtient ainsi un nuage de n points qui constitue ce qu’on appelle
un diagramme de disperssion.
Ajuster un ensemble de points consiste à déterminer une courbe (C)
simple aussi proche que possible des points Mi . L’ajustement linéaire
est le cas où (C) est une droite.
21 / 62
3.2- Définition
On dit qu’il y a correlation entre deux caractères observés sur une

même population lorsque les variations des deux caractères se
produisent dans le même sens ou lorsque les variations sont de sens
contraires.
Nuage de points : Diagramme de disperssion
L’existence d’une correlation peut-être décelée (détectée)
graphiquement. La forme du nuage de points formé par les points
Mi (xi , yi ) nous permettent de constater si les caractères X et Y sont
en correlation ou non.
Définition. On dit qu’une correlation (lorsqu’elle existe) qui lié 2
caractères X et Y est positive ou directe si Y croît en même temps
que X . Si Y décroît lorque X croît, la correlation est dite inverse ou
négative.
22 / 62
Exemples de différents nuages
23 / 62
Coefficient de correlation
Formule pratique de ρ pour le calcul

Pn Pn
Pn i=1 xi i=1 yi
i=1 xi yi −
ρ = v" n .
u Pn 2 # " Pn 2 #
i=1 xi i=1 yi
u Pn 2 Pn 2
t
i=1 xi − i=1 yi −
n n
ρ est compris entre −1 et 1.
24 / 62
Si les caractères X et Y sont indépendants alors ρ = 0.
Cependant la réciproque n’est pas necessairement vraie. Si
ρ = 0, on dit qu’il y a correlation nulle entre X et Y ; la liaison entre
X et Y peut être de forme outre que linéaire.
Si 0 < ρ < 1, la correlation est positive (X et Y varient dans le
même sens) La valeur ρ = +1 indique une relation linéaire
parfaite Y = aX + b avec a > 0. C’est un cas extrème très peu
rencontré en pratique.
Si −1 < ρ < 0, la correlation est négative (X et Y varient dans le
sens contraire) La valeur ρ = −1 indique une relation linéaire
parfaite Y = aX + b avec a < 0. C’est un cas extrème très peu
rencontré en pratique.
25 / 62
3.3-Méthode des moindres carrés :
Soit Mi un point de cordonnées (xi , yi ) On appelle distance de Mi

parallélernent à l’axe (oy ) à la droite (4) d’équation y = ax + b, le réel
positif di = |yi − axi − b| (Attention ! il ne s’agit pas des distances des
points Mi à la droite (4).)
La méthode des moindres carrés consiste à chercher les valeures de a
et b (c.à.dPtrouver une droite (4)
P d’équation y = ax + b )qui mininisent
2 2
δ(a, b) = i (yi − axi − b) = i di .
26 / 62
27 / 62
Le problème admet une solution unique solution du système linéaire
issue de l’annulation des dérivées partielles premières de la fonction
δ(a, b). Il s’agit de résoudre
n

 ∂δ X
 ∂a = −2 xi (yi − axi − b) = 0



i=1
n
 ∂δ X
= −2 (yi − axi − b) = 0


 ∂b

i=1
Ce système en a et b admet pour solution unique
cov (X , Y )
a= et b = y − ax.
V (X )
28 / 62
Théorème
Soit Mi (xi , yi )1≤i≤n un ensemble fini de points fixes du plan euclidien
où xi sont les modalités d’un caractère X et yi celles d’un autre
caractère Y définis sur une même population Ω.
n n n
1X 1X 1X
Soient x = xi , y = yi , V (X ) = (xi − x)2 et
n n n
i=1 i=1 i=1
n
1 X
cov (X , Y ) = (xi − x) (yi − y ) .
n
i=1
cov (X , Y )
La droite d’équation y − y = a (x − x) où a = est la droite
V (X )
de régression de y en x et est notée Dy /x .
29 / 62
Remarque
i) On définit de même la droite de régression de x en y notée Dx/y et
d’équation
cov (X , Y )
x − x = a0 (y − y ) avec a0 = .
V (Y )
ii) Les droites Dy /x et Dx/y passent par le point G(x, y ).
30 / 62
3.4- Ajustement et corrélation
Les droites de regression (4) et (40 ) ayant pour équations :

y = ax + b, x = a0 y + b0 ont les propriétés suivantes :
elles passent toutes les deux par le point G(X , Y ) appelé point
moyen de la statistique.
les pentes des deux droites sont de même signe celui de la
1
covariance et sont respectivement a et 0
a
cov (x, y )2
aa0 = = (ρ(x, y ))2
v (x)v (y )
31 / 62
(4) et (40 ) sont confondues si elles ont la même pente (car elles
passent toutes les deux par G(X , Y )).
1
dans ce cas a = 0 c.à.d. aa0 = 1 donc ρ(x, y ) = ±l. les points Mij
a
sont alors alignés.
La corrélation linéaire est d’autant bonne (ou forte) que le
coefficient de corrélation ρ est proche en valeur absolue de 1
1
(ρ ' 1 ⇐⇒ a ' 0 ).
a
si ρ est proche de zéro, on dit qu’il y a corrélation linéaire très
mauvaise entre X et Y. il faudrait alors approcher le nuage des
points Mij par une courbe.
32 / 62
(4) et (40 ) sont confondues si elles ont la même pente (car elles
passent toutes les deux par G(X , Y )).
1
dans ce cas a = 0 c.à.d. aa0 = 1 donc ρ(x, y ) = ±l. les points Mij
a
sont alors alignés.
La corrélation linéaire est d’autant bonne (ou forte) que le
coefficient de corrélation ρ est proche en valeur absolue de 1
1
(ρ ' 1 ⇐⇒ a ' 0 ).
a
si ρ est proche de zéro, on dit qu’il y a corrélation linéaire très
mauvaise entre X et Y. il faudrait alors approcher le nuage des
points Mij par une courbe.
33 / 62
Remarque
i) La corrélation est dite forte lorsque ρ(x, y )2 > 0.75, et dans ce cas
on estime qu’on peut approcher le nuage de points par une droite (la
méthode des moindres carrés s’applique).
ii) Dans le cas contraire, on ne peut pas approcher le nuage de points
par une droite (l’approximation serait trop mauvaise) mais il se peut
que d’autre courbe permette un bon ajustement (ajustement
exponentiel par exemple)
En général, si le coefficient de corrélation est fort, on peut conclure à
une corrélation entre les deux séries statistiques, mais ce n’est pas
toujours vrai
34 / 62
3.5- Exemple (Ajustement exponentiel) :
La statistique suivante indique l’évolution de la consommation

d’énergie éléctrique dans un pays exprimée en TWh
Année 1949 1953 1957 1961 1965 1969 1973 1977

Cons. 30 41 56 73 97 123 165 207
La relation qui lie la consommation au temps (année) est de type
exponentiel.
Déterminons la droite de régression de Y = log y en x
35 / 62
Exemple (suite)
x − 1961
On effectue le changement de variable X = , on a
4
Xk Yk = log yk
-3 1.417
-2 1.613
-1 1.748
0 1.863
1 1.987
2 2.019
3 2.217
4 2.316
1 15.18
On en déduit X = ,Y = ' 1.8975
2 8
σX2 = 5.25 σY2 ' 0.0794
et σXY ' 0.64. 36 / 62

Exemple (suite)
La droite Y = AX + B est définie par
σXY 0.64
A = 2
' ' 0.12
σX 5.25
B = Y − AX ' 1.836.
Remarquons que l’on a :
0.64
ρXY ' √ ' 0.99
5.25 × 0.0794
ce qui justifie la recherche d’un ajustement exponentiel.
37 / 62
4- Conclusion :
L’étude des séries statistiques à deux variables permet de mettre en

rapport deux caractères afin de pouvoir déterminer une valeur
manquante ou de prévoir une tendance. Néanmoins, deux caractères
peuvent avoir un très fort coefficient de corrélation sans pour autant
être réellement liés.
38 / 62
Exercices
Exercice
1 Montrer que :|ρ(X , Y )| ≤ 1.
2 On considère deux séries statistiques (xi ) et (yi ) de taille n
Soient αi et βi deux séries statistiques liées aux séries
statistiques (xi ) et (yi ) par les relations suivantes :
xi − c
∀i αi = avec d 6= 0 c, d ∈ R
d
yi − c 0
∀i βi = avec d 0 6= 0 c 0 , d 0 ∈ R
d0
Montrer les propriétés suivantes :
1 |dd 0 |
i) cov (α, β) = cov (x, y ) et ii) ρ(α, β) = ρ(x, y )
dd 0 dd 0
39 / 62
1 On a
|cov (X , Y )|
|ρ(X , Y )| =
σX σY
n
1 1 X
= xi − X yi − Y
σX σY n
i=1
Par application de l’inégalité de Cauchy-Schwarz,
v v
Xn u n
uX uX
u n
ai bi ≤ t 2
ai t bi2
i=1 i=1 i=1
avec ai = xi − X et bi = yi − Y on obtient
v v
X n u n
uX
u n
uX

xi − X yi − Y ≤ t (xi − X ) t (yi − Y )2
2
i=1 i=1 i=1

v v
n u n u n
1 X u1 X
2t 1
u X
(yi − Y )2

xi − X yi − Y ≤ t (xi − X )
n n n
i=1 i=1 i=1
|cov (X , Y )| ≤ σx σy 40 / 62
|cov (X , Y )|
≤ 1
σx σy
⇒ |ρ(X , Y )| ≤ 1
n
1X
i)cov (α, β) = (αi − α) βi − β
n
i=1
n
yi − c 0 y − c 0

1 X xi − c x − c
= − −
n d d d0 d0
i=1
n
1 X xi − x yi − y
=
n d d0
i=1
n
1 1X
= (xi − x) (yi − y )
dd 0 n
i=1
cov (X , Y )
cov (α, β) =
dd 0 41 / 62
cov (α, β)
ii) On a ρ(α, β) =
σα σβ
σx σy cov (X , Y )
Or σα = , σβ = 0 et cov (α, β) =
|d| |d | dd 0
cov (α, β)
ρ(α, β) =
σα σβ
|dd 0 |
ρ(α, β) = ρ(X , Y )
dd 0
42 / 62
Exercice
Le tableau suivant représente des âges de patients X et les tensions
artérielles Y de 9 malades.
L’âge X 56 42 72 36 63 47 55 49 38
T.A Y 147 125 160 118 149 128 150 145 115
1 1. Représenter le nuage de points M(xi ; yi ) dans le repère orthogonal
ci-dessous.
2 Calculer la moyenne et l’écart-type de chacun des deux caractère X et Y.
3 Placer le point G(X , Y ) dans le repère précédent.
4 Calculer la covariance et le coefficient de corrélation du couple (X,Y).
Que peut-on conclure ?
5 Trouver la droite de régression de X en Y.
6 Lorsque l’âge est 75 ans , quelle Tension artérielle Y peut-on prévoir ?
43 / 62
1
44 / 62
2 On a n = 9 n
1X
X = xi
n
i=1
458
=
9
= 50.89
n
1X
Y = yi .
n
i=1
1237
=
9
= 137.44 !
n
1X 2 2
V (X ) = σX2 = xi − X
n
i=1
24428
= − 50.892
9
= 124.54
⇒ σX = 11.16
45 / 62
n
!
1X 2 2
V (Y ) = σY2 = yi −Y .
n
i=1
172093
= − 137.442
9
= 230.47
⇒ σY = 15.18
3 Voir figure
4
n
!
1X
σXY = cov (X , Y ) = xi yi −X Y
n
i=1
64378
= − 50.89 × 137.44
9
= 158.72
46 / 62
cov (X , Y )
ρ(X , Y ) =
σX σY
158.72
=
11.16 × 15.18
= 0, 94
5 l’équation de la droite de régression de Y en X :

cov (X , Y )
Y −Y =a X −X avec a = .
V (X )
Donc :Y − 137, 44 = 1, 274385408(X − 50, 89)
l’équation de la droite de régression de X en Y :
cov (X , Y )
X − X = a0 Y − Y avec a0 =

.
V (Y )
Donc :X − 50, 89 = 0, 688665095(Y − 137, 44)
6 Lorsque l’âge est 75 ans c.à.d X = 75 donc :
Y = 137, 44 + 1, 274385408(75 − 50, 89) = 168, 1654322.
47 / 62
Exercice
sur un échantillon de 100 étudiants, on relevé la taille X en centimètre,
ainsi que le poids Y en kilogrammes comme l’indique le tableau suivant
X Y [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[
[150, 160[ 10 3 1 0 0
[160, 170[ 2 12 6 7 2
[170, 180[ 1 7 11 17 4
[180, 190[ 0 2 2 4 9
1 Calculer la moyenne et l’écart-type de chacun des deux

caractères X et Y
2 Calculer la covariance et le coefficient de corrélation du couple
(X,Y). Que peut-on conclure ?
3 Trouver la droite de régression de Y en X.
48 / 62
49 / 62
1 On a n = 100, p = 5 et q = 4
p
1X
X = ni. xi
n
i=1
17100
=
100
= 171, 00
q
1X
Y = n.j yj
n
j=1
7580
=
100
= 75, 80
50 / 62
p
!
1X 2
V (X ) = ni. Xi2 −X
n
i=1
2932700
= − 1712
100
= 86, 00
⇒ σX = 9, 27
 
q
1 X 2
=  n.j Yj2  − Y
n
j=1
590900
= − 75.802
100
= 163, 36
⇒ σy = 12, 78
51 / 62
2
 
p q
1 XX
σXY = cov (X , Y ) =  nij xi yj  − X Y
n
i=1 j=1
1303600
= − 171 × 75, 80
100
= 74, 20
cov (X , Y )
ρ(X , Y ) =
σX σY
74, 20
=
9, 27 × 12, 78
= 0, 63
3 l’équation de la droite de régression de Y en X :
cov (X , Y )
V (X )
Donc : Y − 75, 80 = a(X − 171) avec : a = 0, 862790698
52 / 62
Exercice
On dispose pour un secteur industriel donné et sur une période de 8
années du nombre de salariés Y (en milliers) et du chiffre d’affaires X
(en dizaines de milliards) :
Année 1 2 3 4 5 6 7 8
X 3 4 5 6 8 9 11 13
Y 3.5 4.2 5 5.5 6 6.5 6.7 7.2
Ln(X) 1,1 1,4 1,6 1,8 2,1 2,2 2,4 2,6
1 Représenter le nuage de points (xi , yi ).

2 Calculer la moyenne et l’écart-type de chacun des deux
caractères X et Y.
3 Calculer la covariance du couple (X , Y ).
53 / 62
Exercice
4 a) Donner le coefficient de corrélation linéaire ρ(X , Y ) de la série
statistique (xi , yi ) . Un ajustement affine est-il justifié ?
b) Ecrire une équation de la droite de régression D de Y en X .
Représenter D dans le repère précédent
5 Calculer la moyenne et l’écart-type de variable Z.
6 Calculer la covariance du couple (Z , Y ).
7 a) Donner le coefficient de corrélation linéaire ρ(Z , Y ) de la série
statistique (zi , yi ) . Un ajustement affine est-il justifié ?
b) Ecrire une équation de la droite de régression ∆ de Y en Z .
8 En l’an 2010, on prévoit pour le secteur étudié un chiffre d’affaires
de 400 milliards.
i)Utiliser les droites (D) : Y = aX + b et (∆) : Y = a0 Z + b0 pour
proposer deux prévisions du nombre d’employés de ce secteur à
l’horizon 2010.
ii) Quelle prévision vous semble la plus appropriée
54 / 62
1
55 / 62
n
2 1X
X = xi
n
i=1
59
=
8
= 7, 375
n
1X
Y = yi .
n
i=1
44, 6
=
8
= 5, 575
n
!
1X 2 2
V (X ) = σX2 = xi − X
n
i=1
521
= − 7, 3752
8
= 10, 734375
⇒ σX = 3, 276335606
56 / 62
n
!
1X 2 2
V (Y ) = σY2 = yi −Y .
n
i=1
260, 12
= − 5, 5752
8
= 1, 434375
⇒ σY = 1, 197653957
n
!
1X
σXY = cov (X , Y ) = xi yi −X Y
n
i=1
359, 1
= − 7, 375 × 5, 575
8
= 3, 771875
57 / 62
4 a) On a
cov (X , Y )
ρ(X , Y ) =
σX σY
3, 771875
=
3, 276335606 × 1, 197653957
= 0, 961252664
⇒ ρ2 (X , Y ) = 0.92 > 0.75
donc l’ajustement affine est justifié

b) l’équation de la droite de régression : de Y en X :
cov (X , Y )
V (X )
Donc :Y − 5.575 = a(X − 7.375) avec : a = 0, 35138
58 / 62
5
n
1X
Z = Zi
n
i=1
15, 12561478
=
8
= 1, 891
n
!
1X 2 2
V (Z ) = σZ2 = Zi − Z
n
i=1
30, 41019332
= − 1, 8912
8
= 0, 226520689
⇒ σZ = 0, 475941896
59 / 62
6
n
!
1X
σZY = cov (Z , Y ) = Zi Yi −Z Y
n
i=1
88, 86158867
= − 1, 891 × 5, 575
8
= 0, 567035784
7 a) On a
cov (Z , Y )
ρ(Z , Y ) =
σZ σY
0, 567035784
=
0, 475941896 × 1, 197653957
= 0, 99477572
⇒ ρ2 (Z , Y ) = 0, 989578733 > 0.75
donc l’ajustement affine est justifié

60 / 62
b) l’équation de la droite de régression : de Y en Z :
cov (X , Y )
Y −Y =a Z −Z avec a = .
V (X )
Donc :Y − 5.575 = A(Z − 1, 9) avec : A = 2, 503241
8 i) X Prévision fournie parY = aX + b :

X = 40en dizaines de milliards
=⇒ Y (40) = 17, 03886 donc Y ' 17039 salariés
X Prévision fournie par Y = AZ + B :
X = 40 en dizaines de milliards
Z = Ln(X ) ' 3, 688879454
=⇒ Y (ln(40)) = 10, 07627 donc Y ' 10076 salariés
61 / 62
ii) On a ρ2 (Z , Y ) > ρ2 (X , Y ) donc Y = AZ + B fourni une
qualité d’ajustement meilleure que celle du Y = aX + b
par conséquent la prévision la plus appropriée est :
Y ' 10076 salariés
62 / 62

Analyse de Donnée 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse de Donnée 2

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 2

On se donne une population de taille n et sur chaque élément de cette

Les résultats de ces observations peuvent être présentés sous deux

X Y y1 y2 ... yj ... yq Totaux

Ω Allemagne France G. B. Italie

Y X 3.5 15.2 17.6 27.2 Totaux

Ici, on a ce qu’on appelle données groupées.

La somme des effectifs partiels contenus dans la colonne de yj est

(fij fréquence partielle correspondant à X = xi et Y = yj ).

On montre aisément que :

Le coefficient de corrélation linéaire du couple (X , Y ) noté ρ(X , Y ), est

N.B L’importance des paramètres cov (X , Y ) et ρ(X , Y ) apparaîtra

Démonstration : (cf. exercice 1 ; fiche TD N◦ 2)

La fréquence conditionnelle de xi sachant yj (yj réalisé)

Où nij est l’effectif correspondant à X = xi et n· j l’effectif partiel

Conséquence : Les caractères X et Y sont indépendants si et

2500 3000 3500 4000 4500 ni.

n13 = 4 signifie qu’il ya 4 enfants dont l’âge de la mère est 20 ans et

On considère une population de taille (effectif total) n sur laquelle on

On dit qu’il y a correlation entre deux caractères observés sur une

Formule pratique de ρ pour le calcul

ρ est compris entre −1 et 1.

Soit Mi un point de cordonnées (xi , yi ) On appelle distance de Mi

Ce système en a et b admet pour solution unique

Les droites de regression (4) et (40 ) ayant pour équations :

La statistique suivante indique l’évolution de la consommation

Année 1949 1953 1957 1961 1965 1969 1973 1977

Déterminons la droite de régression de Y = log y en x

σX2 = 5.25 σY2 ' 0.0794

et σXY ' 0.64. 36 / 62

Remarquons que l’on a :

L’étude des séries statistiques à deux variables permet de mettre en

i=1 i=1 i=1

5 l’équation de la droite de régression de Y en X :

1 Calculer la moyenne et l’écart-type de chacun des deux

1 Représenter le nuage de points (xi , yi ).

donc l’ajustement affine est justifié

Donc :Y − 5.575 = a(X − 7.375) avec : a = 0, 35138

donc l’ajustement affine est justifié

Donc :Y − 5.575 = A(Z − 1, 9) avec : A = 2, 503241

8 i) X Prévision fournie parY = aX + b :

Vous aimerez peut-être aussi

X Y y1 y2 ... yj ... yq Totaux

Y X 3.5 15.2 17.6 27.2 Totaux