TD3 CorrigéSD2023

Vous aimerez peut-être aussi

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 10

Statistique descriptive bivariée : TD.

3 (corrigés)
Prof. El maliki

Exercice 1.
Prix et qualité d’un produit de beauté : Lors d’une étude sur les prix et les qualités d’un produit de
beauté, des données ont été recueillies et résumées dans le tableau de contingence suivant
Prix(X)\ Qualité (Y ) qualité inférieure (QI) qualité moyenne(QM) qualité supérieure(QS) Total(ni· )
moins cher (MC) 12 38 8 58
cher (C) 0 18 0 18
trop cher(TC) 2 12 10 24
Total (n·j ) 14 68 18 100

1. Dresser le tableau des fréquences (fréquences partielles et marginales) :


ni,j n·j ni·
Pour remplir le tableau suivant, on utilise les relations fi,j = , f·j = et fi· =
n n n
X3 X 3
avec n = nij = 100
i=1 j=1

X\ Y QI QM QS fi·
MC 0.12 0.38 0.08 0.58
C 0 0.18 0 0.18
TC 0.02 0.12 0.10 0.24
f·j 0.14 0.68 0.18 1
2. Déterminer la proportion de produits ayant un prix cher.
P (X = C) = f2· = 18%
Déterminer la proportion de produits ayant une qualité supérieure.
P (Y = QS) = f·3 = 18%

3. Déterminer la proportion de produit ayant un prix cher et une qualité supérieure.


P (X = C, Y = QS) = f2,3 = 0%

4. Déterminer la proportion de produit ayant un prix trop cher parmis ceux ayant une qualité supérieure.
Interprétez ?Ici on demande la proportion de X = T C sachant que Y = QS.
f2,3 0.10
P (X = T C/Y = QS) = fx2 /y3 = = = 55.5%
f·3 0.18
Parmis les produits yant une qualité supéreieure , il y a 55.5% qui ont le prix trop cher.
5. Déterminer la proportion de produit ayant une qualité supérieure parmis ceux ayant un prix trop cher.
f2,3 0.10
P (Y = QS/X = T C) = fy3 /x2 = = = 41.6%
f2· 0.24

6. Le prix et la qualité du produit de beauté sont-ils indépendants ?


Deux caractères X et Y sont indépendants si, et seulement si :
∀i ∈ {1, · · · , p}, j ∈ {1, · · · , q} fij = fi. × f.j
Remarquer que f2,1 = 0, f2· = 0.18 et f·1 = 0.14. Donc on vérifie que f2,1 6= f2· ∗ f·1

1
Exercice 2.
La variable X est le niveau d’instruction du fils par rapport au père (plus élevé (IPE), égal (IE), inférieur (II)).
La variable Y est le statut professionnel du fils par rapport au père (plus élevé (SPE), égal (SE), inférieur (SI)).
X\Y Plus élevé(SPE) Égal(SE) Inférieur(SI) ni. X\Y SPE SE SI fi.
Plus élevé(IPE) 134 96 61 291 IPE 0.322 0.231 0.147 0.700
Égal(IE) 23 33 24 80 IE 0.055 0.079 0.058 0.192
Inférieur(II) 7 16 22 45 II 0.017 0.038 0.053 0.108
n.j 164 145 107 416 f.j 0.394 0.349 0.257 1.000
3 3
nij X X
1. Voir tableau : fij = , fi. = fij , f.j = fij
n j=1 i=1

2. Proportion de fils ayant le niveau d’instruction égal à celui du père : f2. = 0.192 = 19.2%
3. Proportion de fils ayant le statut professionnel égal à celui du père :f.2 = 0.349 = 34.9%
4. Proportion de fils ayant le niveau d’instruction plus élevé à celui du père parmi ceux ayant le statut profes-
sionnel égal à celui du père :
Fréquence conditionnelle (X = IP ) liée par (Y = SE) notée par f(X=IP/Y =SE) .

n12 96
f(X=IP/Y =SE) = fx1 /y2 = = ' 66.21%
n.2 145

Cela signifie que parmi les 145 fils ayant le statut professionnel égal à celui du père, il y en a 66.21% ayant
le niveau d’instruction plus élevé à celui du père
5. proportion de fils ayant le statut professionnel plus élevé au père parmi ceux ayant le niveau d’instruction
inférieur au père :
Fréquence conditionnelle (Y = SP E) liée par (X = II) notée par f(Y =SP E/X=II) .

n31 7
f(Y =SP E/X=II) = fy1 /x3 = = ' 15.55%
n3. 45

6. X et Y sont indépendants si et seulement si fij = fi. × f.j , pour tout i = 1, 2, 3 et j = 1, 2, 3. X et Y ne


sont pas indépendants car f13 = 0.147 6= f1. × f.3 = 0.7 × 0.257 = 0.1799
n.j
7. La distribution marginale en Y ((yj , f.j )) : f.j = n

yj SPE SE SI total
f.j 0.394 0.349 0.257 1.000
La distribution conditionnelle de Y /X = IP E :
Y /X = IP E SPE SE SI total
n1j 134 96 61 n1. = 291
fY /X=IP E 0.46 0.33 0.21 1.000
On remarque que les deux distributions sont différentes (on compare f.j avec fY /X=IP E ).
Rappel : Les deux variables X et Y sont indépentes si et seulemnt si fyj /xi = f.j pour tout i, j.
Conclusion : les deux variables ne sont pas indépendantes.
8. Donner la distribution marginale de Y et la distribition conditionnelle de Y sachant X = IP E.
Comparer les fréquences des deux distributions et déduire que X et Y ne sont pas indépendants ?
9. Utiliser le test de khi-deux pour infirmer ou confirmer les résulats obtenus aux questions 6. et 7. ?
10. Calculer le coefficient de Cramer et interprécez sa valeur ?

Exercice 3.(examen 2014)


Une grande entreprise nommée ABT mené une enquête interne afin d’étudier, selon différents secteurs d’activités
(variable X), le niveau de stress ressenti par ses employés (variable Y ). Les données ont été regroupées dans la
table de contingence ci-dessous (Tableau 1) :

2
Tableau 1 : nij
Tableau 2 : n∗ij
X\Y Faible Moyen Important Extrême ni.
X\Y Faible Moyen Important Extrême
Commercial 5 7 18 13
Commercial
Production 15 11 6 5
Production
n.j
1. Compléter le tableau 1 ci-dessus. Identifier la population et sa taille puis préciser les variables X et Y étudiées
dans cette étude ainsi que leur type.
2. Calculer dans le tableau 2, les effectifs théoriques d’indépendances n∗ij . Calculer l’indice khi-deux χ2 et
l’indice C de Cramer . Que mesurent ces deux indices ? Interpréter les résultats obtenus.
3. Le tableau 3 donne pour différentes valeurs de α (niveau d’erreur) et différentes valeurs de d (le nombre de
degré de liberté) les seuils zα tel que P (χ2 (d) > zα ) = α.
Tableau 3 : loi de khi-deux χ2 (d)
d\α 0.1 0.05 0.01
1 2.706 3.841 6.635
2 4.605 5.991 9.210
3 6.251 7.815 11.341
Utiliser le test de khi-deux pour vérifier si le secteur d’activités n’a aucun impact sur le niveau de stress
ressenti par les employés.

Exercice 4.
p q
1 XX
Vérifier les propriétés : 1-Cov(X, Y ) = ( nij xi yj ) − x̄ȳ, 2- Cov(aX + b, cY + d) = acCov(X, Y )
n i=1 j=1
p q
1 XX
Cov(X, Y ) = nij (xi − x̄)(yi − ȳ)
n i=1 j=1
p q
1 XX
= (nij xi yj − nij x̄yj − nij ȳxi + nij x̄ȳ)
n i=1 j=1
p q p q p q p q
1 XX 1 XX 1 XX 1 XX
= ( nij xi yj ) − nij x̄yj − nij ȳxi + nij x̄ȳ
n i=1 j=1 n i=1 j=1 n i=1 j=1 n i=1 j=1
p q q p p q p q (1)
1 XX 1XX 1XX 1 XX
= ( nij xi yj ) − x̄ ( nij )yj − ȳ ( nij )xi + x̄ȳ nij
n i=1 j=1 n j=1 i=1 n i=1 j=1 n i=1 j=1
p q q p
1 XX 1X 1X
= ( nij xi yj ) − x̄ n.j yj − ȳ ni. xi + x̄ȳ)
n i=1 j=1 n j=1 n i=1
p q
1 XX
= ( nij xi yj ) − x̄ȳ
n i=1 j=1
p X
q q p
X 1X 1X
car x̄, ȳ ne dépendent pas des indices i et j, nij = n, ȳ = n.j yj , x̄ = ni. xi
i=1 j=1
n j=1 n i=1
p q
1 XX
Cov(aX + b, cY + d) = nij (axi + b − ax̄ − b)(cyi + d − cȳ − d)
n i=1 j=1
p q
1 XX
= nij (axi − ax̄)(cyi − cȳ) (2)
n i=1 j=1
p q
1 XX
= ac nij (xi − x̄)(yi − ȳ) = acCov(X, Y )
n i=1 j=1

Exercice 5.
A l’oral d’un examen, chaque candidat est interrogé en première langue où il obtient la note X et en seconde
langue où il obtient la note Y (notes sur 20).Les résultats obtenus pas 100 candidats sont donnés dans le tableau
ci-dessous :

3
X\Y [0, 4[ [4, 8[ [8, 12[ [12, 16[ [16, 20[
[0, 4[ 2 5 2 0 0
[4, 8[ 1 12 10 3 0
[8, 12[ 0 3 28 12 1
[12, 16[ 0 1 5 10 2
[16, 20[ 0 0 0 1 2
1. Nuage de points pondérés
2. Les distributions marginales en X et Y sont données par les tableaux suivants, où l’on a assimilé les classes
à leurs centres :
xi 2 6 10 14 18
ni. 9 26 44 18 3

yj 2 6 10 14 18
n.j 3 21 45 26 5
xi −10
3. Pour calculer ces paramètres marginaux, on peut utiliser les changements de variables suivants : ui = 4
et vi = yi −10
4

xi ni. ui ni. ui ni. u2i


2 9 -2 -18 36
6 26 -1 -26 26
10 44 0 0 0
14 18 1 18 18
18 3 2 6 12
Total 100 -20 92

xi ni. vi ni. vi ni. vi2


2 3 -2 -6 12
6 21 -1 -21 21
10 45 0 0 0
14 26 1 26 26
18 5 2 10 20
Total 100 9 79
−20
On trouve : ū = , donc x̄ = 4ū + 10 = 9.2
100
92 2 88
Su2 = − ( )2 = , donc Sx2 = 42 Su2 = 14.08
100 10 100
9
De même, v̄ = , donc ȳ = 4v̄ + 10 = 10.36
100
79 9
Sv2 = −( )2 = 0.7819, donc Sy2 = 42 Sv2 = 12.5104
100 100

4. Distributions conditionnelles de X liées par Y ∈ [0, 4[ : X/Y ∈ [0, 4[ ou X/Y = 2


Classes xi (centre) ni1 ni1 xi ni1 x2i
[0, 4[ 2 2 4 8
[4, 8[ 6 1 6 36
Total 3 10 44
2
X 2
X
ni1 xi ni1 x2i
i=1 10 2 44 10 32
x̄|y1 = 2
= , Sx|y1 = i=12 − x̄2|y1 = − ( )2 =
X 3 X 3 3 9
ni1 ni1
i=1 i=1
Distributions conditionnelles de Y liées par X ∈ [0, 4[ : Y /X ∈ [0, 4[ ou Y /X = 2

4
Classes yj (centre) n1j n1j yy n1j yj2
[0, 4[ 2 2 4 8
[4, 8[ 6 5 30 180
[8, 12[ 10 2 20 200
Total 9 54 388
3
X 3
X
n1j yj n1j yj2
j=1 54 j=1 2 388 54 64
ȳ|x1 = 3
= 2
= 6, Sy|x = 3 − ȳ|x = − ( )2 =
X 9 1
X 1
9 9 9
n1j n1j
j=1 j=1
5. On conserve le changement de variables introduit dans la troisième question et on dresse le tableau suivant
P
U \V −2 1 0 1 2
−2 8 10 0 0 0 18
1 2 12 0 -3 0 11
0 0 0 0 0 0 0
1 0 -1 0 10 4 13
2 0 2 8 10
P
10 21 0 9 12 52
Dans chaque case d’entrées (ui , vj ) on calcule nij ui vj .
5 X
X 5
On trouve alors : nij ui vj = 52.
i=1 j=1
5 X
5
1 X 52 −2 9
D’où Cov(U, V ) = ( nij ui vj ) − ūv̄ = − = 0.538
n i=1 j=1
100 10 100
Donc Cov(X, Y ) = 4 × 4 × Cov(U, V ) = 16 × 0.538 = 8.608
Puisque Cov(X, Y ) 6= 0, X et Y ne sont pas statistiquement indépendants.

Exercice 6.
(a) Moments centrés d’ordre r, s ∈ N, pour un couple de variable (xi , yj ) avec un effectif nij , i = 1, · · · , p et
i = 1, · · · , q
p q
1 XX
mr,s = nij (xi − x̄)r (yi − ȳ)s
n i=1 j=1

Pour r = 1 et s = 1, on retrouve la formule de covariance


p q
1 XX
m1,1 = nij (xi − x̄)(yi − ȳ) = Cov(X, Y )
n i=1 j=1

Pour retrouver la variance marginale Sx2 , on garde que les termes en X (avec une puissance 2) :
p q
1 XX
m2,0 = nij (xi − x̄)2 (yi − ȳ)0
n i=1 j=1
p q
1X X
= [(xi − x̄)2 nij ]
n i=1 (3)
j=1
p
1X
= (xi − x̄)2 ni.
n i=1
= Sx2

5
De même pour la variance marginale Sy2
p q
1 XX
m0,2 = nij (xi − x̄)0 (yi − ȳ)2
n i=1 j=1
q p
1X 2
X
= [(yj − ȳ) nij ]
n j=1 i=1
(4)
q
1X
= (yj − ȳ)2 n.j
n j=1
= Sy2

(b) Le coefficient de corrélation est donné par

Cov(X, Y )
r(X, Y ) =
Sx × Sy

On sait que le covariance dépend de l’unité de X × Y , par exemple si X = taille en mètre(m) et Y = poids
en kilogramme (Kg) alors l’unité de Cov(X, Y ) est m × Kg.
L’unité de Sx est celle de X et l’unité de Sy est celle de Y .
D’après ce qui précède, on peut déduire que le coefficient de corrélation r(X, Y ) est sans unité.
De plus si on fait un changement de variables : X̃ = aX + b et Ỹ = cY + d, on obtient

Cov(X̃, Ỹ )
r(X̃, Ỹ ) =
SX̃ SỸ
acCov(X, Y ) (5)
=
|a||c|SX SY
= ±r(X, Y )

car Cov(X̃, Ỹ ) = acCov(X, Y ), SX̃ = |a|SX et SỸ = |c|SY . En particulier, on obtient dans le cas d’un
changement d’origine (X̃ = X − X̄ et Ỹ = Y − Ȳ ) :

r(X̃, Ỹ ) = r(X, Y )

donc le coefficient de corrélation r est invariant par changement d’unité et/ou d’origine.
(c) Dans l’exercice (3.) précédent, on a obtenu : Su2 = 0.88, Sv2 = 0.7819, Cov(U, V ) = 0.538
avec U = X−10
4 , V = Y −10
4 .
On a X = 4U + 10 et Y = 4V + 10 et

Cov(X, Y )
r(X, Y ) =
SX SY
4 × 4 × Cov(U, V )
=
4 × 4 × SU SV (6)
= r(U, V )
Cov(U, V ) 0.538
= =√ √
SU SV 0.88 0.7819

Exercice 7.
Neilson media Research produit deux mesures de l’audiance télévisuelle : un taux d’audience des programmes
de télévision, correspondant au pourcentage de ménages qui regardent un programme donné parmi ceux possédant
un poste de télévision, et un indicateur de la part de marché des programmes, correspondant au pourcentage de
ménages regardant le programme en question parmi ceux regardant la télévision. Les données suivantes fournissent
le taux d’audiance et la part de marché télévisuelle des matchs de la ligue principale de baseball au cours de 9
années (associated Press, 27 october 2003)

6
Taux d’audiance (X) Part de marché (Y ) x2i yi2 xi yi
19 32 361 1024 608
17 28 289 784 476
17 29 289 841 493
14 24 196 576 336
16 26 256 676 416
12 20 144 400 240
15 24 225 576 360
12 20 144 400 240
P 13 22 169 484 286
135 225 2073 5761 3455
1. Nuage de points pour les données :

2. Les points ont une tendence à s’aligner sur une droite. Le nuage de points suggère donc qu’une ligne droite
caractérise la relation entre Taux d’audiance et Part de marché .
3. Le coefficient de corrélation de l’échantillon : (posons X = Taux d’audiance et Y = Part de marché)
Cov(X, Y )
r(X, Y ) =
Sx Sy
Calculons d’abord Cov(X, Y ), Sx et Sy :
X9 X9
xi yi
i=1 135 i=1 225
x̄ = = = 15, ȳ = = = 25
9 9 9 9
X 9 X9
x2i yi2
2073 5761
Sx2 = i=1 − x̄2 = − 152 = 5.33, Sy2 = i=1 − ȳ 2 = − 252 = 15.11
9 9 9 9
X9
xi yi
i=1 3455
Cov(X, Y ) = − x̄ȳ = − 5.33 × 15.11 = 8.89
9 9
Cov(X, Y ) Cov(X, Y ) 8.89
r(X, Y ) = = p p =√ √ = 0.9895
Sx Sy Sx Sy 5.33 15.11
La valeur de r(X, Y ) est proche de 1, ce qui révèle qu’il y a une forte relation linéaire entre X et Y .

Exercice 8.
Dans une banque, on considère un échantillon de 12 clients choisis au hasard. On note X le nombre de chèques
émis et Y le nombre de visites à l’agence, de chaque client durant un trimestre. On obtient :

7
X 34 42 53 30 50 60 46 57 32 24 36 28
Y 12 14 15 10 15 17 12 14 10 9 11 10
9
X
xi yi
i=1 6423
1. Cov(X, Y ) = − x̄ȳ =
− 41 × 12.42 = 26.17
12 12
2. La droite d’ajustement de Y en X :

 y = ax + b
a = Cov(x,y)
2
Sx
26.17
= 133.5 = 0.196 (7)

b = ȳ − ax̄ = 12.42 − 0.196 ∗ 41 = 4.38.
La droite d’ajustement de X en Y :

 x = ãy + b̃

ã = Cov(x,y)
Sy2 = 26.17
5.91 = 4.43 (8)

b̃ = x̄ − aȳ = 41 − 4.43 ∗ 12.42 = −14.02.

3. Graphique des points (xi , yj ) et des droites d’ajustement : x = ãy + b̃ ⇔ y = ã1 x − b̃


Exercice 9.
Le tableau suivant donne le PNB (en euros, par habitants) ainsi que le nombre d’hôpitaux (pour 1 million
d’habitants) dans quelques pays européens. On note X et Y les variables : PNB en milliers euros par habitant et
nombre d’hôpitaux par dizaines de millions d’habitants.
Pays 1 2 3 4 5 6
X 5.1 7.8 11.2 15.8 20.1 22.5
Y 62 108 155 210 300 325
1. La Moyenne et l’écart type de chaque variable :
X6 X6
xi yi
i=1 82.5 i=1 1160
x̄ = = = 13.75, ȳ = = = 193.33
6 6 6 6
6
X
x2i
i=1 1372.19
Sx2 = − x̄2 = − 13.752 = 39.64
6 6
6
X
yi2
i=1 279258
Sy2 = − ȳ 2 = − 193.332 = 9165.222
6 6

8
p q
Donc Sx = Sx2 = 6.3, Sy = Sy2 = 95.74
2. La covariance et la corrélation entre les 2 variables :
X 6
xi yi
i=1 19555.1
Cov(X, Y ) = − x̄ȳ = − 13.75 × 193.33 = 600.85
6 6
Cov(X, Y ) 600.85
r(X, Y ) = = = 0.9961
Sx Sy 6.3 × 95.74

La valeur de r(X, Y ) est proche de 1, ce qui révèle qu’il y a une forte relation linéaire entre X et Y .
3. Ici X = P N B = 23.4 et Y = nombre d’hôpitaux, donc pour estimer Y il faut d’abord chercher la droite qui
lie les deux variables : c’est la droite de regression.

 y = ax + b
a = Cov(x,y)
2
Sx = 600.85
39.75 = 15.12 (9)

b = ȳ − ax̄ = 193.33 − 15.12 ∗ 13.75 = −14.57.
Estimation du nombre d’hôpitaux est donnée par : y = 15.12 ∗ 23.4 − 14.75 ' 340

Exercice 10.
1. La fréquence marginale de l’observation (X = xi ) est notée fi. :
q q
ni. X nij X
fi. = = = fij
n j=1
n j=1

La fréquence marginale de l’observation (Y = yj ) est notée f.j :


p p
n.j X nij X
f.j = = = fij
n i=1
n i=1

Deux caractères X et Y sont indépendants si, et seulement si :


ni. × n.j
∀i ∈ {1, · · · , p}, j ∈ {1, · · · , q} fij = fi. × f.j ou nij =
n
p q p q
1 XX XX
2. Cov(X, Y ) = nij xi yj − x̄ȳ = fij xi yj − x̄ȳ,
n i=1 j=1 i=1 j=1
Or fij = fi. × f.j ,
Xp X q p
X q
X
Cov(X, Y ) = fi. f.j xi yj − x̄ȳ = fi. xi f.j yj − x̄ȳ = x̄ȳ − x̄ȳ = 0
i=1 j=1 i=1 j=1
Cov(X,Y )
3. r(X, Y ) = Sx Sy .
Le coefficient de corrélation permet de mesurer l’importance de la liaison linéaire entre deux variables.
4. 
 y = ax + b
a = Cov(x,y)
2
Sx (10)

b = ȳ − ax̄
5. Si (y = ax + b), on a
2
aSX
r(X, Y ) = Cov(X,Y
Sx Sy
)
= Cov(X,aX+b)
SX S(aX+b) = SX |a|SX = ±1
2 2
Car Cov(X, aX + b) = aCov(X, X) = aSX et (S(aX+b) = a2 SX
2
ou encore S(aX+b) = |a|SX )
6. On transforme les données en posant Puis on cherche l’ajustement linéaire.
— On a y = beax ⇐⇒ ln(y) = b + ax et on pose Yi = ln(yi ) et Xi = xi puis on cherche a, b de la droite
Y = aX + b

9
— Pour y = b + aln(x) on pose Yi = yi et Xi = ln(xi ) puis on cherche a, b de la droite Y = aX + b
— On a y = bxa ⇐⇒ ln(y) = b + aln(x) on pose Yi = ln(yi ) et Xi = ln(xi ) puis on cherche a, b de la droite
Y = aX + b
1
— On a y = ax+b ⇐⇒ y1 = ax + b, on pose Yi = y1i et Xi = xi puis on cherche a, b de la droite Y = aX + b

10

Vous aimerez peut-être aussi