Vous êtes sur la page 1sur 6

ZA’J

J.Ë@ P@YË@ - éK


YÒjÖÏ @ ú
GA JË@ á‚m 
Ì '@ éªÓAg.
Université Hassan II Mohammedia - Casablanca
 ð èPAjJÊË éJ J£ñË@
ZA’J
J.Ë@ P@YË@ - Q
J
‚Ë@  Ï@
.
éƒPYÖ
École Nationale de Commerce et de Gestion de Casablanca 1

Examen final: Statistique Descriptive. Nom:


L’utilisation de calculatrice est autorisée. Prénom:
Durée : 02h00. Barème: 20/20. Ordre alphabitique:
Lundi, 02/06/2014

La présentation, la lisibilité, l’orthographe, la qualité de la rédaction, la clarté et la précision des raisonnements entreront pour une part importante dans
l’appréciation des copies.
L’usage de tout document et de tout matériel électronique (y compris le téléphone portable) est rigoureusement interdit. L’usage d’une calculatrice non
programmable est autorisé.
Si au cours de l’épreuve, un(e) étudiant(e) repère ce qui lui semble être une erreur d’énoncé, il (elle) la signalera très lisiblement sur sa copie, proposera la
correction et poursuivra sa composition en expliquant les raisons des initiatives qu’il sera amené à prendre.

Exercice 1 (6 points)
Supposons que l’observation des variables X et Y sur n individus ait donné lieu au tableau de contingence {(xj , yk , njk ) : j =
1, . . . , J; k = 1, . . . , K}. Soit {(xj , nj· ) : j = 1, . . . , J} et {(yk , n·k ) : k = 1, . . . , K} les distributions marginales respectives de
PK PJ
X et de Y , où nj· = k=1 njk et n·k = j=1 njk . La moyenne marginale et la variance marginale en Y sont données par:

K K
1X 1X  2
ȳ = n·k yk et s2y = n·k yk − ȳ .
n n
k=1 k=1

La distribution conditionnelle de Y en X = xj , (j = 1, . . . , J) a pour moyenne et variance:


K K
1 X 1 X  2
ȳ(xj ) = njk yk et s2y (xj ) = njk yk − ȳ(xj ) .
nj· nj·
k=1 k=1

J
1X
1. Montrez que nj· ȳ(xj ) = ȳ. Commentez ce résultat.
n j=1

J J
1X  2 1 X
2. Montrez que s2y = nj· ȳ(xj ) − ȳ + nj· s2y (xj ).
n j=1 n j=1

PJ  2
1
n j=1 nj· ȳ(xj ) − ȳ
3. On définit le carré du rapport de correlation par η 2 = . Montrez que 0 ≤ η 2 ≤ 1.
s2y

4. Quelle interprétation donnerez vous aux valeurs 0 et 1 pour η 2 .

Solution:
J
1X
1. (1.5pts). Montrons que: nj· ȳ(xj ) = ȳ. Commentez ce résultat.
n j=1

J J K
!
1X 1X X
nj· ȳ(xj ) = njk yk (Pourquoi?)
n j=1 n j=1
k=1
 
K J K
1 X X 1X
= njk  yk = n·k yk = ȳ. cqfd.
n j=1
n
k=1 k=1

On conclut que la moyenne des moyennes conditionnelles de Y en X est égale à la moyenne marginale en Y .

Test Final: Statistique Descriptive Page 1 / 6


J J
1X  2 1 X
2. (1.5pts). Montrons que s2y = nj· ȳ(xj ) − ȳ + nj· s2y (xj ).
n j=1 n j=1
 
K K J K J
1X  2 1 X X  2 1 XX  2
s2y = n·k yk − ȳ = njk  yk − ȳ = njk yk − ȳ(xj ) + ȳ(xj ) − ȳ
n n j=1
n j=1
k=1 k=1 k=1
K X
J  
1 X 2  2  
= njk yk − ȳ(xj ) + ȳ(xj ) − ȳ + 2 yk − ȳ(xj ) ȳ(xj ) − ȳ
n
k=1 j=1
K J K X J K J
1 XX  2 1 X  2 1 XX   
= njk yk − ȳ(xj ) + njk ȳ(xj ) − ȳ + 2 njk yk − ȳ(xj ) ȳ(xj ) − ȳ
n n n
k=1 j=1 k=1 j=1 k=1 j=1
J K
! J K
!
1X X  2 1X X  2
= njk yk − ȳ(xj ) + njk ȳ(xj ) − ȳ
n j=1 n j=1
k=1 k=1
 
J  K 
1X  X  
+2 ȳ(xj ) − ȳ 
 njk yk − ȳ(xj ) 
n j=1 k=1


| {z }
=0
K K K K
1 X X X X
en effet, ȳ(xj ) = njk yk ⇒ njk yk = nj· ȳ(xj ) ⇒ njk yk = njk ȳ(xj ).
nj·
k=1 k=1 k=1 k=1
K
X  
⇒ njk yk − ȳ(xj ) = 0.
k=1
J J
1 X 1X  2
D’où: s2y = nj· s2y (xj ) + nj· ȳ(xj ) − ȳ . cqfd.
n j=1
n j=1

On conclut que la variance marginale en Y est égale à la somme de la moyenne des variances conditionnelles de Y
en X et la variance des moyennes conditionnelles de Y en X. En d’autres termes, la variation totale d’une
variable est parfaitement mesurée par la somme de la moyennes de ses variations conditionnelles et la variation de
ses moyennes conditionnelles.
3. (1.5pts). Étant donné que η 2 est le rapport de deux quantités positives, il est positif, il suffit donc de
démontrer qu’il est inférieur à 1. Or,
PJ  2
1 PJ
n n
j=1 j· ȳ(x j ) − ȳ s2y − n1 j=1 nj· s2y (xj )
2
η = =
s2y s2y
J PJ
1 1
!
2 2
P
n j=1 nj· sy (xj ) n j=1 nj· sy (xj )
= 1− ≤1 Car ≥0 .
s2y s2y

D’où: 0 ≤ η 2 ≤ 1.
PJ  2
1
n j=1 nj· ȳ(xj ) − ȳ
4. (1.5pts). Interprétons les deux cas η 2 = 0 et η 2 = 1. Rappelons que: η 2 = .
s2y
J
1X  2  
Si η 2 = 0, alors, on a nécessairement: nj· ȳ(xj ) − ȳ = 0, d’où: ȳ(xj ) − ȳ = 0 ∀j = 1, . . . , J.
n j=1
Autrement dit, toutes les moyennes conditionnelles de Y en X sont égales à la moyenne marginale de Y
(c’est-à-dire égales à = ȳ).
J
2 1X  2 PJ
2
Si η = 1, alors, on a nécessairement: sy = nj· ȳ(xj ) − ȳ , donc: n1 j=1 nj· s2y (xj ) = 0, par conséquent,
n j=1
s2y (xj ) = 0 ∀j = 1, . . . , J, c’est-à-dire, que la variance conditionnelle de Y en X est nulle. Cela se produit si
à chaque valeur de xj correspond une seule valeur de Y . Cette correspondance définit donc une application
(une fonction) qui va de l’ensemble des observations de X dans l’ensemble des observations de Y .

Test Final: Statistique Descriptive Page 2 / 6


Exercice 2 (7 points)
Les données suivantes correspondent aux scores obtenus en mathématiques par les élèves dans 26 pays membres de l’OCDE
( PISA 2012 Results: What Students Know and Can Do (Volume I) - c OECD 2013 ).

Ensemble Différences de genre Centile


Score Écart Garçons Filles Différence 5e 10e 25e 75e 90e 95e
moyen type (G - F)
OCDE (moyenne) 492 101 499 484 16 327 362 421 562 624 660
Allemagne 511 105 520 501 19 337 372 438 586 647 681
Angleterre 489 104 495 483 12 319 355 417 560 626 663
Australie 498 110 506 489 17 323 359 421 573 643 683
Autriche 499 105 515 484 32 328 365 425 575 635 668
Belgique 512 111 520 505 15 328 367 435 591 656 692
Chili 420 88 434 406 29 284 311 359 477 535 573
Corée 562 111 573 550 22 377 417 487 642 704 738
Danemark 502 89 511 494 17 355 387 441 565 618 649
Espagne 477 102 486 467 19 305 346 408 547 607 640
Estonie 517 91 523 512 11 371 402 454 578 637 673
États-Unis 475 98 479 471 8 323 352 406 540 606 645
Finlande 519 97 520 518 2 359 393 453 585 645 678
France 483 106 491 476 15 309 346 410 558 620 656
Grèce 448 89 454 442 13 303 334 387 507 563 596
Hongrie 469 101 478 461 17 312 344 398 536 605 645
Irlande 492 95 502 482 20 335 369 427 557 615 650
Italie 475 102 487 463 24 309 345 406 545 608 645
Japon 554 110 563 544 19 370 410 481 631 695 730
Luxembourg 482 102 498 465 33 317 349 409 554 615 650
Norvège 489 100 490 488 2 328 363 421 557 618 655
Pays-Bas 527 101 535 519 16 358 393 455 600 657 689
Pologne 516 102 522 509 13 353 387 443 585 650 687
Portugal 479 107 487 471 17 304 339 401 554 619 655
Rép. Tchèque 495 103 503 486 17 330 365 425 565 626 663
Slovénie 492 104 496 488 8 328 360 418 565 630 667
Suède 479 102 480 478 2 313 348 407 550 612 647

1. Interprétez chacune des valeurs obtenues pour la Corée?


2. Calculez toutes les mesures de dispersions que vous pouvez déduire du tableau ci-dessus pour la Corée. Commentez!

3. Comparez la série des données obtenues pour la Corée avec celle de l’OCDE (utilisez les paramètres). Commentez!

Solution:

1. (2.75pts). Interprétons chacune des valeurs obtenues pour la Corée:


562: est le niveau moyen de la performance des élèves Coréens en mathématiques. Il est au-dessus du niveau
moyen des élèves de l’OCDE (=492) en mathématiques. Ce paramètre, à savoir, la moyenne, est souvent
utilisé pour résumer les données en un seul nombre. Il est facile à calculer mais elle il présente l’inconvénient
d’être trop influencée par la présence des valeurs extrêmes (aberrantes).
111: est l’écart-type du score des élèves Coréens au test de mathématiques, ce paramètre mesure la variabilité
des performances entre élèves Coréens en mathématiques.
573: est le score moyen des élèves garçon, il est au-dessus du score moyen du pays.
550: est le score moyen des élèves filles, il est en-dessous du score moyen du pays.
22: est l’écart entre le score moyen obtenu par les garçons et celui obtenu par les filles. On remarques qu’il est
positif pour les pays considérés dans le tableau ci-dessus. Cela indique que pour ces pays, les garçons sont
plus performants que les filles en mathématiques.
377: est le score le plus élevé des 5% des élèves les plus faibles ayant participé au test.
417: est le score le plus élevé des 10% des élèves les plus faibles ayant participé au test.
487: est le score le plus élevé des 25% des élèves les plus faibles ayant participé au test.

Test Final: Statistique Descriptive Page 3 / 6


642: est le score le moins élevé des 25% des élèves les plus performants ayant participé au test.
704: est le score le moins élevé des 10% des élèves les plus performants ayant participé au test.
738: est le score le moins élevé des 5% des élèves les plus performants ayant participé au test.
2. (1.75+0.75pts). On désigne par Ck le centile d’ordre k, pour k = 1, . . . , 100.
(a) Les écarts-intercentiles:
C95 − C5 = 361 Cela indique que les 5% les plus performants ont obtenu au moins 361 points de plus que
les 5% les moins performants.
C90 − C10 = 287 Cela indique que les 10% les plus performants ont obtenu au moins 287 points de plus que
les 10% les moins performants.
C75 − C25 = 155 Cela indique que les 25% les plus performants ont obtenu au moins 155 points de plus que
les 25% les moins performants.
(b) Les rapports-intercentiles:
C95/C5 = 1.95756 Cela indique que les 5% les plus performants ont obtenu un score au moins 1.95 fois plus
élevé que les 5% les moins performants.
C90/C10 = 1.688249 Cela indique que les 10% les plus performants ont obtenu un score au moins 1.68 fois
plus élevé que les 10% les moins performants.
C75/C25 = 1.318275 Cela indique que les 25% les plus performants ont obtenu un score au moins 1.31 fois
plus élevé que les 25% les moins performants.
(c) L’écart-type S et le coefficient de variation CV :
S = 111 CV = 0.1975089
3. (2.5pts). Comparez la série des données obtenues pour la Corée avec celle de l’OCDE (utilisez les différents
paramètres lorsqu’il est possible). Commentez!
i. Paramètres de position: Moyenne et les six centile.

A détailler

Conclusion: Les élèves Coréens sont plus performants que leurs homologues de l’OCDE.
ii. Paramètres de dispersion: L’écart-type, CV, les écarts-intercentiles, les rapports intercentiles.
(a) L’écart-type: n’est pas significatif ici, car les deux moyennes (celle de la Corée et celle de l’OCDE) sont
assez différentes.
(b) Le coefficient de variation: égale à 0.1975089 pour la Corée et 0.2052846 pour l’OCDE. Cela indique que
les niveaux des élèves Coréens sont moins dispersés que leurs homologues de l’OCDE.
(c) Les écarts-interdeciles:

A détailler

(d) Les rapports interdeciles:

A détailler

Conclusion: la variabilité des niveaux des élèves Coréens est moins importante que la variabilité des
niveaux des élèves de l’OCDE. En d’autres termes, les élèves Coréens ont des niveaux plus homogènes que
leurs homologues de l’OCDE.
iii. Paramètres de forme: Nous n’avons pas assez d’informations pour calculer l’un des paramètres de forme
étudiés dans notre cours.

Test Final: Statistique Descriptive Page 4 / 6


Exercice 3 (7 points)
Les données suivantes correspondent aux dépenses par élève (variable Y , en équivalents USD convertis sur la base des PPA), tous
services confondus (2009), et PIB par habitant (variable X, en équivalents USD convertis sur la base des PPA) dans 24 pays membres
de l’OCDE (Regards sur l’éducation OCDE 2012 ).

Pays X Y
16000


Allemagne 36 048 6 619
Angleterre 34 483 9 088
Australie 39 971 8 328
14000

Autriche 38 834 10 080


Belgique 36 698 8 341
Chili 15 107 2 981
12000

● Corée 27 171 6 658


Dépenses par élève

● ●
Danemark 38 299 11 166
Espagne 32 146 7 446
10000

● Estonie 19 789 5 493



● États-Unis 45 087 11 109
● Finlande 35 848 7 368
8000

● ●


● ● France 33 724 6 373
● ● Hongrie 20 154 4 467
● ● Irlande 39 750 8 219
6000


Italie 32 397 8 669

● Japon 32 324 7 729

Luxembourg 82 972 16 494
4000


Norvège 54 708 11 833
Pays-Bas 41 089 7 917

Pologne 18 910 5 302
Portugal 24 935 5 762
20000 30000 40000 50000 60000 70000 80000 Rép. Tchèque 25 614 4 196
Suède 37 192 9 382
PIB par habitant

On donne:
24
X 24
X 24
X 24
X 24
X
xi = 843 250, yi = 191 020, x2i = 33 919 472 926, yi2 = 1 712 846 504, xi yi = 7 552 938 733.
i=1 i=1 i=1 i=1 i=1

1. Quelle est la nature de chacune des deux variables X et Y ?


2. Quelle relation entre les deux variables, le nuage de points indique t-il?
3. Calculez les variances s2x et s2y , la covariance Sxy et le coefficient de corrélation r. Interprétez le coefficient r. Cette
interprétation concorde-t-elle avec celle de la question 2?

4. Déterminez l’équation de la droite de regression de Y en X. Sur le graphique ci-haut, tracez cette droite ainsi que le
centre de gravité (x̄, ȳ).
5. Si le PIB par habitant de la Grèce est de 29 381 $, estimez les dépenses par élève de la Grèce.
6. Que vaut le coefficient de détermination r2 . Quelle interprétation pouvez-vous en donner ?
2 2
7. Calculez la variance résiduelle Sy·x , ainsi que la variance expliquée par la régression Sreg . Commentez.

Solution:
1. (0.5pts). Quantitatives continues.

2. (0.5pts). Les deux variables sont linéairement liées et de façon positive.


3. (2.5pts). Rappelons que:

Test Final: Statistique Descriptive Page 5 / 6


24 24
!2
1 X 2 1 X 24 24
! 24
!
s2x = x − xi , 1 X 1 X 1 X
24 i=1 i 24 i=1 Sxy = xi yi − xi yi
24 i=1 24 i=1 24 i=1
24 24
!2
1 X 2 1 X Sxy
s2y = y − yi , r =
24 i=1 i 24 i=1 sx sy

Par conséquent:
.5pts s2x = 178 813 868, .5pts Sxy = 35 057 143,
.5pts s2y = 8 020 270, .5pts r = 0.9257238.

.25pts Vu que r est proche de 1 et compte tenu du nuage de points, les deux variables sont fortement liées et
d’une façon positive.
.25pts Cela confirme la réponse à la question 2.
4. (1.25pts). L’équation de la droite de regression de Y en X, a pour forme, y = a + bx, ici on a:

.25pts a = ȳ − bx̄ = 1 070.734,


Sxy
.25pts b= s2x = 0.1960538,
.25pts par conséquent, l’équation de la droite de régression de Y en X est:

y = 1 070.734 + 0.1960538 × x,

ou d’une manière équivalente:

“Dépenses par élève” = 1 070.734 + 0.1960538 × “PIB par habitant” ,

.25pts Traçons la droite de regression sur le graphique ci-dessus (voir le graphique ci-dessus).
.25pts Plaçons le point centre de gravité (x̄, ȳ) (voir le graphique ci-dessus).
5. (0.5pts). Si le PIB par habitant de la Grèce est de 29 381 $, ses dépenses par élève sont estimées à

1 081.079 + 0.1963334 × 29 381 = 6 830.991 $.

6. (0.25+0.5pts). Le coefficient de détermination r2 est une mesure du pouvoir prédictif de la variable


explicative X. Il indique la portion de la variabilité de Y expliquée par la dépendance linéaire de Y en X, il
permet donc d’évaluer la qualité d’ajustement, plus il sera proche de 1 meilleur sera l’ajustement. Ici
r2 = 0.8569645, environ 85.69% des variations des dépenses par élève entre les pays sont expliquées par l’influence
linéaire du PIB sur ces dépenses. Ce qui implique que le modèle utilisé est d’une meilleur qualité d’ajustement.
2
7. (1pts). La variance résiduelle Sy·x quantifie les fluctuations de la variable Y non expliquées par la droite de
2
regression. Plus la dépendance linéaire de Y en X est intense, plus Sy·x est faible. Ici,
2 2 2
Sy·x = (1 − r )sy = 1 147 183 est petite en comparant avec la variance totale des dépenses (=8 020 270). Elle ne
représente que 13.53% de Sy2 , cela confirme la bonne qualité de l’ajustement obtenu.
2
La variance expliquée par la régression Sreg = r2 s2y = 6 873 087 représente une part importante (86.47%) de la
2
variance totale Sy .

Test Final: Statistique Descriptive Page 6 / 6