Vous êtes sur la page 1sur 10

Statistiques

descriptives
et échantillonnage
Chapitre 6
Ce chapitre comporte deux parties distinctes : la statistique descriptive
(parties 1 et 2), et la statistique inférentielle (partie 3). La statistique
descriptive reprend pour l’essentiel ce qui a été déjà vu au collège, alors
que la statistique inférentielle est nouvelle pour les élèves. Les fréquences
cumulées décroissantes ne sont pas traitées dans le cours, mais en exercices.
Pour la partie inférentielle, le point important est la notion de fluctuation
d’échantillonnage. Cette notion est introduite dans les activités
d’introduction 2 et 3. Cette partie est ensuite largement reprise à la fin
du chapitre à travers les TD et TP.

• dans le cas des études génétiques, le


fait que l’analyse statistique des « pedi-
Ouverture grees » (étude de la présence d’une
maladie sur plusieurs générations d’une
Actuellement, on est capable de placer des même famille et étude des chromosomes
milliers de réactifs sur une surface d’un centi- de cette famille) est compliquée par le
mètre carré et d’étudier ainsi quels gènes fait que chaque parent ne transmet pas
travaillent dans quels tissus, quelle est l’in- à ses enfants ses chromosomes mais une
fluence des conditions expérimentales… Les recombinaison de ceux-ci, d’où l’usage
mesures effectuées fournissent un nombre de la statistique des processus.
considérable de données numériques et
seules des analyses statistiques peuvent les
traiter et étudier ainsi les liens entre gènes et
maladies. À travers la statistique, la biologie Pour bien commencer
jouera peut-être un rôle analogue au rôle
tenu par la physique au cours des siècles : Exercice 1
offrir un champ d’application aux théories
1. 100 − (12 + 25 + 33 + 28) = 2.
récentes et favoriser l’apparition de nouveaux
2. a/
outils théoriques.
Ce chapitre est une modeste initiation aux Nombre de boîtes
statistiques, cependant la partie échantil- 33
lonnage permet aux élèves d’entrevoir l’im-
28
portance des statistiques dans les « prises de 25
décision » qu’elles soient industrielles, médi-
cales, économiques….
Les questions posées mettent l’accent sur 12
deux difficultés (parmi de nombreuses) ren-
contrées par les statisticiens :
• assurer que les enquêtes (et donc les 2
© Éditions Belin 2010

études et conclusions qui en découlent), 915 919 923 927 931 935
ne concernent que le phénomène étudié ; Masse (en g)

68
Chapitre 6 ■ Statistiques descriptives et échantillonnage
2. b/ Le tableau statistique permet de visua- et 3 abordent la notion de fluctuation d’échan-
liser rapidement les données numériques tillonnage, d’abord à « la main » (activité 2),
alors que l’histogramme permet de visuali- puis l’aide d’une calculatrice (simulation dans
ser rapidement la distribution de la série, et l’activité 3).
plus particulièrement la différence en pro-
portion des différents effectifs des classes Activité 1
(en faisant évidemment attention à l’ampli- 1. a/ 89 345 + 44 811 = 134 156.
tude des différentes classes). 89 345 + 44 811+ 26 975 + 17192
b/ × 100
89 345 + 44 811+ 26 975 + 17192 + 7 887 + 1015 + 241
Exercice 2
1. La proportion de 2 obtenue par Marie 178 323 × 100
= ≈ 95 %.
lors des 50 lancers est égale à 12 %. 187 466
2. 1 − (0,24 + 0,12 + 0,17 + 0,08 + 0,19) = 0,2. 2. a/
3. a/ Vrai car 0,24 > 0,2. Voilier
12 Nombre Pourcentage
d’une longueur
b/ Faux car : = 0,24 ≠ 0,12 ou bien (en m) de de
50 navires navires
inférieure à
12 ≠ 0,12 × 50 = 6. 0 0 0
6 89 345 47,66
Exercice 3
8 134 156 71,56
a/ Fréquentation du cinéma sur 6 mois
10 161 131 85,95
25 % 12 178 323 95,12
23
20 15 186 210 99,33
19 19
18 187 225 99,87
15 24 187 466 100
13
10 10 10 b/
6 100 %
5
80
0
0 1 2 3 4 5 6
Nombre de sorties 60
10 × 0 + 19 × 1+ 23 × 2 + 13 × 3 + 19 × 4 + 6 × 5 + 10 × 6
b/ = 2,7. 40
100
c/ Médiane = 2 ; 1er quartile = 1 ; 20
Longueur (en m)
des voiliers
3e quartile = 4. inférieure à
0
0 5 10 15 20
c/ Médiane ≈ 6,2 m, 1er quartile ≈ 3,1 m et
n 3e quartile ≈ 8,5 m.
Activités d’introductio
Activité 2
Commentaires 1. a/ Commentaires : l’objectif de cette ques-
tion est de soulever les a priori des élèves sur
Les trois activités permettent d’aborder les la notion de hasard. Les réponses des élèves
notions nouvelles de la classe de seconde seront variées. Bien que les trois séries aient
en statistiques. L’activité 1 introduit les fré- la même probabilité d’être obtenue, il est
© Éditions Belin 2010

quences cumulées et leur application dans le conseillé de ne pas donner la réponse tout de
calcul de la médiane, alors que les activités 2 suite et de revenir à cette question en 2. c/.

69
Chapitre 6 ■ Statistiques descriptives et échantillonnage
b/ Commentaires : cette question va encore 3. Les résultats étant du même type que le
soulever des réponses variées qui permet- lancer de dé, on admet que la calculatrice
tront une discussion au sein de la classe. simule correctement un dé.
Il conviendra certainement de dégager au
terme de l’échange, que « probable » peut
se comprendre de deux façons différentes :
es
Quelle est la fréquence que l’on obtient le
plus fréquemment (5/30) ou bien un des
Exercices et problèm
résultats est-il impossible (notion de fluc-
tuation d’échantillonnage) ? Comme pour EFFECTIFS ET FRÉQUENCES
la question précédente, il est conseillé de ne
pas donner la réponse tout de suite et de ni
1 a/ Oui, car f = avec n i 艌 0, N ⬎ 0 et
revenir à cette question en 2. c/. N
2. a/ et b/ Il faut regrouper les données dans n i 艋 N.
un tableau, puis établir un diagramme en b/ Faux : effectif = fréquence × effectif total.
bâtons. c/ Faux, la somme des fréquences est égale
c/ Voir commentaires précédents. à 1.
d/ une – six – plusieurs – même. 5 5 1
3. b/ On pourra une nouvelle fois faire 2 a/ = = .
5+7+ 4+ 4 20 4
remarquer aux élèves la fluctuation des fré- 12 3
quences d’échantillonnage autour de 0,5. b/ Fréquence cumulée croissante : = .
20 5
On trouve un résultat proche de 0,5 car il
y a autant de chiffres pairs que de chiffres « .. douze … inférieur ou égal à … »
impairs. 3 La représentation graphique est fausse.
c/, d/ et e/ Les fréquences étant ordonnées Le graphique est un histogramme, l’ampli-
dans la liste de la calculatrice, les élèves tude de la classe [6 ; 12] est 6, alors que
comptent le nombre de valeurs inférieures les autres amplitudes sont égales à 3, il faut
et supérieures aux bornes de l’intervalle. On donc diviser l’effectif de la classe [6 ; 12]
devrait trouver plus de 95 % des fréquences par 2. Le rectangle de hauteur 40, devrait
qui appartiennent à l’intervalle. donc avoir une hauteur de 20.
Activité 3 5 a/
1. Exemple de suite possible : 4 ; 6 ; 5 ; 5 ; Modalités
4;5;1;2;4;1;3;6;4;3;2;4;4;5; inférieures 0 4 6 10 20
3 ; 6 ; 5 ; 2 ; 3 ; 2 ; 6 ; 4 ; 2 ; 4 ; 4 ; 1. ou égales à
2. a/ Effectif
0 5 22 30 55
cumulé
Fréquence
0,3 Fréquence 1 2 6
cumulée 0 ≈ 0,09 ≈ 0,4 ≈ 0,54 1
0,25 croissante 11 5 11

0,2 b/
0,15 Modalités
inférieures 0 100 150 300 500
0,1 ou égales à
Effectif
0,05 cumulé
0 242 784 1 616 1 739

0 Fréquence 242 784 1616


1 2 3 4 5 6 cumulée 0 1
1739 1739 1739
© Éditions Belin 2010

Chiffre obtenu croissante ≈ 0,14 ≈ 0,45 ≈ 0,93


b/ Voir activité 2, 3. e/.

70
Chapitre 6 ■ Statistiques descriptives et échantillonnage
7 Effectifs 12 a/ 50 ; inférieures ou égales.
15
a/ b/ 25 ; inférieures ou égales.
c/ 75 ; inférieures ou égales.
10
17
5 15 ≈ 0,6.
27
0
0 2 4 6 5 10 26
Modalités
16 ≈ 0,81 h.
32
b/ Effectifs
10 20 200
17 ≈ 306 km par jour.
8 66
6
19 a/
4
Modalités inférieures
2 ou égales à
2 3 4 5
0 Effectif cumulé
0 2 4 6 8 Modalités croissant
2 12 19 22

8 0,12 × 2 123 = 254,76 ; Médiane = 3.


donc 255 malades. b/
9 0,55 × 750 = 412,5 ; Modalités inférieures
ou égales à
20 22 26 28
donc 412 ou 413 chevreuils.
Effectifs cumulés
10 a/ Même s’il s’agit d’une catégorie plus croissants
5 23 46 53
âgée, l’amplitude de la classe est a priori
Médiane = 26.
plus grande, d’où la fréquence plus impor-
tante. 20 Avec les données de l’exercice 13 :
b/ Effectifs (en %) médiane = 2.
14 Avec les données de l’exercice 15 :
12 médiane = 0.
10
8 22 Avec les données de l’exercice 13 :
6 1er quartile = 1 et 3e quartile = 3.
4 Avec les données de l’exercice 15 :
2 1er quartile = 0 et 3e quartile = 1.
0 Avec les données de l’exercice 19 :
0 10 20 30 40 50 60 70 80 90 100 a/ 1er quartile = 3, 3e quartile = 4.
Âge (en année) b/ 1er quartile = 22, 3e quartile = 26.
Remarque : on peut estimer que le nombre
de centenaires est négligeable et donc consi- 24
dérer que la dernière modalité est la classe Modalités
d’étendue 75–100 donc d’amplitude 25. inférieures 0 6 12 24 48
ou égales à
Fréquence
CARACTÉRISTIQUES cumulée
croissante
0,44 0,83 0,93 0,96 1
pour les garçons
11 Les justifications sont des propriétés du
Fréquence
cours. cumulée
© Éditions Belin 2010

croissante
0,21 0,62 0,82 0,92 1
a/ Faux ; b/ vrai (s’il y a au moins 3 valeurs) ;
pour les filles
c/ vrai ; d/ vrai ; e/ vrai ; f/ faux.

71
Chapitre 6 ■ Statistiques descriptives et échantillonnage
2. a/ c/ Soit M la longueur du plus grand bateau.
Fréquence cumulée croissante ⎛38 + M⎞
451× 14 + 20,5 × 662 + 76 × 315
, + 59 × ⎜
⎝ 2 ⎟⎠
1 21, 4 =
451+ 662 + 76 + 59
0,75 ⎛1248 × 21, 4 − 22 279 ⎞
Donc M = ⎜ − 38⎟ 2 + 38 ≈ 112.
⎝ 59 ⎠
0,5
 36 × 211+ 150
32 x = ≈ 36,54 €.
0,25 212
0 33 1. Q1 = 3 ; M = 7 ; Q3 = 11.
0 10 20 30 40 50 2. a/
Nombre de livres par an
fréquences cumulées croissantes des garçons Nombre De 0 De 3 De 6 De 9 De 12
de paniers à2 à5 à8 à 11 à 13
fréquences cumulées croissantes des filles
Nombre 8 12 23 23 6
L’intersection des courbes avec les droites de matchs
d’équation y = 0,5 ; y = 0,25 et y = 0,75
permet, à la précision de lecture près, de b/
Effectif cumulé croissant
répondre à la question. 80
Garçon : Q1 = 0 ; M ≈ 1 ; Q3 ≈ 4,9. 70
Fille : Q1 ≈ 0,6 ; M ≈ 4,3 ; Q3 ≈ 10. 60
b/ Les filles lisent beaucoup plus que les
50
garçons (4,3 > 1), et la pratique de la lecture
40
est beaucoup plus hétérogène chez les filles
que chez les garçons : intervalle interquartile 30
pour les filles = 9,4 et celui des garçons = 4,5. 20
10
26 Oui pour la hauteur car les moyennes et 0
médianes sont plus grandes avec les graines 0 2 4 6 8 10 12 14
modifiées. Nombre de matchs
En grande partie pour l’homogénéité car Q1 ≈ 4,3 ; M ≈ 6,8 et Q3 ≈ 9,3.
l’intervalle interquartile est plus petit avec 3. a/ Oui pour la médiane, non pour les
les graines modifiées (57 − 50 ⬍ 70 − 40). quartiles.
b/ Celles de Christine. En regroupant par
28 Voir les corrigés des exercices corres- classe, on gagne en clarté pour la présentation
pondants. des données, mais on perd en précision des
calculs des caractéristiques.

110, 3 c/ classe.
30 1. x = = 11,03 V.
10
34 a/ 10 − 1 = 9.
2. a/ Celle de 3 V. 
b/ x =
 110, 3 − 3 14 + 2 × 25 × 3 × 31+ 4 × 29 + 5 × 13 + 6 × 9 + 35 + 16 + 9 + 10
b/ x = ≈ 11,9 V. ≈ 3,55.
9
130
31 a/ Il y a, proportionnellement, beaucoup c/ et d/ Q1 = 2 ; M = 3 et Q3 = 4.
plus de petits bateaux (longueur inférieure à
9 mètres) que de gros bateaux. ÉCHANTILLONNAGE
b/ Oui, près de trois quarts des bateaux sont
des bateaux de moins de 12 mètres, d’où 35 a/ Faux, il faut un tirage avec remise.
© Éditions Belin 2010

une moyenne de 9,7 mètres sur l’ensemble b/ Vrai. c/ Faux. d/ Vrai, ou plus exac-
des bateaux. tement, il y a au plus 5 % de chance.

72
Chapitre 6 ■ Statistiques descriptives et échantillonnage
5
37 = 0,125 et 12,5 ∈ I, on admet que le des fréquences des boules bleues dans cha-
40 cune des urnes.
fabricant n’a pas respecté le pourcentage de 20
carreaux rouges au seuil de 95 %. 2. × 150 = 100.
30
Remarque : la proportion de 5 % de carreaux
20
et l’échantillon de taille 40 correspondent à 3. a/ Oui car ≈ 0,67, soit 67 %, appar-
des conditions qui sont loin de celles habi- 30
tuellement retenues (n > 25 et 0,2 < p < 0,8). tient aux deux intervalles.
Une simulation avec 10 000 échantillons b/ Pour U1 et U2, I = [0,48 ; 0,85].
permet néanmoins de retrouver aproxima- 43 En considérant que la proportion annon-
tivement l’intervalle donné.
cée est vraie, l’intervalle de fluctuation est égal
39 Les hypothèses implicites sont : à [0,32 ; 0,68], il y a donc environ 95 chances
L’autoroute est très fréquentée toute la sur 100 que le nombre de boules blanches soit
journée, et donc les 350 voitures peuvent compris entre 9 et 20. On ne peut donc pas,
être assimilées à un échantillon. sur ce tirage, suspecter une fraude.
La proportion de voitures de la marque pré- Remarque : de toute façon même si Axel
férée de Jérémy sur la journée est proche n’avait tiré que 8 boules bleues on ne pour-
de celle trouvée par Jérémy pendant ses rait rien affirmer puisque (au plus) 5 % des
5 minutes (Cette hypothèse paraît raisonnable fréquences peuvent être en dehors de l’inter-
car un grand nombre de voitures est passé valle.
pendant une durée relativement courte).
Intervalle de confiance en pour-cent :
⎡⎛ 28 1 ⎞ ⎛ 28 1 ⎞ ⎤ SUR L’ENSEMBLE DU CHAPITRE
⎢⎜⎝ − ⎟⎠ × 100 ; ⎜⎝ 350 + ⎟⎠ × 100⎥
⎣ 350 350 350 ⎦
= [2,65 ; 13,34]. 45 Il y a 12 têtes sur 32 cartes, donc on peut
utiliser ALEA.ENTRE.BORNES(1;8), et choisir
40 Intervalle de fluctuation I en pour-cent : que les entiers 1, 2 ou 3 correspondent aux
⎡⎛ 1 ⎞ ⎛ 1 ⎞ ⎤ têtes.
⎢⎜⎝0,5 − ⎟⎠ × 100 ; ⎜⎝0,5 + ⎟⎠ × 100⎥
⎣ 150 150 ⎦ 47 Remplacer « Si L[i] < S alors » par
= [41,83 ; 58,16]. « Si L[i] > S alors ».
72
= 0,48 et 0,48 ∈ I, donc on admet au 49 a/
150
seuil de 95 % que le fabricant a respecté la Fréquence cumulée croissante
1
proportion de confetti de 1 cm de diamètre.
0,8
41 Si [a ; b] est l’intervalle de fluctuation en
0,6
a +b ⎛ 200 ⎞ 2
pour-cent : p = et n = ⎜ .
⎝ b − a ⎟⎠
0,4
2
a/ p = 26 et n = 10 000. 0,2
b/ p = 37,5 et n = 331. 0
c/ p = 70,3 et n = 2 268. 0 0,1 0,2 0,3 0,4 0,5 0,6
d/ p = 92,65 et n = 33 058. Fréquence de 1 ou 6
b/ Si le dé est équilibré, la fréquence théo-
42 1. Non, du fait de la fluctuation d’échan-
1
tillonnage. rique est égale à p = . L’intervalle de fluc-
2 3
Remarque : on peut juste affirmer que est
© Éditions Belin 2010

3 tuation est donc approximativement égal à


commun aux deux intervalles de fluctuation [0,23 ; 0,43] au seuil de 95 %.

73
Chapitre 6 ■ Statistiques descriptives et échantillonnage
Or d’après le graphique précédent, la fré- b/ Graphiquement, on obtient (voir figure
quence d’échantillon appartenant à cet ci-dessous) :
intervalle de fluctuation est à peu près égale M ≈ 11,4 ; Q1 ≈ 9 et Q3 ≈ 12,3.
à 0,82 − 0,29 = 0,53 ; soit une fréquence c/
bien plus élevée que les 5 % attendus. Le dé Heure [7 ; 8[ [8 ; 9[ [9 ; 10[ [10 ; 11[ [11 ; 12[ [12 ; 13[
ne paraît donc pas équilibré. Fréquence
8 16 10 6 25 35
en %
50 1. a/ La formule donne le nombre de
données qui sont strictement inférieures à 2. a/
30 dans la plage A1 à A100. Heure [7 ; 8[ [7 ; 9[ [7 ; 10[ [7 ; 11[ [7 ; 12[ [7 ; 13[
b/ La formule donne un entier au hasard Fréquence
entre 1 et 50. cumulée
8 24 34 40 65 100
c/ La formule prend la partie entière d’un croissante
en %
réel choisi au hasard entre 0,2 et 1,2 ; la
fonction renvoie donc 0 ou 1. b/
2. a/ et b/ Si une urne contient 50 boules Fréquence cumulée (en %)
dont 29 boules rouges, et si l’on tire
100 décroissante
100 boules avec remise, la plage A1-A100
contient des entiers choisis au hasard entre
80
1 et 50 que l’on trouve avec la formule b/,
et la formule a/ donne le nombre de boules
60
rouges que l’on a obtenu sur les 100 tirages. croissante
c/ Le tirage d’une boule blanche dans une 40
urne contenant 80 % de boules blanches. Le
zéro renvoyé par la formule correspond au 20
tirage d’une boule blanche.

8 0
51 1. ≈ 0,13. 7 8 9 10 11 12 13 Heure
60
 c/ L’abscisse du point d’intersection repré-
2. a/ et b/ x ≈ 14,38 ; Q1 = 12 ; M = 14 et sente la médiane de la série.
Q3 = 16.

3. x ≈ 14,9 ; Q1 = 14 ; M = 15 et Q3 = 16. 53 1. 0,25 × 32 = 8.
Oui, on peut considérer que le réglage corres- 2. 0,75 × 30 = 22,5 donc 23 élèves ont une
pond aux exigences du fabricant. Cependant note inférieure ou égale à 17, donc 7 élèves
les extrêmes (10 et 19) sont plus représentés ont une note strictement supérieure à 17.
(3 + 4) que dans la série précédente. 3. a/ On fait l’hypothèse qu’un quart des
⎡⎛ 15 1 ⎞ ⎛ 15 1 ⎞⎤ notes sont réparties uniformément entre la
4. a/ ⎢⎜ − ⎟ ;⎜ + ⎟⎥ valeur minimale et le premier quartile, un
⎣⎝ 60 60 ⎠ ⎝ 60 60 ⎠ ⎦
= [0,12 ; 0,38], on a donc, dans 95 % des quart entre premier quartile et médiane, un
cas, entre 7,2 et 22,8 balles par minute. quart entre médiane et troisième quartile et
b/ Avant et après réglage, toutes les valeurs le dernier quart entre troisième et quartile et
sont dans l’intervalle de fluctuation, on peut valeur maximale.
donc considérer que l’on a une fréquence Moy(2de 1) ≈ 0,25(6 + 8,5 + 12,5 + 17,5)
de tirs de 15/60 par seconde en moyenne. = 11,125
Moy(2de 2) ≈ 0,25(9 + 10,5 + 14 + 18)
52 1. a/ La fréquentation est la plus impor- = 12,87
tante lorsque la pente des droites est la plus b/ Ces moyennes ne sont pas précises, car
grande donc la fréquentation est la plus l’hypothèse que les notes sont uniformément
© Éditions Belin 2010

importante entre 11 h et 13 h, puis entre réparties entre chaque caractéristique peut


8 h et 9 h. s’avérer très fausse.

74
Chapitre 6 ■ Statistiques descriptives et échantillonnage
n −1
54 1. a/ Liste 1 – Nombre d’étapes : = 3. 56 1. a/ On peut calculer l’écart interquar-
2 tile ou l’étendue.
N° étape
Rang du plus
Nouvelle liste b/ Patrick : écart interquartile = 43 − 21 = 22
petit nombre
et étendue = 51 − 10 = 41.
1 3 3 ; 5 ; 11 ; 7 ; 2 ; 10
Jonathan : écart interquartile = 32 − 23 = 11
2 5 3 ; 5 ; 11 ; 7 ; 10 et étendue = 54 − 13 = 41.
3 1 10 ; 5 ; 11 ; 7 Si on ne prend pas en compte les extrêmes,
Le plus petit nombre de la dernière liste est Jonathan est plus régulier que Patrick car son
5, qui est bien la médiane. écart interquartile est plus petit. Si on tient
n −1 compte des extrêmes (étendue) la différence
Liste 2 – Nombre d’étapes : = 3. est moins significative.
2
2. En tenant compte de la moyenne, c’est
Rang du plus  
N° étape
petit nombre
Nouvelle liste Patrick qui a gagné (x = 30,2 > x = 29,9).
1 7 2 ; 5 ; 2 ; 10 ; 3 ; 5 3. En tenant compte de la médiane, c’est Jona-
2 1 5 ; 5 ; 2 ; 10 ; 3
than qui a gagné (Med = 29 > Med = 27,5).
Le gagnant n’est donc pas le même.
3 3 5 ; 5 ; 3 ; 10
4. Patrick – parties – les moyennes
Le plus petit nombre de la dernière liste est Jonathan – 5 – la règle
3, qui est bien la médiane.
n −1 PROBLÈMES OUVERTS
b/ On enlève les valeurs les plus petites.
2
n −1 n 57 @ un fichier Excel corrigé est disponible
2. b/ On remplace par − 1.
2 2 sur www.libtheque.fr/mathslycee.
On affiche la moyenne des deux plus petits Remarque : puisque le tirage des boules du
nombres de la série tronquée. loto se fait sans remise, les 7 numéros ne
On note le rang. constituent pas un échantillon. Par contre,
c/ 30 tirages peuvent être considérés comme
un échantillon de taille 30 obtenu à l’aide
d’un tirage avec remise sur l’ensemble de
tous les tirages possibles.
Le site donné dans l’énoncé ne permet pas
de faire des simulations, mais simplement
d’obtenir les tirages. Pour utiliser l’algo-
rithme qui va suivre, on a besoin d’avoir les
valeurs ordonnées, le site de l’énoncé ne
donnant pas les tirages ordonnés, on pré-
férera (pour simplifier la feuille de calcul du
55 1. Non, car la valeur est obtenue sur un tableur) un site qui les donne comme par
échantillon. exemple : http://www.lotostat.com/tirages/
2. a/ L’intervalle correspond à une estima- loto.php.
tion au seuil de 95 % de la proportion de Remarque : ce site donne en réalité les tirages
personnes dans la population ayant une triés en ordre croissant pour les 6 numéros
déficience auditive. mais pas pour le complémentaire.
b/ Les milieux sont les valeurs de la 3e colonne. Sélectionner, et copier les tirages sur la page
internet, coller sur la feuille 1 dans un tableur
0,0052 × 0,9948
c/ 2 × 1,96 = = 0,0016 ; Copier les 7 numéros de chaque tirage et les
n coller dans la feuille 2 du tableur.
© Éditions Belin 2010

donc n = 31 000. Recommencer l’opération jusqu’à obtenir la


302 900
3. Population française = ≈ 58 250 000. taille de l’échantillon souhaitée.
0,0052

75
Chapitre 6 ■ Statistiques descriptives et échantillonnage
Remarque : les opérations précédentes fonc-
tionnent bien avec le navigateur Internet
Explorer 7, en revanche, le copier-coller avec Travaux encadrés
d’autres navigateurs peut rendre l’opération
beaucoup plus lourde.
Travaux pratiques 1
Pour repérer 2 numéros consécutifs dans un
tirage, on regarde si leur différence moins 1. @ fichier Excel corrigé disponible sur
un est égal à 0 (Colonnes H à L pour les www.libtheque.fr/mathslycee.
6 premiers numéros et colonnes M à R pour 2. On utilisera les fonctions :
le numéro complémentaire avec les autres MOYENNE, MEDIANE et QUARTILE.
numéros ). On compte ensuite le nombre de 3. Répartition des communes dans le Loir et
tirages dont le produit des différences est Cher en 2007 suivant le nombre d’habitants.
égal à 0 (Colonnes S et T). Le graphique dépend de la nature du dépar-
Sur l’exemple donné dans le fichier fourni, tement (rural ou non) et de ce que l’on veut
la proportion de tirages comportant des montrer. On pourra faire remarquer que le gra-
voisins est égale à 0,63 sur 59 tirages, l’in- phique idéal n’existe pas. La médiane est plus
tervalle de confiance est donc égal à adaptée que la moyenne pour un département
⎡ 1 1 ⎤ rural comme le Loir et Cher, car la médiane est
⎢0,63 − ; 0,63 + ⎥ = [0,5 ; 0,76] au égale à 551 et la moyenne à 1 158.
⎣ 59 59 ⎦
seuil de 95 %. Moins de 100
La bonne réponse semble être la réponse e/.
Entre 100 et 500
On peut montrer que la valeur exacte est :
Entre 500 et 1000
⎛ 43⎞ Entre 1 000 et 2 500
⎜⎝ 7 ⎟⎠
1− ≈ 0,62. On peut réduire l’intervalle Entre 2500 et 5 000
⎛ 49⎞ Entre 5 000 et 10 000
⎜⎝ 7 ⎟⎠
Plus de 10 000
en augmentant le nombre de tirages.
Travaux pratiques 2
58 Cet exercice ne comporte aucun aspect
numérique. Il est destiné à attirer l’atten- 1. a/ et b/ @ fichier Excel corrigé disponible
tion des élèves sur la difficulté de réaliser sur www.libtheque.fr/mathslycee.
des échantillons fiables dans les problèmes 2. Les résultats concernant les trois échan-
d’enquêtes ou de sondages. tillons sont différents et en particulier, les
On peut demander aux élèves de discuter au fréquences varient, c’est la fluctuation
moins deux aspects : d’échantillonnage.
• le choix des 1 000 habitants : est-il perti- 3. a/ et b/ Oui, la fluctuation d’échantillon-
nent de prendre 1 000 numéros de téléphone nage a une influence sur la médiane et la
au hasard ? Oublie-t-on certains habitants moyenne.
1
par ce procédé ? 5. grande – petite – . grande – stabilisent –
6
• le choix de son secrétariat comme orga- 1 1 1
nisme de sondage : les horaires d’appel sont-ils . . – probabilité – une – 6 – d’obtenir
6 6 6
compatibles avec des habitants travaillant tard
le chiffre 6.
le soir ? Ce secrétariat (dont on va modifier
les horaires ) est-il totalement neutre dans la
Travaux dirigés 1
façon de consulter les personnes ?
Il s’agit d’organiser un débat et d’expliquer 1. a/ C’est surtout le mot prévalence qui
© Éditions Belin 2010

pourquoi les instituts de sondage organi- risque de poser problème. Voici la définition
sent de manière très stricte leurs sondages. proposée par Larousse :

76
Chapitre 6 ■ Statistiques descriptives et échantillonnage
Rapport du nombre de cas d’un trouble 4. a/
morbide à l’effectif total d’une population, Durées comprises
[30 ; 50[ [30 ; 70[ [30 ; 90[ [30 ; 110[ [30 ; 150[
sans distinction entre les cas nouveaux et les entre
cas anciens, à un moment ou pendant une Fréquence
cumulée des 0,05 0,15 0,4 0,7 1
période donnés. communications
On pourra demander aux élèves de propo-
ser des exemples concrets. Ex. : nombre de b/ Fréquence cumulée croissante
1
Français atteints d’un cancer du poumon en
juillet 2010. 0,75
b/ et c/ Soit [a ; b] l’intervalle de confiance 0,5
calculé. Si b < 0,24, on pourra alors conclure
que la diminution s’est poursuivie (on fait 0,25 Durée
l’hypothèse que les élèves du lycée sont (en s)
0
représentatifs de l’ensemble des lycéens, ce 50 100 150
qui n’est pas forcément le cas). 5. a/ et b/ Médiane ≈ 98, Q1 ≈ 79 et
2. Les deux intervalles de confiances calculés Q3 ≈ 118, écart interquartile = 118 − 79 = 39.
à partir de 20 % et de 24 % sont disjoints,
Aide individualisée 2
puisqu’ils sont calculés sur un échantillon de
plus de 10 000 personnes. 1. Non, c’est la fluctuation d’échantillonnage.
2. Autour de 15.
Aide individualisée 1
3. a/ p = 0,5.
b/ Intervalle de fluctuation au seuil de 95 %
1. a/ Le caractère étudié est la durée en ⎡ 1 1⎤
seconde des communications que l’on a = ⎢p − ;p + ⎥. c/ [0,32 ; 0,68].
placé sur l’axe des abscisses. ⎣ n n⎦
7
b/ 200. 4. a/ ≈ 0,23 ; cette fréquence n’appartient
c/ 140. 90 ; 120. 60 ; 30. 30
d/ et 3. pas l’intervalle de fluctuation. Soit la pièce
n’est pas équilibrée, soit cet échantillon
Durée [30 ; 50[ [50 ; 70[ [70 ; 90[ [90 ; 110[ [110 ; 150[
fait partie des 5 % d’échantillons dont la
Nombre de fréquence n’appartient pas à l’intervalle de
10 20 50 60 60
communications
fluctuation au seuil de 95 %.
Fréquence 0,05 0,1 0,25 0,3 0,3
b/ Oui.
2. Effectif
Communiquer
70 2 250
1/ Proportion de filles : ≈ 0,59 ; propor-
50 tion de garçons : 0,41. 3 800
30 2/ Taper dans la plage A1 à A3800 la for-
Durée mule : « ALEA.ENTRE.BORNES(1;2) ».
10 (en s)
0 Compter le nombre de garçons en B1 avec
0 30 50 70 90 110 150 la formule : « NB.SI(A1:A3800 ;1) ».
3/ L’intervalle de fluctuation est :
Remarque : on a ici simplement divisé l’ef-
fectif de la dernière classe par deux pour ⎡ 1 1 ⎤
⎢0,5 − ; 0,5 + ⎥ ≈ [0,48 ; 0,52].
tenir compte de son amplitude double. On ⎣ 3 800 3 800 ⎦
pourra faire remarquer aux élèves que cette On s’aperçoit que les proportions de garçons
approche est légèrement différente de celle et de filles n’appartiennent pas à cet inter-
proposée en capacité, mais que dans les valle, il y a donc de très fortes chances que la
© Éditions Belin 2010

deux la contrainte est la même, l’aire des sous représentation des garçons ne provienne
rectangles est proportionnelle aux effectifs. pas de la fluctuation d’échantillonnage.

77
Chapitre 6 ■ Statistiques descriptives et échantillonnage

Vous aimerez peut-être aussi