Académique Documents
Professionnel Documents
Culture Documents
MATHÉMATIQUE FBC
MAT-3052-2
2e édition
COLLECTE DE DONNÉES
Tous droits de traduction et d’adaptation, en totalité ou en partie, réservés pour tous pays.
Tout usage en location ou prêt est interdit sans autorisation écrite et licence correspondante octroyée par la SOFAD.
Nonobstant l’énoncé précédent, la SOFAD autorise tout centre d’éducation des adultes qui utilise ce guide d’apprentissage
à reproduire les activités notées accessibles à partir du site de la SOFAD à l’adresse portailsofad.com.
Dans cette production, le masculin est utilisé sans aucune discrimination et uniquement dans le but d’alléger le texte.
Cet ouvrage est financé en partie par le ministère de l’Éducation et de l’Enseignement supérieur du Québec.
AUTOÉVALUATION 223
CONCLUSION 241
CORRIGÉ 242
1 Réaliser un sondage 243
2 Comparer des données 252
3 Les jeux de hasard 265
4 Utiliser des probabilités dans la vie courante 272
Autoévaluation 281
LEXIQUE 288
SOURCES ICONOGRAPHIQUES 296
FICHE DE COMMENTAIRES 297
IV
TABLE DES
CORRIGÉ
MATIÈRES
INTRODUCTION
Présentation RÉSOLUTION
Le
RÉSOLUTION
cours de mathématique Collecte de données
FBD
FBC
GUIDE D'APPRENTISSAGE
RÉSOLUTION
ACQUÉRIR DES SAVOIRS ET
FBD
MATHÉMATIQUE FBD
FBC
MATHÉMATIQUE
GUIDE D'APPRENTISSAGE
MATHÉMATIQUE
LES SITUATIONS D’APPRENTISSAGE
2e ÉDITION
MAT-3052-2 DE CE GUIDE VOUS PERMETTRONT :
COLLECTE
MAT-2102-3
MAT-3052-2
• de formuler des hypothèses et de les valider ;
PROG
U
UVEA E
AU NO RAMM
de dispersion et des probabilités ;
• de représenter des événements à l’aide de
diagrammes, d’arbres et de figures géométriques.
2e ÉDITION
MAT-3052-2
COLLECTE
MAT-2102-3
MAT-3052-2
le traitement de données. NOS OUTILS
DE DONNÉES
D’APPRENTISSAGE
DE DONNÉESGÉOMÉTRIQUES
La Résolution, voilà l’essence même de cette PROPOSENT :
collection en mathématique. Résoudre, c’est
explorer, découvrir, apprendre. C’est aussi utiliser • des activités théoriques et pratiques ;
son raisonnement et faire appel à ses connaissances
ET TRANSFORMATIONS
apprentissages par le formateur.
Le cours Collecte de données (MAT-3052-2)
est le deuxième cours du programme de
COLLECTE
SA1 Réaliser un sondage COLLECTION RÉSOLUTION
EN MATHÉMATIQUE FBD
population pour réaliser un sondage. Vous apprendrez aussi
SA2 Comparer des données
REPRÉSENTATIONS
SA3 Les jeux de hasard SECONDAIRE 3
ME
FOR AU
MAT-3051-2 Modélisation algébrique
SA4 Utiliser les probabilités dans la vie courante
CONNOUVE ME
et graphique
RÉSOLUTION
distributions pour les analyser et les comparer. De plus, vous ISBN 978-2-89493-697-9
Dans ce cours, vous serez amené à exercer votre compétence à raisonner. Vous ferez
des hypothèses et devrez chercher à les valider. Vous devrez justifier vos réponses à
l’aide d’arguments mathématiques, en prenant soin de présenter des démarches claires
et structurées. Vous serez également amené à exercer votre compétence à résoudre
des situations-problèmes. Vous devrez utiliser différentes stratégies et faire preuve
de persévérance pour surmonter les obstacles auxquels vous serez confronté.
Vous êtes maintenant invité à parcourir les quatre situations d’apprentissage de ce guide
qui vous permettront d’enrichir vos connaissances et de développer vos compétences en
statistique et en probabilité.
V
TABLE DES
CORRIGÉ
MATIÈRES
STRUCTURE DU GUIDE
ET CONSIGNES D’UTILISATION
Le présent guide a été conçu pour permettre un apprentissage en mode individualisé en établissement
ou à distance. Il s’appuie sur des enjeux de la société ou sur des situations de la vie courante qui, même
si elles sont parfois fictives, demeurent réalistes.
Cette orientation rendra votre cheminement concret puisque, tout en respectant votre rythme,
elle stimulera chez vous l’envie :
• de vous engager à plein dans cette démarche ;
• de développer encore davantage votre assurance par rapport aux opérations algébriques ;
• de mettre à profit votre propre expérience et vos connaissances ;
• de réinvestir les connaissances acquises dans la vie quotidienne.
Tout au long de votre formation, vous aurez des outils pour mesurer vos succès et pour déterminer
les moyens à prendre afin de surmonter les aspects qui vous sembleront plus ardus. Vous pourrez ainsi
progresser dans votre apprentissage et vous assurer de votre bonne compréhension des notions.
Votre formateur en établissement ou votre tuteur à distance demeure à votre disposition pour vous
soutenir et vous éclairer. Si un point vous semble plus difficile, n’hésitez pas à recourir à cette aide
précieuse, qui vous fournira, selon le cas, des conseils, des stratégies et des astuces pour vous permettre
de bien assimiler la matière.
VI INTRODUCTION
TABLE DES
CORRIGÉ
MATIÈRES
Une fois les exercices d’intégration terminés, vous pourrez réaliser l’activité de synthèse, qui vous
permettra de mettre en pratique vos compétences à communiquer et à raisonner avec logique.
Chaque situation d’apprentissage se termine avec une liste des nouveaux savoirs qui y ont été abordés.
C’est votre aide-mémoire des notions apprises.
LE SAVIEZ-VOUS ?
Au lexique
La rubrique Le saviez-vous ?
Les mots et expressions écrits ajoute un complément d’information.
en bleu sont définis dans le lexique Aucune question de l’épreuve d’évaluation
à la fin du guide. finale ne porte sur son contenu.
Astuce
La rubrique coiffée d’une ampoule présente
une astuce permettant de simplifier le travail.
ATTENTION !
RAPPEL
Le point d’exclamation
accompagne les paragraphes La rubrique Rappel contient des rappels
auxquels vous devez porter de notions ou de concepts préalables abordés
une attention particulière. dans des cours précédents.
À RETENIR
La rubrique À retenir,
coiffée d’un trombone,
liste des nouveaux savoirs
contient les éléments
La rubrique Liste des nouveaux savoirs
importants vus
résume les savoirs essentiels qui ont
précédemment.
été abordés.
La dernière section du guide vous propose une synthèse de l’ensemble du guide ainsi qu’une épreuve
d’autoévaluation dans le but de vous aider à déterminer si vous avez bien assimilé les apprentissages
réalisés et si vous êtes en mesure de vous présenter à l’évaluation finale. Cette section regroupe aussi
le corrigé de cette épreuve et celui des activités de chacune des situations d’apprentissage ainsi que
le lexique.
VII
TABLE DES
CORRIGÉ
MATIÈRES
Le tableau qui suit vous indique les thèmes qui sont évalués par chacune des activités et à quel moment
vous devez les réaliser.
Une fois que vous avez terminé une activité notée, il est important de la remettre à votre formateur
ou de la faire parvenir à votre tuteur aux fins de correction. Généralement, on ne remet qu’une seule
activité notée à la fois et on doit attendre qu’elle soit corrigée avant de remettre la suivante. Informez-
vous auprès de votre centre ou de votre commission scolaire.
L’autoévaluation
La dernière activité du guide consiste en une épreuve d’autoévaluation dont le but est d’évaluer
les connaissances acquises, de même que les compétences développées. Une grille d’autoévaluation
accompagne cette épreuve. Elle vous servira à déterminer les notions que vous maîtrisez et celles pour
lesquelles une révision s’impose avant de vous présenter à l’épreuve de sanction. Des indications sur
les notions à réviser sont fournies à même cette grille.
Avant de vous y attaquer, préparez-vous. Révisez les notions à l’aide des sections Liste des nouveaux
savoirs et assurez-vous d’avoir bien fait les exercices. Il est recommandé de faire cette activité sans
consulter le texte du guide ni le corrigé. Une fois l’autoévaluation terminée, comparez vos réponses
avec celles du corrigé et finalisez votre étude au besoin.
Le corrigé
Dans l’avant-dernière partie du guide, vous trouverez les corrigés de tous les exercices. Reportez-vous
à ce corrigé pour vous assurer que vous avez bien compris tous les concepts, et ce, avant de passer
à l’activité ou à la situation d’apprentissage suivante. À la fin de cette section se trouve le corrigé de
l’épreuve d’autoévaluation.
Notez qu’il n’y a pas de corrigé pour les questions liées aux explications. Seuls les problèmes numérotés
se trouvent dans le corrigé.
VIII INTRODUCTION
TABLE DES
CORRIGÉ
MATIÈRES
Le lexique
Le lexique constitue la dernière partie du présent guide. Vous y trouverez, classées en ordre alphabé
tique, les définitions des mots écrits en bleu dans les situations d’apprentissage. N’hésitez pas à le
consulter au fil de vos lectures afin de bien comprendre les termes et expressions qui s’y trouvent.
Matériel complémentaire
Ayez sous la main tout le matériel dont vous aurez besoin.
• Votre guide accompagné d’un cahier de notes où vous consignerez, en résumé, les notions
importantes à retenir, relatives à la liste des savoirs essentiels donnée dans l’introduction.
• Un dictionnaire, une calculatrice et un crayon à mine pour inscrire vos réponses et vos notes dans
votre guide, un stylo-bille de couleur pour corriger vos réponses, un surligneur pour mettre en
évidence les idées importantes, une gomme à effacer, etc. Pour effectuer certaines tâches, vous aurez
besoin d’instruments de géométrie, tels qu’une règle graduée en centimètres, un rapporteur, une
équerre et un compas.
Soutien à l’apprentissage
Que vous suiviez le cours en établissement ou à distance, votre démarche d’apprentissage ne se fera pas
en solitaire. En classe, vous aurez le soutien de votre formateur ; tandis qu’en formation à distance, vous
pourrez compter sur le soutien d’un tuteur, à votre disposition pour répondre à vos questions.
Le tuteur est la personne-ressource à qui vous ferez appel, et qui corrigera et commentera les trois
activités notées du cours. N’hésitez pas à l’interroger si vous éprouvez des difficultés avec la théorie ou les
exercices, ou si vous avez besoin d’encouragement pour poursuivre votre étude. Notez vos questions par
écrit au fur et à mesure qu’elles surgissent et communiquez avec votre tuteur par téléphone pendant ses
heures de disponibilité. Vous pouvez également choisir de lui acheminer, en tout temps, vos questions
par courriel. Si son horaire et ses coordonnées ne vous ont pas été transmis avec le présent guide,
demandez-les au centre de formation où vous avez fait votre inscription.
Votre tuteur est là pour vous guider tout au long de votre apprentissage et vous fournir l’information
susceptible d’assurer le succès de votre projet de formation.
IX
TABLE DES
CORRIGÉ
MATIÈRES
Informez-vous auprès de votre tuteur ou de votre formateur pour connaître le lieu, les horaires
et les modalités de passation de l’épreuve finale. Informez-vous aussi du matériel autorisé que vous
pouvez apporter.
X INTRODUCTION
TABLE DES
CORRIGÉ
MATIÈRES
SITUATION
1
Réaliser
un sondage
SAVOIRS ESSENTIELS
PRÉSENTATION · organiser et interpréter
P
des données statistiques;
ar téléphone, sur Internet ou en marchant dans un · construire et interpréter
centre commercial, combien de fois vous êtes-vous fait des tableaux de distribution;
demander : « Pouvez-vous prendre quelques minutes pour · représenter et interpréter
des graphiques (histogrammes).
répondre à un sondage ? » Si ça ne vous est jamais arrivé, vous
êtes sûrement une exception, car les sondages sont omniprésents
dans plusieurs domaines de la vie en société. Les politiciens,
pour prendre le pouls des électeurs, ne pourraient s’en passer.
Le sondage est aussi un outil indispensable des services de
marketing de plusieurs entreprises qui veulent connaître les
besoins et les préférences d’éventuels clients. C’est également
par des sondages que les chercheurs et les analystes en sciences
humaines essayent de mieux comprendre l’évolution de nos
habitudes de vie. Mais tous ces sondages sont-ils fiables ?
Est-il possible de connaître vraiment l’opinion de toute
une population à partir des réponses de quelques centaines
d’individus ? Si oui, comment s’en assurer ?
La présente situation
d’apprentissage vise à vous faire
© SOFAD - Reproduction interdite.
Pour la plupart des gens, Internet fait maintenant partie du quotidien, à des fins
personnelles, pour le travail ou pour les études. Cependant, certaines personnes
critiquent l’omniprésence du virtuel au détriment de la réalité. Si l’on passe plusieurs heures devant
son ordinateur, il n’en reste plus beaucoup pour passer du temps de qualité avec nos proches.
Posez-vous maintenant la question suivante : Internet prend-il trop de place dans ma vie ?
Précisez l’utilisation que vous en faites et le temps que vous y consacrez :
Il serait intéressant de poser cette question aux gens qui vous entourent, puis de comparer leurs
réponses. Notez que si l’on posait la même question dans un forum en ligne, les réponses seraient
probablement différentes de celles de votre entourage. Ce serait sûrement aussi le cas si l’on s’adressait
à une plus grande population qui regroupe des individus n’ayant pas nécessairement les mêmes
habitudes que vous.
Imaginez maintenant la situation suivante. La directrice d’un centre de formation voudrait connaître
à quelle fréquence et de quelle façon les adultes qui étudient dans son centre utilisent Internet.
Elle propose deux questions :
1) Pour quel type d’activités utilisez-vous principalement Internet ?
VOTRE TÂCHE
À partir des données qui vous seront fournies dans l’Activité synthèse et qui concernent
une population d’élèves adultes, vous devrez d’abord choisir un échantillon représentatif,
en tenant compte de la répartition des individus selon leur âge et leur sexe, puis collecter
les données en réponse aux deux questions proposées par la directrice. Il vous faudra ensuite
représenter ces données à l’aide de tableaux et de diagrammes appropriés. Vous devrez
enfin interpréter ces diagrammes afin de dresser un portrait de la situation.
EXPLORATION
SITUATION 1
Les questions suivantes vous permettront de réviser quelques concepts et processus concernant
les sondages. Au besoin, référez-vous au lexique pour vous remémorer le sens de certains mots.
1.1 Complétez le texte ci-dessous en plaçant chacun des mots suivants au bon endroit : caractère,
échantillon, population, recensement, sondage.
Une étude statistique porte sur un ensemble d’individus (personnes, êtres vivants, objets)
que l’on désigne par le terme . L’étude cherche à décrire au
moins un particulier des éléments de cet ensemble (par
exemple, le revenu annuel des personnes). Si l’on recherche l’information chez tous les
éléments de l’ensemble, il s’agit d’un . Toutefois, la plupart du
temps, il est plus économique et plus rapide de réaliser un en
recherchant l’information à partir d’un , qui est un sous-ensemble de
la population.
RAPPEL
Pour qu’un sondage ne soit pas biaisé, l’échantillon doit être représentatif
de la population étudiée. Il est donc important de porter une attention particulière
à différentes sources de biais :
• une population mal définie ;
• un échantillon trop petit ;
• des éléments de l’échantillon liés entre eux ;
© SOFAD - Reproduction interdite.
1.2 Les questions de sondage ci-dessous contiennent une ou plusieurs erreurs. Ce sont autant
de sources de biais qui peuvent invalider les résultats d’un sondage. Déterminez ces erreurs
et suggérez une façon de les corriger.
a)
Allez-vous souvent au théâtre ?
Oui Non
Erreur :
Correction possible :
Erreurs :
Correction possible :
c)
Avez-vous apprécié l’excellent reportage de notre journaliste sur le monde
interlope diffusé hier soir ?
Erreurs :
Correction possible :
RAPPEL
Voici deux méthodes d’échantillonnage probabiliste que vous avez déjà étudiées :
• Échantillonnage aléatoire simple : chacun des éléments de l’échantillon est tiré
au hasard dans la population. La probabilité d’être choisi est la même pour
tous les éléments de la population.
• Échantillonnage systématique : tous les éléments de la population sont inscrits
dans une liste. On choisit un élément au hasard parmi les n premiers éléments
de la liste, puis on ajoute chaque nième élément qui suit dans la liste.
b) Les 50 premières ampoules produites à partir d’une certaine heure choisie au hasard.
Méthode :
LE SAVIEZ-VOUS ?
En 1968, l’écrivain français Georges Perec a écrit un roman d’environ
La Dispar
300 pages, intitulé La Disparition. Ce roman est très particulier, ition
SITUATION 1
car il ne contient aucun e.
Cet écrivain original était membre de l’Oulipo, un groupe international
de mathématiciens et d’écrivains. Il a fondé la plupart de ses œuvres Georges
Perec
sur la notion de contraintes.
Anton Voyl n’arrivait pas à dormir. Il alluma. Son Jaz marquait minuit vingt. Il poussa
un profond soupir, s’assit dans son lit, s’appuyant sur son polochon. Il prit un roman,
il l’ouvrit, il lut ; mais il n’y saisissait qu’un imbroglio confus, il butait à tout instant sur
un mot dont il ignorait la signification. Il abandonna son roman sur son lit. Il alla à son
lavabo ; il mouilla un gant qu’il passa sur son front, sur son cou. Son pouls battait trop
fort. Il avait chaud. Il ouvrit son vasistas, scruta la nuit. Il faisait doux. Un bruit indistinct
montait du faubourg. Un carillon, plus lourd qu’un glas, plus sourd qu’un tocsin,
plus profond qu’un bourdon, non loin, sonna trois coups.
Astuce
Il est possible de simuler un tirage en générant des nombres aléatoires à l’aide d’un tableur.
En inscrivant la fonction ALEA dans une de ses cellules, on obtient un nombre entre 0 et 1.
A A B B A A B B
1 1 =ALEA()
=ALEA() 1 1 0,81239627
0,81239627
=ALEA()
=ALEA()
2 2 2 2
3 3 3 3
Pour simuler un tirage dans une population de 2500 personnes, par exemple, il faut d’abord que ces personnes
© SOFAD - Reproduction interdite.
Anton Voyln arriv aitpa sàdor mirIl allum aSonJ azmar quait
minui tving tIlpo ussau nprof ondso upirs assit danss onlit
sappu yants urson poloc honIl pritu nroma nillo uvrit illut
maisi lnysa isiss aitqu unimb rogli oconf usilb utait àtout
insta ntsur unmot donti ligno raitl asign ifica tionI laban
donna sonro mansu rsonl itIla llaàs onlav aboil mouil laung
antqu ilpas sasur sonfr ontsu rsonc ouSon pouls batta ittro
pfort Ilava itcha udIlo uvrit sonva sista sscru talan uitIl
faisa itdou xUnbr uitin disti nctmo ntait dufau bourg Uncar
illon plusl ourdq uungl asplu ssour dquun tocsi nplus profo
Il n’y a aucun e dans cet extrait composé de 535 lettres, mais on y retrouve d’autres voyelles.
Quel pourcentage des lettres ces voyelles représentent-elles ?
SITUATION 1
18
chacun possède. 16
14
a) Selon vous, que signifie le mot effectif
12
inscrit le long de l’axe vertical ?
10
8
1 2 3 4 5
N OMBRE D’APPAREILS
2 appareils téléphoniques ?
4 appareils : 5 appareils :
ATTENTION !
Dans ce guide, comme c’est généralement le cas en statistique, le mot « fréquence » désignera
© SOFAD - Reproduction interdite.
ACTIVITÉ 1.1
Campagne électorale
EXPLORATION
BUT
• Organiser et interpréter des statistiques à l’aide des méthodes d’échantillonnage
stratifié et d’échantillonnage par grappes.
« Il faudrait s’assurer, dit l’une des bénévoles, que toutes les
catégories d’âge soient bien représentées dans l’échantillon,
car les personnes âgées n’ont pas les mêmes préoccupations
que les jeunes. »
Comment pourriez-vous vous assurer que votre échantillon soit conforme à la répartition
des âges des électeurs dans la circonscription ? Proposez une démarche.
Le tableau ci-dessous contient quelques informations concernant votre circonscription. © SOFAD - Reproduction interdite.
LE SAVIEZ-VOUS ?
Au Québec, lors des élections provinciales, chaque circonscription est divisée en sections
de vote contenant généralement entre 200 et 300 électeurs chacune. Lors d’une campagne électorale,
SITUATION 1
les candidats et leur parti reçoivent, pour chaque section de vote, une liste comprenant les noms
et prénoms des électeurs, leur date de naissance et l’adresse de leur domicile. Les candidats
se servent de ces listes pour joindre les électeurs afin de sonder leur opinion ou de les convaincre
de voter pour eux.
L’échantillonnage stratifié
Un échantillon a plus de chance d’être représentatif d’une population si celle-ci est homogène,
c’est-à-dire si les individus qui la composent sont semblables en ce qui concerne le sujet de l’étude.
Malheureusement, les populations parfaitement homogènes sont plutôt rares. Par contre, il arrive
parfois qu’une population puisse être partagée en groupes distincts, souvent plus homogènes que
la population elle-même. On dira alors que la population est fragmentée en strates.
Votre échantillon de 500 électeurs sera plus représentatif de la population si chaque strate,
c’est-à-dire chaque groupe d’âge, y est correctement représentée. Idéalement, il faudrait
que la fréquence de chaque strate de l’échantillon soit la même que dans la population.
Selon le tableau 1.1, les personnes de 18 à 29 ans représentent 6425 des 51 880 électeurs de la
circonscription. Dans la population, cela correspond à une fréquence de 6425 , soit environ 12,4 %.
51 880
Cette proportion doit être conservée dans l’échantillon : 12,4 % de 500 est égal à 62.
dans l’échantillon
6 425 12, 4 % × 500 ≈ 62
De 18 à 29 ans 6425 ≈ 12, 4 %
51 880
12 220
De 30 à 44 ans 12 220 ≈ ≈118
51 880
De 45 à 59 ans 17 575
60 ans et plus 15 660
Total 51 880 ≈100 % 500
9
TABLE DES
CORRIGÉ
MATIÈRES
La méthode d’échantillonnage stratifié est un procédé qui permet de s’assurer que l’échantillon
est partagé en strates selon les mêmes proportions que dans la population.
Pour construire l’échantillon de 500 personnes dans la présente situation, il faudrait donc choisir,
au hasard :
• 62 personnes dans l’ensemble des 6425 électeurs de 18 à 29 ans ;
• 118 personnes dans l’ensemble des 12 220 électeurs de 30 à 44 ans ;
• 169 personnes dans l’ensemble des 17 575 électeurs de 45 à 59 ans ;
• 151 personnes dans l’ensemble des 15 660 électeurs de 60 ans et plus.
La méthode d’échantillonnage stratifié est une méthode probabiliste, car elle est basée sur le hasard.
Dans le cas de cette campagne électorale, si vous utilisez la méthode d’échantillonnage stratifié,
chaque électeur, quel que soit son âge, aura approximativement la même probabilité d’être choisi.
SITUATION 1
la circonscription, car celle-ci couvre un très grand territoire.
Il propose alors une autre façon de procéder.
L’une des conditions, pour que la méthode proposée soit valable, consiste à s’assurer que
les caractéristiques socio-économiques des électeurs, pour l’ensemble des sections de vote,
soient semblables.
Ce ne serait pas le cas, par exemple, si certaines sections de vote étaient constituées majoritairement
de retraités, alors que d’autres seraient plutôt constituées d’étudiants. Le revenu des électeurs pourrait
aussi être un facteur à considérer. Certains quartiers dans une circonscription peuvent être plus
riches que d’autres, ce qui pourrait avoir un impact sur les opinions politiques. Pour que la méthode
soit valable, il faut que chaque section de vote ressemble à la population complète.
Lorsqu’une population est partagée en groupes ayant des caractéristiques semblables à celles
de la population au complet, ces groupes sont appelés des grappes. Ainsi, dans la présente situation,
chaque section de vote peut être considérée comme une grappe, dans la mesure où les conditions
© SOFAD - Reproduction interdite.
ATTENTION !
Les grappes et les strates sont deux façons bien différentes de diviser une population.
Il importe de bien les distinguer.
On parle de grappes si tous les groupes se ressemblent ; chaque groupe possède
alors toutes les caractéristiques de la population.
On parle de strates si tous les groupes sont différents ; chacun d’eux étant associé
à une caractéristique particulière de la population.
11
TABLE DES
CORRIGÉ
MATIÈRES
La méthode d’échantillonnage par grappes, lorsqu’elle est possible, est une façon économique
de construire un échantillon représentatif. Par contre, l’un des défauts de cette méthode est qu’elle
ne permet pas de prévoir exactement la taille de l’échantillon, puisque les grappes ne contiennent
pas nécessairement toutes le même nombre d’éléments.
Selon vous, quelles sont les sources de biais possibles de la méthode d’échantillonnage par grappes ?
Vous remarquez qu’il existe des sources de biais spécifiques à cette méthode. Par exemple, les grappes
sont souvent constituées d’éléments qui sont liés d’une façon ou d’une autre et qui ne sont donc
pas tout à fait indépendants les uns des autres. C’est le cas des sections de vote, puisque tous les
électeurs d’une même section de vote habitent le même quartier. Ces électeurs sont plus susceptibles
À RETENIR
MÉTHODES D’ÉCHANTILLONNAGE PROBABILISTE
Certaines études statistiques s’intéressent à des populations qui ne sont pas homogènes.
SITUATION 1
Dans ce cas, les éléments de la population présentent différents traits qui les distinguent
les uns des autres et qui peuvent avoir un effet sur le caractère étudié.
Par exemple : dans une population formée de personnes, les individus peuvent se distinguer
par leur âge, leur sexe, leur langue maternelle, leur niveau d’éducation, etc.
Pour construire un échantillon représentatif d’une population, il est possible de partager celle-ci
en sous-ensembles, appelés strates ou grappes, selon la nature des groupes formés.
Échantillonnage stratifié
On parlera de strates si chaque sous-ensemble est associé à une caractéristique particulière
de la population.
Exemple : Construire un échantillon de 50 personnes parmi les 450 adultes d’un centre
de formation, sachant que, parmi ces élèves, il y a 207 hommes et 243 femmes.
Description Exemple
Après avoir fragmenté la population Les hommes et les femmes constituent
en strates, on détermine le pourcentage des strates de la population
de l’échantillon qui sera choisi dans chaque dans les rapports suivants :
strate selon le rapport suivant : 207
Hommes : = 46 %
Taille de la strate dans la population 450
Taille de la population 243
Femmes : = 54 %
Les éléments de l’échantillon sont choisis au 450
hasard dans chaque strate selon la méthode L’échantillon sera constitué de 23 hommes, soit
d’échantillonnage aléatoire simple. 46 % de 50, et de 27 femmes, soit 54 % de 50,
choisis au hasard dans leur strate respective.
© SOFAD - Reproduction interdite.
Description Exemple
La population est partagée en grappes. Tenant compte du fait qu’il y a environ
On choisit un certain nombre de grappes 25 élèves par classe, on choisit 2 classes
au hasard en tenant compte de la taille voulue au hasard parmi toutes celles du centre.
de l’échantillon. Tous les éléments des grappes L’échantillon est constitué de tous les élèves
choisies font partie de l’échantillon. se trouvant dans les deux classes choisies.
13
TABLE DES
CORRIGÉ
MATIÈRES
1.7 Une organisation non gouvernementale (ONG) voudrait évaluer rapidement le nombre d’enfants
de 0 à 5 ans souffrant de malnutrition dans une région d’Afrique frappée par la sécheresse.
On estime qu’il y a environ 60 000 enfants de cet âge dans cette région, qui regroupe 178 villages
ayant des populations à peu près semblables. Les ressources médicales de l’ONG lui permettent
a) Selon vous, pourquoi la méthode d’échantillonnage aléatoire simple n’est-elle pas appropriée
dans cette situation ?
SITUATION 1
Côte-Nord et Saguenay–Lac-Saint-Jean 313 200
Bas-Saint-Laurent et Gaspésie–Îles-de-la-Madeleine 253 700
Capitale-Nationale et Chaudière-Appalaches 948 000
Mauricie et Lanaudière 620 200
Estrie et Centre-du-Québec 460 000
Montréal 1 666 600
Laval et Laurentides 800 000
Montérégie 1 216 100
Outaouais 307 700
Abitibi-Témiscamingue et Nord-du-Québec 152 400
Source : Institut de la statistique du Québec (année 2011).
Montérégie
Outaouais
Abitibi-Témiscamingue et Nord-du-Québec
b) Quelle est la probabilité que vous soyez l’une des personnes choisies dans votre région ?
Cette probabilité demeurerait-elle la même si vous habitiez une autre région ?
1.9 On doit aménager un parc dans un quartier résidentiel où vivent 112 ménages, dont 24 couples
d’adultes sans enfants et 88 familles avec enfants, constituées en moyenne de 4 personnes de 6 ans
et plus. Suggérez une manière de construire un échantillon de 50 personnes de 6 ans et plus, qui
permettra de sonder l’avis de cette population sur l’aménagement du parc.
ACTIVITÉ 1.2
SITUATION 1
Sur la scène municipale
BUT
• Construire et interpréter des tableaux à données condensées.
• Reconnaître les sources de biais dans la représentation et l’interprétation des données.
S S T N A G N N N T G R N T G G T A S G
T G R T N N A G G T A G A G T S N T T S
G A S S G N N S N G S A A A G G G N T R
N N A A S R A N G R N S N S R S T G N R
S T T G T T T T N S N N G G S N S A S G
T R G N S T N A A G T T R G G N G A G A
N N N N G N T N N R G T S G A G T G R N
A G N A T N R S G T G T N S N N A N N T
Signification des lettres :
G = Gagnon S = Smith T = Tremblay
A = aucun d’entre eux N = ne sait pas ou n’a pas d’opinion R = refus de répondre
© SOFAD - Reproduction interdite.
Le directeur du journal vous demande de rédiger un court article pour décrire et interpréter les résultats
de ce sondage.
17
TABLE DES
CORRIGÉ
MATIÈRES
Astuce
Pour compiler les résultats d’un sondage, G =36
surtout lorsqu’il y a plusieurs données, il peut S = 22
s’avérer pratique d’utiliser un tableau de compilation
T = 29
comme celui ci-contre.
A = 21
Une fois les résultats compilés, on peut les transposer N = 40
dans la colonne des effectifs.
R = 12
Le total des effectifs doit toujours être égal à la taille de l’échantillon, soit 160 dans ce cas-ci. Le rapport
de chaque effectif à ce total permet de calculer la fréquence correspondante que l’on exprime
généralement en pourcentage. Par exemple, puisque Léo Tremblay a récolté 29 intentions de vote, alors :
29
160
= 0,18125 ≈ 18 % des répondants.
ATTENTION !
Le total des pourcentages inscrits dans le tableau peut être légèrement inférieur
ou supérieur à 100 % en raison des arrondis de chacune des fréquences.
On indiquera alors que la fréquence totale est ≈ 100 %.
Pendant la rédaction de votre article, un collègue vous suggère d’exclure toutes les réponses
qui ne désignent pas l’un des candidats (c’est-à-dire les données A, N et R) afin de mieux comparer
l’appui que chacun d’eux a reçu.
SITUATION 1
Comment le pourcentage d’appui pour chaque candidat serait-il modifié
dans ce cas ?
Si l’on suit la suggestion du collègue de ne considérer que les réponses qui désignent un candidat,
le total des effectifs ne sera plus de 160, mais bien de 87, soit 29 + 36 + 22. Le pourcentage associé
à chacune de réponse sera donc différent, comme le montre le tableau 1.5. On obtient alors un tout
autre portrait de la situation.
Fréquence (%)
Modalité Effectif
après répartition
Mariane Gagnon 36 41
John Smith 22 25
Léo Tremblay 29 33
Total 87 ≈100
© SOFAD - Reproduction interdite.
ATTENTION !
Ne pas considérer les refus de répondre et les indécis dans la communication des
résultats d’un sondage a le même effet que de répartir ces réponses entre les candidats
proportionnellement à leur appui respectif. C’est pourquoi, lorsqu’on procède ainsi, on
spécifie généralement que les fréquences calculées ont été obtenues « après répartition ».
19
TABLE DES
CORRIGÉ
MATIÈRES
Le procédé suggéré par votre collègue peut être discutable, car il néglige une information importante :
près de la moitié des personnes interrogées, soit 73 sur 160, n’ont pas indiqué de préférence pour l’un
des candidats. Plusieurs personnes ont même spécifié qu’elles ne faisaient confiance à aucun d’eux
pour combattre la corruption. Ne pas tenir compte de ces réponses dans la présentation des résultats
est une source de biais évidente. Par exemple, il est faux de conclure que 1 personne sur 3 (environ
33 %) considère Léo Tremblay comme le plus apte à combattre la corruption. En effet, en observant
le tableau 1.4, on voit que c’est plutôt 18 %, soit moins de 1 personne sur 5, qui sont de cet avis.
La façon de considérer les indécis et ceux qui refusent de répondre est un problème délicat pour les
sondeurs. Choisir de les exclure du calcul des pourcentages, c’est poser l’hypothèse que ces personnes
n’auraient aucun impact sur les résultats si elles devaient finalement se prononcer. Or, cette hypothèse
n’est pas toujours valide. Il peut arriver que la majorité de ces gens aient des raisons particulières de ne
pas exprimer leur opinion. Ces raisons mises au jour peuvent changer complètement le portrait de la
situation.
LE SAVIEZ-VOUS ?
Selon plusieurs firmes de sondage, tant en Europe qu’en Amérique, il est de plus en plus difficile
de réaliser des sondages d’opinion fiables à l’aide d’un échantillon aléatoire, puisque le nombre
de gens qui refusent de répondre augmente continuellement chaque année. Des études statistiques
aux États-Unis ont montré que, actuellement, plus de la moitié des Américains, voire 80 %
dans certains cas, refusent de répondre à des sondages téléphoniques. Le taux de refus
est moins élevé au Québec, mais il est également en hausse.
Dans votre article, vous devez mettre en évidence les résultats de ce sondage qui vous paraissent
les plus pertinents. Écrivez deux ou trois conclusions qu’il est possible de tirer des données recueillies.
Malgré les sources de biais à considérer, il est tout de même possible d’écrire un article fiable sur ce
sondage. On pourrait, par exemple, en tirer les conclusions suivantes :
• Parmi les trois candidats, c’est en Mariane Gagnon en qui les gens on le plus confiance pour
combattre la corruption.
• John Smith est celui qui reçoit le moins d’appui sur cette question.
• 13 % des personnes interrogées ne font confiance à aucun des 3 candidats et 33 % ne savent pas ou
ont refusé de répondre à la question. Il s’agit là d’un taux élevé de non-répondants qui permet de
douter de la crédibilité du sondage.
Le titre de l’article devrait mettre en évidence l’information la plus importante. Cependant, il n’y a pas
de critères objectifs pour décider quelle information est justement la plus importante. Cela dépend
de divers facteurs, dont l’opinion et l’intention préalable du journaliste. Cette subjectivité dans
l’interprétation est une autre source de biais malheureusement inévitable ; il s’agit donc d’en prendre
SITUATION 1
conscience.
Finalement, le directeur du journal vous demande d’ajouter un diagramme à votre article afin de
permettre aux lecteurs de mieux visualiser les résultats du sondage. Tracez un diagramme pertinent
qui pourrait illustrer l’une de vos conclusions.
D’autres sources de biais peuvent survenir lors de la présentation des résultats, en particulier
dans les graphiques. Un diagramme mal construit peut donner une impression erronée des résultats.
Le diagramme 1.1 est un exemple de diagramme à bandes mal construit.
© SOFAD - Reproduction interdite.
40
35
30
25
20
M. Gagnon J. Smith L. Tremblay
C ANDIDAT
21
TABLE DES
CORRIGÉ
MATIÈRES
En jetant un regard rapide sur le diagramme précédent, on a l’impression que Mariane Gagnon reçoit
un appui quatre fois plus grand que John Smith. Ce qui est faux, évidemment. Le problème est la graduation
de l’axe vertical. Le minimum de cet axe devrait correspondre à 0 % et non à 20 %. De plus, le titre du
diagramme devrait mentionner qu’il s’agit de fréquences après répartition, afin que l’électeur en soit informé.
Le diagramme ci-dessous inclut, cette fois, toutes les informations. Bien que ce diagramme soit moins
spectaculaire, il correspond davantage à la réalité. C’est un modèle de diagramme que vous auriez pu
construire à la page précédente.
Diagramme 1.2
Le candidat le plus apte à combattre la corruption selon un sondage (taille de l'échantillon : 160)
E FFECTIF
50
40
30
20
10
0
M. Gagnon J. Smith L. Tremblay Aucun Ne sait pas/refus
d’entre eux de répondre
C ANDIDAT
Notez que le titre du diagramme est plus précis, puisqu’il indique qu’il s’agit d’un sondage et qu’il révèle
la taille de l’échantillon. Notez également que les modalités « ne sait pas » et « refus de répondre » ont
été regroupées en une seule classe ; ce qui est généralement le cas dans la présentation d’un sondage,
puisqu’il est parfois difficile de distinguer ces catégories. Enfin, l’axe vertical représente, dans ce cas-ci,
les effectifs plutôt que les fréquences.
À RETENIR
LES TABLEAUX À DONNÉES CONDENSÉES
SITUATION 1
Lorsqu’une étude statistique porte sur un caractère qualitatif ou quantitatif discret,
il est possible de représenter les données recueillies à l’aide d’un tableau à données
condensées, à condition que le nombre de valeurs que peut prendre
le caractère étudié soit suffisamment restreint.
Ce type de tableau indique l’effectif (et, au besoin, la fréquence) associé à chaque modalité
ou valeur. Son titre doit être révélateur du caractère étudié.
Exemple : Une étude porte sur l’âge des enfants Âge des enfants dans un camp de vacances
dans un camp de vacances. Le tableau de Âge (a) Effectif Fréquence (%)
distribution ci-contre présente les données 8 6 8
recueillies. 9 16 21
Ce tableau permet de constater, entre autres 10 25 33
choses, qu’il y a 6 enfants de 8 ans. La somme des 11 20 27
effectifs étant de 75, la fréquence de 12 8 11
cet âge dans le camp de vacances est Total 75 100
6
de 8 %, puisque = 0,08.
75
25
9 ans
20 21 %
11 ans
15 27 %
10
5
10 ans
33 %
8 9 10 11 12
 GE ( a)
23
TABLE DES
CORRIGÉ
MATIÈRES
À RETENIR
DES SOURCES DE BIAIS
Pour que les résultats d’un sondage puissent être interprétés correctement, il ne suffit pas
que l’échantillon choisi soit représentatif de la population visée. Des sources de biais,
qui peuvent survenir à différentes phases du sondage, doivent être considérées.
En voici quelques exemples :
SITUATION 1
1.10
Mathilde a posé une question dans un forum sur Internet, fréquenté surtout par des adolescentes.
Combien d’enfants ?
Primevère Hier, nous avons parlé de ça mes deux copines et moi. Toutes les deux
Québec, Canada ne veulent pas du tout avoir d’enfants, alors que moi j’en voudrais
au moins quatre. C’est vrai que ça ne marche pas très bien entre leurs
parents, mais je me demande tout de même si je suis anormale.
Elle a reçu près de 50 commentaires, dont 28 réponses quant au nombre d’enfants désirés.
1 3 2 4 5 0 2 3 4 4 2 3 2 2
4 3 2 1 4 2 3 2 2 3 3 1 2 2
© SOFAD - Reproduction interdite.
1.11
Sur un site Internet portant sur l’alimentation, on Répartition de l'IMC de nos répondants
b) Pourquoi ne peut-on pas se fier à ce diagramme pour décrire l’IMC de la population en général ?
LE SAVIEZ-VOUS ?
L’IMC est calculé à l’aide de la formule suivante :
M
IMC = , où M est la masse (kg) et T, la taille (m).
T2
Un poids normal correspond à un IMC se situant entre 18,5 et 25.
0
0 fois
1 fois
2 fois
3 fois
4 fois
b) Selon les données recueillies par Sylvio, les élèves de sexe féminin sont plus actives
physiquement que ceux de sexe masculin. Vrai ou faux ? Justifiez votre réponse.
SITUATION 1
© SOFAD - Reproduction interdite.
ACTIVITÉ 1.3
Quelques centimètres de plus
EXPLORATION
BUT
• Construire et interpréter des tableaux à données groupées.
• Construire et interpréter des histogrammes.
Dans un magazine, un article présente quelques cas de couples célèbres où la femme est plus grande
que l’homme et l’on s’interroge sur le vécu de ces grandes femmes. Dans un encadré qui accompagne
l’article, des statistiques sont données sur la taille des femmes et des hommes au Québec.
Tableau 1.6 – Répartition en pourcentage des femmes
et des hommes adultes selon leur taille au Québec
Taille (cm) Femmes Hommes
[140, 150[ 3 % –
[150, 160[ 31 % 1 %
[160, 170[ 50 % 15 %
[170, 180[ 15 % 52 %
[180, 190[ 1 % 30 %
[190, 200[ – 2 %
Total 100 % 100 %
Source : Institut de la statistique du Québec.
Expliquez en vos mots ce que signifie l’expression [140, 150[ dans la première colonne du tableau
ci-dessus.
Les six intervalles inscrits dans la première colonne représentent autant de classes dans lesquelles
la distribution des tailles est partagée.
Dans quelle classe se situe la taille d’une personne qui mesure 170 cm ?
Que pouvez-vous dire de la taille de la majorité des femmes ? Et qu’en est-il pour les hommes ?
ATTENTION !
Cette étude ne tient pas compte des personnes qui mesurent plus de 2 m et moins de 1,4 m, puisqu’elles
représentent un pourcentage négligeable par rapport à l’ensemble de la population du Québec.
En statistique, il est parfois nécessaire d’exclure certaines données exceptionnelles, trop éloignées
de la norme, afin de mieux faire ressortir des tendances. Malheureusement, cela peut poser
un problème pour certaines personnes qui se voient ainsi tenues à l’écart des statistiques.
SITUATION 1
de valeurs, pas nécessairement entières.
Même si on arrondissait les données au centimètre près, le nombre de valeurs possibles resterait très
grand. Il est donc inutile, voire impossible, de les représenter dans un tableau à données condensées.
Pour avoir un meilleur portrait de la situation, il est préférable de regrouper ces données à l’intérieur
d’intervalles qu’on appelle des classes.
RAPPEL
Un intervalle est un ensemble formé de tous les nombres qui sont situés entre
deux bornes. Les bornes peuvent faire partie ou non de l’intervalle.
Exemple : La notation abrégée [140, 150[ représente l’intervalle formé de tous les nombres
entre 140 et 150. Le crochet tourné vers l’intérieur devant la borne inférieure 140 indique
que ce nombre fait partie de l’intervalle. Au contraire, le crochet tourné vers l’extérieur
après la borne supérieure 150 indique que ce nombre ne fait pas partie de l’intervalle.
Dans le tableau 1.6, la classe définie par l’intervalle [140, 150[ contient toutes les tailles qui sont
supérieures ou égales à 140 cm et inférieures à 150 cm. Souvenez-vous de ce point : la borne inférieure
est incluse, alors que la borne supérieure est exclue. Le même principe s’applique aux autres classes. Il en
est généralement ainsi dans tous les tableaux à données groupées en classes.
On peut facilement déterminer dans quelle classe se situe une donnée quelconque. Par exemple,
une taille de 162 cm fait partie de la classe [160, 170[, car 160 ≤ 162 < 170. Par contre, une taille
de 170 cm est plutôt située dans la classe suivante [170, 180[.
Par ailleurs, le tableau 1.6 permet d’affirmer que la majorité des femmes mesurent de 160 à 170 cm.
Tandis que pour les hommes, cette majorité se situe de 170 à 180 cm.
© SOFAD - Reproduction interdite.
29
TABLE DES
CORRIGÉ
MATIÈRES
35
30
25
20
15
10
à bandes, mais il est différent sur deux points 140 150 160 170 180 190
essentiels. Quels sont ces deux points ? TAILLES ( cm)
1 :
2 :
Complétez cet histogramme de la répartition des hommes du Québec selon leur taille.
TAILLES ( cm)
L’histogramme ressemble au diagramme à bandes de par ses bandes toutes de même largeur.
Cependant, il possède deux différences essentielles.
• Dans un histogramme, les bandes rectangulaires dont les hauteurs indiquent les effectifs ou
les fréquences sont juxtaposées. Il n’y a pas d’espace entre elles, tandis que dans le diagramme
à bandes, elles sont séparées les unes des autres par un espace équidistant.
• Dans un histogramme, les données sont de nature quantitative continue. Ainsi, la graduation
de l’axe horizontal contient les bornes de toutes les classes. La graduation va de la borne inférieure
de la première classe jusqu’à la borne supérieure de la dernière classe. La base du rectangle associé
à chaque classe commence à la borne inférieure de la classe et se termine à sa borne supérieure.
ATTENTION !
Si la première classe ne débute pas à 0, il est important de faire une coupure de l’axe horizontal.
Aussi, puisque toutes les classes devraient avoir la même amplitude, chacune des bandes
SITUATION 1
de l’histogramme devrait être de la même largeur.
45
40
35
30
Le choix du nombre de classes 25
et de leur amplitude 20
15
Lorsque vous devez construire un tableau 10
à données groupées en classes, il vous faut 5
Pour l’amplitude, on doit tenir compte du nombre de classes souhaité et de l’étendue de la distribution.
RAPPEL
L’étendue d’une distribution correspond à la différence entre la valeur maximale
© SOFAD - Reproduction interdite.
Pour que toutes les valeurs possibles de la distribution soient couvertes, il faut appliquer cette règle :
Étendue
< Amplitude
Nombre de classes
De plus, par convention, on utilise généralement des amplitudes qui sont des nombres entiers arrondis.
Ainsi, on préférera une amplitude de 20 plutôt que de 16, de 300 plutôt que de 265.
31
TABLE DES
CORRIGÉ
MATIÈRES
3155, 3185, 2150, 2255, 3010, 3030, 2770, 2890, 2895, 3035, 3560, 3740, 2895,
3220, 3230, 3275, 3405, 3885, 3105, 3130, 2315, 2580, 2590, 2745, 3530.
À partir des données fournies par l’hôpital, proposez une façon de subdiviser cette distribution
en 5 classes de même amplitude.
ATTENTION !
Si l’on arrondissait l’amplitude vers le bas à 300 g, il faudrait 6 classes et non 5.
Car 5 × 300 g < 1735 g, et en conséquence, 5 classes ne couvriraient pas toute
l’étendue de la distribution.
SITUATION 1
première classe.
Plusieurs valeurs sont possibles pour la première borne, mais on privilégiera un nombre entier arrondi
de la même façon que pour l’amplitude.
Dans ce cas, 2000 semble une bonne valeur pour la borne Tableau 1.8 – Répartition
de 25 nouveau-nés selon leur masse
inférieure du premier intervalle. D’autres suggestions auraient
pu être retenues, mais on fixera cette première borne Masse (g) Effectif
pour la suite des choses. [2000, 2400[
[2400, 2800[
Le tableau ci-contre montre toutes les classes qui en résultent.
[2800, 3200[
Remplissez ce tableau à données groupées en déterminant [3200, 3600[
l’effectif de chaque classe. [3600, 4000[
Total
Représentez les données de ce tableau par un histogramme.
© SOFAD - Reproduction interdite.
33
TABLE DES
CORRIGÉ
MATIÈRES
À RETENIR
LES TABLEAUX À DONNÉES GROUPÉES EN CLASSES
Dans une étude statistique, il est souvent approprié Répartition de 25 nouveau-nés
de regrouper les données en classes, notamment selon leur masse
quand l’étude porte sur un caractère quantitatif Masse (g) Effectif
continu, ou lorsque les données sont du type [2000, 2400[ 3
quantitatif discret, mais qu’elles n’ont pas tendance
à se répéter et qu’elles prennent plusieurs valeurs [2400, 2800[ 4
différentes. [2800, 3200[ 10
Les données recueillies sont compilées dans un [3200, 3600[ 6
tableau à données groupées en classes qui indique [3600, 4000[ 2
l’effectif ou la fréquence de chaque classe.
Total 25
Les classes présentent généralement les propriétés
suivantes :
• Chaque classe est définie par un intervalle de la forme [a, b[.
• L’amplitude de chaque classe (soit la valeur b – a) est la même pour toutes les classes.
• Les classes sont mutuellement exclusives et couvrent toutes les valeurs possibles du caractère
étudié. La borne supérieure d’une classe est égale à la borne inférieure de la classe suivante.
• Le nombre de classes se situe généralement entre 5 et 10.
LES HISTOGRAMMES
On utilise l’histogramme pour représenter graphiquement les effectifs ou les fréquences
lorsque les données sont groupées en classes.
Dans un histogramme :
• Les boîtes rectangulaires, dont la hauteur indique l’effectif ou la fréquence, sont toujours
juxtaposées.
• La graduation de l’axe horizontal marque le début et la fin de chaque classe.
SITUATION 1
1.13
On a demandé à 40 personnes de déterminer, à la minute près, la durée du trajet en automobile
qu’elles font pour se rendre au travail le matin. Voici les résultats en minutes.
49 16 27 57 15 12 39 46 55 29
25 17 45 58 37 35 44 64 45 25
28 40 35 53 49 65 30 46 32 15
46 52 30 38 42 28 25 20 46 36
b) Pour grouper ces données en 6 classes, quelle devrait être l’amplitude des classes ?
Total
© SOFAD - Reproduction interdite.
1.14
Voici le résultat de la qualification au saut en longueur aux Jeux olympiques de Londres en 2012.
[ ; 8,3[
Total
SITUATION 1
Les méthodes d’échantillonnage probabiliste sont très contraignantes. Il n’est pas toujours possible
d’obéir parfaitement à ces contraintes parce que les données ne sont pas disponibles, parce que
ça coûterait trop cher ou que ça prendrait trop de temps. D’autres méthodes d’échantillonnage
sont alors utilisées.
L’échantillonnage de commodité
Lorsque la population a une homogénéité très grande, presque parfaite, n’importe quel échantillon
a de fortes chances d’être représentatif, même s’il n’est pas choisi au hasard.
Voici un exemple :
Il y a un certain hasard dans le fait qu’une personne puisse se trouver à passer justement à cet endroit,
au moment où le journaliste fait son sondage. Mais c’est un hasard accidentel et difficilement mesurable.
L’échantillon sélectionné ainsi n’est sûrement pas représentatif de l’ensemble de la population, car
la plupart des personnes ne peuvent pas être choisies dans cet échantillon : parce qu’elles ne passent
jamais à cet endroit, parce qu’elles travaillent à ce moment-là, parce qu’elles sont malades, ou encore
parce qu’elles se déplacent en auto, en bicyclette, etc. Ces gens exclus auraient peut-être une opinion
très différente de celle des passants interrogés.
Le risque de biais est donc très grand, mais c’est une méthode d’échantillonnage économique et rapide,
ce qui explique que plusieurs sondeurs la préfèrent à d’autres méthodes.
37
TABLE DES
CORRIGÉ
MATIÈRES
1.15
Donnez au moins un autre exemple de situation de la vie où l’on utilise la méthode
d’échantillonnage par commodité. Indiquez si, dans ce cas, l’échantillon est représentatif
et expliquez pourquoi.
L’échantillonnage volontaire
Vous regardez une émission de variétés à la télévision. On vous invite à voter pour votre artiste préféré
en appelant à tel numéro.
Vous consultez le site Internet d’un journal. Pourquoi ne pas répondre à la question du jour ?
Au centre commercial, on vous offre un cadeau. Vous devez répondre à un sondage sur un nouveau
produit.
Toutes ces situations sont caractérisées par le fait que ce n’est pas le sondeur qui construit l’échantillon,
c’est plutôt l’échantillon qui se construit de lui-même. En effet, ce sont les individus de la population
qui décident volontairement de faire partie de l’échantillon.
Notez que cette méthode peut être très utile dans certains cas, par exemple pour des tests
pharmaceutiques.
L’échantillonnage volontaire est probablement la méthode la plus simple à appliquer lors de sondages
et sûrement l’une des plus rapides, mais elle donne des résultats qui présentent un risque élevé de biais.
1.16
Donnez au moins deux risques de biais qu’entraîne cette méthode d’échantillonnage.
•
SITUATION 1
•
Voici un exemple :
1.17
© SOFAD - Reproduction interdite.
1.18
Donnez un exemple de biais que peut entraîner cette méthode d’échantillonnage.
EXERCICES D’INTÉGRATION
1.19
Une députée aimerait connaître l’avis des habitants Répartition des ménages de la circonscription
selon leur revenu
EXPLORATION
de sa circonscription concernant une nouvelle
politique budgétaire du gouvernement qui
E FFECTIF
2600
s’adresse à des ménages dont le revenu est 2400
inférieur à 100 000 $. L’histogramme ci-contre 2200
1400
1000
interrogeant 250 personnes faisant partie de
800
ménages différents. Elle tient à ce que les ménages
600
à faible revenu, ceux qui ont un revenu inférieur
400
à 30 000 $, soient adéquatement représentés
200
dans l’échantillon.
10 20 30 40 50 60 70 80 90 100
a) Quelle méthode d’échantillonnage REVENU ( milliers de $ )
suggérez-vous à la députée ?
Expliquez-lui comment procéder.
b) Combien de personnes de l’échantillon devraient être issues des ménages à faible revenu ?
1.20
Voici deux collectes de données réalisées dans votre communauté. Construisez un tableau
de données condensées ou un tableau de données groupées en classes, selon ce qui vous semble
le plus approprié. Puis, représentez vos résultats par le diagramme le plus adéquat.
SITUATION 1
a) Nombre d’enfants par ménage de la rue du Quartier.
0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5, 8
28, 31, 35, 39, 45, 46, 48, 49, 50, 50, 52, 55, 57, 58, 59, 60, 60, 60, 61, 61, 62, 63, 65,
66, 66, 68, 68, 69, 69, 71, 71, 72, 74, 75, 77, 78, 79, 79, 82, 85, 85, 89, 91, 93, 94
© SOFAD - Reproduction interdite.
1.21
Un sondage Internet publié dans un journal quelques jours avant l’élection provinciale de 2014
donnait les résultats suivants après répartition proportionnelle des indécis.
38 % 29 % 23 % 9%
Parti libéral Parti québécois Coalition Avenir Québec Solidaire
du Québec Québec
Le sondage avait été réalisé auprès de 1220 personnes du grand public dans toutes les régions
du Québec et tenait compte de l’âge, du sexe et de la langue maternelle des répondants.
Le sondage précisait qu’environ 158 de ces personnes interrogées souhaitaient voter pour un autre
parti (2 %), annuleraient leur vote (3 %), ne voteraient pas (2 %), ne savaient pas quoi répondre (2 %)
ou encore refusaient de répondre au sondage (4 %). De plus, le sondage mentionnait qu’un électeur
sur quatre disait pouvoir encore changer d’idée d’ici au jour du scrutin.
Les deux tableaux suivants décrivent les résultats officiels de cette élection.
Répartition des votes – Élection provinciale 2014 Répartition des sièges – Élection provinciale 2014
Pourcentage de
Nombre Pourcentage des Nombre de
Parti Parti représentation quant
de votes votes députés élus
au nombre de sièges
Parti libéral Parti libéral
1 756 373 70
du Québec du Québec
SITUATION 1
c) Selon vous, qu’est-ce qui pourrait expliquer les différences entre les résultats du sondage
et ceux de l’élection ?
d) Selon vous, qu’est-ce qui pourrait expliquer les différences entre les résultats quant
© SOFAD - Reproduction interdite.
1.22
Le diagramme appelé « pyramide des âges » permet de décrire la répartition d’une population
en fonction des sexes et des âges. Il est composé de deux histogrammes dont les âges sont portés
horizontalement. Celui de gauche représentant, par convention, la population de sexe masculin
et celui de droite, celle de sexe féminin. Les classes ont généralement une amplitude de 5 ou 10 ans.
Voici deux exemples de pyramide des âges : celle de l’Inde et celle du Canada
Répartition de la population en Inde (2010) Répartition de la population au Canada (2010)
12 % 10 % 8 % 6 % 4 % 2 % Â GES 2% 4% 6% 8 % 10 % 12 % 12 % 10 % 8 % 6 % 4 % 2 % Â GES 2% 4% 6% 8 % 10 % 12 %
ACTIVITÉ SYNTHÈSE
SITUATION 1
Réfléchir sur l’utilisation d’Internet
Vous êtes maintenant en mesure d’accomplir la tâche décrite au début de cette situation
d’apprentissage. Voici d’abord un rappel du contexte.
La directrice d’un centre de formation voudrait connaître à quelle fréquence et de quelle façon
les adultes qui étudient dans son centre utilisent Internet. Elle vous demande de réaliser un sondage
pour répondre à ces deux questions.
2) Combien d’heures par semaine naviguez-vous sur Internet à des fins personnelles (autres que
pour votre travail ou vos études) ?
VOTRE TÂCHE
À partir des données qui vous seront fournies et qui concernent une population d’élèves adultes,
vous devrez d’abord choisir un échantillon représentatif, en tenant compte de la répartition
des individus selon leur âge et leur sexe, puis collecter les données en réponse aux deux questions
proposées par la directrice. Il vous faudra ensuite représenter ces données à l’aide de tableaux
et de diagrammes appropriés. Vous devrez enfin interpréter ces diagrammes afin de dresser
un portrait de la situation.
La page suivante contient les réponses aux 2 questions que les 480 élèves du centre pourraient donner
si on les interrogeait. Ces données sont constituées d’une lettre et d’un nombre.
Le nombre indique le temps, en heures, passé par semaine sur Internet à des fins personnelles.
Vous n’avez pas à compiler les 480 réponses. Il est plutôt suggéré de vous limiter à un échantillon
de 50 personnes. Comme la méthode d’échantillonnage stratifié est appropriée dans ce cas, vous devrez
tenir compte du nombre d’élèves dans chaque strate, comme montré dans le tableau suivant :
45
TABLE DES
CORRIGÉ
MATIÈRES
Tableau 1.10
20 à 24 ans R 4 C 5 C 4 R 6 C 15 C 21 R 3 R 21 D 21 F 4 R 15 D 30 R 1 R 8 D 35
C 2 D 9 D 8 R 7 R 15 D 25 C 3 R 3 R 12 R 4 C 7 D 14 R 7 D 32 C 2
R 7 D 14 R 5 C 1 C 8 D 18 R 4 C 5 C 18 R 6 C 9 R 14 D 6 D 30 C 10
D 14 F 2 R 9 D 20 R 2 R 12 C 1 C 8 C 14 C 7 R 15 R 1 R 9 C 14 R 3
D 20 C 3 D 15 F 3
25 à 29 ans C 7 R 8 R 7 C 6 F 3 D 20 R 2 X 0 R 21 D 25 R 14 F 4 R 15 C 3 R 7
D 12 C 14 R 1 R 2 D 15 D 35 D 5 R 8 D 25 C 7 D 10 C 1 C 5 R 18 R 4
30 à 34 ans R 7 C 6 R 1 F 3 R 8 D 10 R 12 C 5 C 14 D 18 R 7 C 4 R 28 C 3 D 30
X 0 R 2 D 20 X 0 D 8 F 3 R 4
35 ans et plus X 0 D 30 D 21 C 2 R 7 C 5 C 4 F 1 F 3 C 6 R 14 D 10 R 2 D 6 X 0
R 7 R 1 X 0 R 8 X 0
Femme
19 ans ou C 7 R 7 C 7 D 15 R 2 R 3 C 12 R 7 C 8 C 3 C 14 F 3 C 10 C 5 C 1
moins
20 à 24 ans D 14 C 10 C 3 R 9 R 15 C 14 C 7 C 12 C 14 C 15 D 30 C 1 C 5 D 9 C 22
R 2 C 2 D 8 D 30 R 3 C 7 D 6 D 25 R 12 D 20 R 4 C 2 C 3 F 2 R 2
C 4 R 8 R 28 F 2 R 8 R 6 R 6 R 4 D 21 C 2 R 21 C 1 R 2 C 5 R 14
D 18 C 24 C 1 C 7 C 5 C 3 R 18 F 3 C 9 R 3 C 3 D 32
25 à 29 ans F 2 C 6 F 2 R 10 R 1 C 5 C 7 R 4 C 7 R 5 C 1 R 3 D 25 D 28 C 10
C 2 C 4 C 2 R 7 R 14 C 24 C 9 C 8 R 7 R 4 C 3 D 21 C 1 D 30 C 14
X 0 F 3 C 20 F 2
30 à 34 ans C 21 D 30 R 10 X 0 C 10 R 4 C 5 C 3 R 4 C 4 C 7 C 8 F 2 R 14 R 3
R 9 D 25 F 1 C 5 C 1 C 16 F 2 X 0 R 7 R 6 C 14 R 7 R 4
35 ans et plus D 28 R 1 C 7 F 2 C 8 C 7 R 8 R 7 X 0 C 3 F 1 C 1 C 21
C 2 R 5 R 10 C 14 X 0 R 15 D 30 C 3 R 5 X 0
1.23
Construisez votre échantillon de 50 personnes en encerclant vos données sélectionnées
à la page précédente. Expliquez comment vous avez procédé pour composer cet échantillon.
SITUATION 1
1.24
Représentez les données de votre échantillon à l’aide de deux tableaux : un premier pour le type
d’utilisation d’Internet, un second pour le temps passé sur Internet.
© SOFAD - Reproduction interdite.
1.25
Expliquez comment vous avez déterminé l’amplitude des classes dans votre second tableau.
1.26
Tracez les diagrammes pertinents et faites une analyse sommaire des données recueillies
en un court texte qui fait ressortir les informations que vous jugez les plus intéressantes.
SITUATION 1
Des méthodes d’échantillonnage probabiliste (p. 13)
Pour éviter les sources de biais dans le choix de l’échantillon, on peut utiliser
une méthode d’échantillonnage basée sur le hasard.
Méthode Description
Échantillonnage stratifié Après avoir fragmenté la population en strates, on détermine
le pourcentage de l’échantillon qui sera choisi dans chaque strate
selon le rapport suivant :
Taille de la strate dans la population
Taille de la population
Les éléments de l’échantillon sont choisis au hasard dans chaque
strate par la méthode d’échantillonnage aléatoire simple.
Échantillonnage par grappes La population est partagée en grappes. On choisit un certain
nombre de grappes au hasard en tenant compte de la taille voulue
de l’échantillon. Tous les éléments des grappes choisies font partie
de l’échantillon.
49
TABLE DES
CORRIGÉ
MATIÈRES
Exemple : Exemple :
Âge des enfants dans un camp d’été Répartition de 25 nouveau-nés selon leur masse
Pour représenter les effectifs ou les fréquences liés à un tableau à données groupées
en classes, on utilise un histogramme.
E FFECTIF
30 12 ans 8 ans 10
11 % 8%
25 8
20 9 ans 6
21 %
11 ans
15 27 % 4
10 2
5
10 ans
2000
2400
2800
3200
3600
4000
33 %
8 9 10 11 12
ÂGE (a) MASSE (g)