Vous êtes sur la page 1sur 13

A.

Mthodes d'chantillonnage en gographie


1. Caractristiques fondamentales 1.1 Dfinition Lorsque le gographe entreprend une tude ou un projet de recherche, il est assez difficile et surtout onreux de vouloir utiliser toutes les informations s'y rattachant (population parentale); il prfrera alors prendre qu'une partie de cet ensemble, c'est--dire un chantillon. Cette technique qui consiste qu' ne considrer qu'une portion de la population s'appelle l'chantillonnage. L'chantillonnage doit tre support par une dmarche qui nous permettra d'noncer des conclusions satisfaisantes au sujet de la population parentale partir d'un chantillon de taille minimale. Le tout sera appuy d'une dmarche mthodologique; en effet, il existe trois tapes considrer : 1) Identification du sujet de recherche (ou sujet l'tude) et de la population parentale laquelle cette recherche est destine; 2) Choix de la mthode d'chantillonnage la plus approprie, et 3) Dtermination de la taille minimale de l'chantillon ncessaire pour obtenir des rsultats donnant une image exacte de la population parentale. Avant d'aborder les units et les principales mthodes d'chantillonnage en gographie, on doit examiner des considrations gostatistiques et la taille d'chantillonnage. 1.2 Considrations gostatistiques La nature mme des donnes gographiques (leur dispersion spatiale) rend l'utilisation de techniques statistiques en gographie trs difficile. Ceci devient beaucoup plus vident si les donnes sont le rsultat d'une aggrgation ou s'il y a des priodicits camouffles. On examinera les considrations gostatistiques suivantes : l'aggrgation, l'chantillonnage alatoire et l'autocorrlation spatiale. A) Aggrgation L'expression "aggrgation" signifie que les donnes ont t groupes dans des units spatiales (cellules, secteurs de recensement, etc) comprenant une ou plusieurs observations originales. L'aggrgation des donnes est frquente dans la publication des informations du Recensement du Canada (Statistique Canada); on protge ainsi l'identit des rpondants. Par exemple, les donnes concernant des caractristiques socio-conomiques l'chelle des cits canadiennes sont publies au niveau du secteur de recensement, et ces secteurs peuvent contenir entre 4 000 et 10 000 personnes et de 1 000 3 000 units de logement. Les informations fournies sont considres comme valables pour l'ensemble du secteur (sous la forme de mdianes, moyennes ou pourcentages). B) chantillonnage alatoire On veut prendre en considration le "BIAIS" dans l'chantillonnage. Un chantillonnage doit avoir le moins de biais possible. La seule manire de s'assurer du non-biais d'un chantillon est de choisir chacun des lments de faon alatoire. Ce qui implique que chaque lment devrait avoir une chance gale d'tre choisi -aucun lment particulier ne devrait avoir une plus grande chance d'tre choisi. Si le chercheur ne choisit pas les lments de faon alatoire, l'chantillon pourrait tre biais dans une direction particulire, ce qui introduirait une erreur systmatique.

Le choix alatoire peut tre trs difficile pour certains problmes gographiques; on pourra cependant contourner cette difficult en utilisant la stratification. C) Autocorrlation spatiale Un chantillon non-biais est constitu d'lments qui devraient tre indpendants les uns des autres; c'est--dire qu'il ne devrait pas y avoir de relation systmatique entre la valeur d'une observation (d'un lment) et celle d'une autre. Cependant, les donnes que les gographes utilisent ont une caractristique particulire: elles sont distribues spatialement, et mme si les lments sont choisis de faon alatoire sur l'espace gographique, ceci n'assure pas que la localisation relative d'une observation une autre n'affecte pas les lments mesurs. En effet, il y a une priodicit ou rgularit spatiale dans les donnes, et ainsi les donnes gographiques sont "autocorrles" spatialement. La stratification permettra de minimiser cet effet. 1.3 Taille de l'chantillon Dans la plupart des recherches o on doit travailler avec un ou plusieurs chantillons, la taille des chantillons joue un rle trs important. Premirement, elle dtermine la validit de la recherche et, deuximent, elle conditionne l'importance du travail, du temps et des cots qu'implique l'chantillonnage. La validit des chantillons est directement lie leur taille. On comprend donc l'importance de la dtermination de la taille minimale de l'chantillon. En gnral, l'chantillon est dit "valide" lorsqu'il est reprsentatif de la population parentale, c'est-dire lorsqu'il possde les caractristiques correspondantes la population. En pratique, on ralise que plus la taille de l'chantillon est grande, plus la prcision augmente. Quelle taille d'chantillon est-il ncessaire de prendre pour obtenir un certain degr de prcision?

Exemple : Combien de personnes devra prendre un organisme charg de faire un sondage sur l'intention du vote dans la circonscription lectotrale fdrale de Saint-

Jacques (Montral), s'il veut estimer la proportion de ceux et de celles qui voteront pour le candidat du Bloc Qubcois, avec une prcision de 1 % et un niveau de confiance de 98 %. Il est remarquer que dans l'exemple ci-dessus, on mentionne le degr de prcision du rsultat (avec 1 %). Avant de dterminer la taille de l'chantillon, il faut tablir le degr de prcision que l'on veut. Le niveau de confiance de 98 % indique que nous sommes "SR" 98 % que le paramtre estim de la population sera inclu dans l'intervalle de confiance. Examinons maintenant comment dterminer la taille de l'chantillon pour estimer la moyenne. DMARCHE : 1) Dterminer le degr de prcision, ou ce qui revient au mme, dterminer l'erreur permise E que l'on admet. 2) crire une quation contenant la taille n et l'erreur permise E. Cette quation devra contenir le paramtre de la population que l'on veut estimer. 3) Rsoudre cette quation pour trouver n.

Exemple : (avec inconnu) Soient les 92 provinces d'Italie o on dsire obtenir une moyenne avec une erreur permise de 50 acres sur la moyenne de la population parentale pour la superficie de toutes les provinces. On choisit un chantillon exprimental de 25 provinces et on dtermine la moyenne et l'cart-type.

Donc, un chantillon de 41 provinces donnerait le prcision dsire. 2. Principales mthodes d'chantillonnage Nous allons considrer trois mthodes d'chantillonnage : chantillonnage alatoire, chantillonnage systmatique et chantillonnage stratifi. Il existe plusieurs units et schmas d'chantillonnage pouvant tre utiliss par le gographe. De faon gnrale, on distingue les possibilits suivantes : chantillonnage partir d'une liste, chantillonnage ponctuel, chantillonnage linaire (traverses) et chantillonnage zonal (quadrats). 2.1 chantillonnage alatoire Une fois que la population parentale est dfinie, chaque lment de cette population doit avoir une chance gale de faire partie de n'importe quel chantillon. Idalement, le choix des lments pour l'chantillon devrait tre alatoire, c'est--dire qu'aucun biais n'affecte le processus de choix. On obtient un chantillon alatoire si le choix des lments s'effectue en utilisant un processus mcanique indpendant (choix personnel exclu) telle qu'une slection partir d'une table de nombres alatoires. Une table de nombres alatoires est ainsi appele parce qu'il n'y a pas de biais dans la squence des chiffres (nombres). Les nombres sont choisis par un ordinateur (pour augmenter la rapidit) ou tirs d'un chapeau (ce qui est trs long ...). Les nombres de la table peuvent tre employs individuellement ou en groupes, en lignes ou en colonnes, selon notre choix. A) partir d'une liste Soit une population parentale constitue par la liste de 200 manufactures d'une ville quelconque. On veut extraire un chantillon alatoire de 50 manufactures. Comment procde-t-on? On assigne un numro de squence chaque manufacture de 001 200. Prenant trois colonnes d'un coup, en dbutant en haut et gauche et ainsi de suite vers le bas, on lira les nombres de la table des nombres alatoires; extrayant ainsi 50 numros de squence entre 001 et 200 (Note: Les rptitions d'un nombre sont rejettes). B) chantillonnage en points 1) Construction

2) Slection

C) chantillonnage en traverses (lignes)

D) chantillonnage en quadrats

2.2 chantillonnage systmatique (schma rgulier) Il existe des raccourcis qui peuvent tre appliqus aux mthodes d'chantillonnage alatoire. Lorsqu'on a dterminer un chantillon de grande taille (beaucoup d'lments), l'extraction des nombres alatoires requis et, par la suite, la tche de faire la relation nombre-liste peuvent devenir un facteur important en fonction du temps disponible. Dans une telle situation, on peut utiliser un chantillon "quasialatoire", c'est--dire un chantillon systmatique. A) partir d'une liste Au lieu de choisir chaque lment sparment, on peut utiliser un schma rgulier ("pattern") pour extraire les lments de l'chantillon. Si on dsire constituer un chantillon partir d'une liste de 200 manufactures, et qu'on en choisit une tout les quatres partir de la liste, on obtiendra beaucoup plus rapidement la taille de 50 requise comparativement l'extraction faite l'aide de la table des nombres alatoires. B) Applications aux units d'chantillon

2.3 chantillonnage stratifi L'chantillonnage stratifi est employ lorsqu'il y a des groupes significatifs de taille connue composant la population parentale et qu'il est souhaitable de s'assurer que chaque groupe soit quitablement reprsent par l'chantillon. Pour ce faire, il faut choisir les lments de l'chantillon de manire que chaque groupe soit reprsent selon une proportion fidle par rapport la population totale (par exemple: 25 %, 50 % et 25 %). Exemple : Soit une zone rurale o on a une partie constitue de fermes de haute productivit ct d'une autre partie improductive. Consquences : densits de population, production des fermes, habitats, caractristiques diverses sont affects par ces conditions diffrentes. Comment choisir un chantillon qui tienne compte des diffrences mentionnes? On peut y arriver en constituant un chantillon stratifi. Si 1/3 de la zone rurale est improductive et l'autre 2/3 productive; alors, 1/3 de l'chantillon sera extrait de la partie improductive et les 2/3 dans la partie productive. De cette faon, l'chantillon sera conforme aux caractristiques et variations spatiales de la zone.

B. Analyse des donnes d'un sondage ou d'une enqute (menu Analyze)


Les frquences Une premire faon d'analyser les donnes de la matrice est de calculer les frquences. Les donnes que l'on a saisi au cours prcdent vont tre utilises pour effectuer les premires analyses statistiques avec SPSS; il s'agit de calculs et de statistiques dits lmentaires. Procdure gnrale de l'option Frenquencies Menu Analyze >> commande Descriptive Statistics >> option Frequencies Pour se faire, on choisira la rubrique Descriptive Statistics, puis Frequencies; la fentre Frequencies s'affichera. Cette fentre permet de slectionner, partir de la liste de variables de la matrice, celles qui feront parties de l'analyse (bouton Flche). Les boutons Statistics et Charts servent, respectivement, produire des statistiques et des graphiques pour visualiser la distribution de donnes d'une variable. En guise d'exprimentation, veuillez choisir l'ensemble des variables l'tude et demander le tableau de frquences des valeurs. On obtient un tableau par variable. Utiliser aussi l'option (bouton) Charts pour visualiser les donnes d'une variable. Remarque importante: chaque fois qu'on effectue une slection, on revient la fentre o nous tions en cliquant sur Continue. Les statistiques descriptives Des statistiques descriptives lmentaires comme le nombre d'observation, le minimum, le maximum, la moyenne et l'cart-type, etc. sont prsentes, pour les variables choisies, dans un rapport des statistiques descriptives. Procdure gnrale de l'option Descriptives

Menu Analyze >> commande Descriptive Statistics >> option Descriptives Choix des variables (bouton Flche) Choix des statistiques descriptives (Options); on coche les options voulues >> Continue >> OK. Note: On a la possibilit de calculer des valeurs standardises (z). Remarque importante: chaque fois qu'on effectue une slection, on revient la fentre o nous tions en cliquant sur Continue. Procdure gnrale de l'option Crosstabs Un tableau crois est gnr avec l'option Crosstabs (voir dfinition ci-dessous). Menu Analyze >> commande Descriptive Statistics >> option Crosstabs En guise d'exemple, on choisit de construire un tableau crois avec la variable emploi par rapport la variable scolarit. Il faut indiquer SPSS, la variable qui sera place en ligne (range) et celle place en colonne dans le tableau crois. On peut choisir plus d'une variable. On clique sur la variable Emploi du rpondant puis, on clique sur la flche la droite du rectangle Row(s). La variable Niveau de scolarit est aussi slectionne de la mme faon, mais cette fois-ci, on clique sur la flche la droite du rectangle Column(s). cette tape, on a la possibilit de choisir des statistiques associes aux tableaux croiss; on clique alors sur le bouton Statistics. Plusieurs calculs statistiques sont disponibles, on choisit un type de calcul en cochant la case correspondante. Pour notre exemple, nous allons activer les statistiques suivantes : Chi-square et Contingency coefficient. On cliquera sur le bouton Continue, ce qui nous ramne la fentre de dfinition des tableaux croiss o l'on cliquera maintenant sur le bouton Cells qui affichera la fentre Cell Display o on peut spcifier les paramtres pour l'inscription des frquences (Counts) ainsi que des pourcentages (Percentages) dans les cellules (cases) du tableau crois. Il faut s'en tenir la dfinition d'un tableau crois pour tre en mesure de fixer ces valeurs. Dans l'exemple, nous allons demander l'inscription des frquences (Counts) observes (en cochant Observed) et des frquences thoriques (en cochant Expected) ainsi les pourcentages (Percentages) au niveau de la colonne (Column) et le total (Total); on cliquera sur le bouton Continue pour revenir la fentre de dfinition des tableaux croiss, puis, on cliquera sur le bouton OK pour excuter le tableau crois; la fentre SPSS Viewer affichera les rsultats du tableau crois. Quelques fentres utiles (Crosstabs)

Dfinition d'un tableau crois Un tableau crois ou tableau de contingence permet de mettre en relation deux variables dont les donnes sont mesures selon une chelle nominale ou/et ordinale; il s'agit donc de variables discontinues (ou discrtes). Une des variables peut tre mesure selon une chelle d'intervalles ou de rapports, que l'on aura transforme en variable dite de mesure nominale ou ordinale. Les donnes d'intervalles ou de rapports sont alors transformes, par codification (regroupement des valeurs d'une variable), en donnes nominales ou ordinales. Cas 1: Relation de dpendance entre deux variables (Variable dpendante >> Variable indpendante) Une relation de dpendance se traduit par la prsence d'une variable (variable dpendante) qui dpend de l'autre (variable indpendante). Par exemple, le nombre de nouvelles inscriptions en gographie dpend de la stratgie marketing (publicit) que l'on utilise. Convention: Variable dpendante en ligne dans le tableau crois (lecture de gauche droite) Variable indpendante en colonne dans le tableau crois (lecture de haut en bas) Calcul des pourcentages en colonne (rgle du calcul dans le mme sens que la variable indpendante) Note: L'inverse est possible (var. indp. en ligne; var. dp. en colonne; pourcentages en ligne) Cas 2: Relation entre deux variables indpendantes Convention:

Calcul des pourcentages en ligne et en colonne pour interprter la relation. Par exemple, existe-t-il une relation entre l'tat civil et le sexe des candidats la matrise en gographie; on peut facilement constater qu'il n'y a pas de dpendance entre les variables, le sexe d'un candidat ne dpend pas de son tat civil et son tat civil ne dpend pas de son sexe.

Retour au plan de cours