Vous êtes sur la page 1sur 43

CETE du Sud-Ouest

12, av. Edouard Belin


31400 Toulouse
Tel. : +33 (0) 5 62 25 97 70
Fax : +33 (0) 5 62 25 97 99
E-Mail : zelt@equipement.gouv.fr

G
Geessttiioonn ddeess ddppllaacceem
meennttss
EEvvaalluuaattiioonnss ddiim
mppaacctt eett tteessttss ddee m
maattrriieell

Calcul de la taille des chantillons


Application aux cas simples et usuels

Patrick Olivero

9000
8500
500

8000
450

7500

(CETE du Sud-Ouest / DAT/ZELT)

400

7000

6500350
Taille de l'chantillon

6000300
5500250
5000
200

4500
150

Version 2.1

4000
100

3500

300050
2500 0
10%

15%

20%

25%

30%

35%

40%

45%

Avril 2001

50%

2000
1500
1000
500
0
0,0%

5,0%

10,0%

15,0%

20,0%

25,0%

30,0%

Prcision relative (%)

35,0%

40,0%

45,0%

50,0%

Remerciements
M Jean Peybernard, chercheur au LCPC et professeur de statistique l'ENTPE,
M. Nour-Eddin El Faouzi, statisticien, chercheur au laboratoire LICIT (INRETS / ENTPE),
ont bien voulu effectuer une lecture critique d'une premire bauche de ce document.
Leurs conseils ont permis de nombreuses clarifications et simplifications, et nous les
remercions vivement pour cette contribution.

Sommaire
1

GENERALITES SUR LES PROBLEMES DE LECHANTILLONNAGE .......................................... 5


1.1
LA QUALITE DES MESURES .................................................................................................................... 6
1.2
LA REPRESENTATIVITE DE LECHANTILLON .......................................................................................... 7
1.2.1
Gnralits ...................................................................................................................................... 7
1.2.2
Cas particulier des enqutes dopinion........................................................................................... 8
1.2.2.1
1.2.2.2
1.2.2.3

1.3
2

Gnralits............................................................................................................................................. 8
Aperu sur la mthode des quotas ......................................................................................................... 8
Exemple................................................................................................................................................. 9

LA TAILLE DE LECHANTILLON ........................................................................................................... 10

ENJEUX ET DIFFICULTES DU DIMENSIONNEMENT DES ECHANTILLONS ......................... 11


2.1
2.2
2.3
2.4
2.4.1
2.4.2
2.4.3

ENJEUX ............................................................................................................................................... 11
DIFFICULTES ....................................................................................................................................... 14
CHAMP DE LETUDE ............................................................................................................................ 14
QUELQUES DEFINITIONS PREALABLES ................................................................................................. 15
Variable discrte, variable continue ............................................................................................. 15
Echantillonnage indpendant, chantillonnage exhaustif............................................................. 15
Niveau de confiance, niveau de risque .......................................................................................... 16

3
TAILLE DE LECHANTILLON DANS LE CAS DE LA MESURE DE LA MOYENNE DUNE
VARIABLE CONTINUE ................................................................................................................................... 17
3.1
BASE THEORIQUE : LOI DE LA MOYENNE DUN GROS ECHANTILLON ................................................... 17
3.2
METHODE ........................................................................................................................................... 18
3.2.1
Choix dun niveau de risque accept............................................................................................. 18
3.2.2
Choix dune prcision relative ...................................................................................................... 18
3.2.3
Dtermination dun ordre de grandeur du rapport c = s /x et calcul de n.................................. 19
3.3
EXEMPLE ............................................................................................................................................ 20
4

TAILLE DE LECHANTILLON DANS LE CAS DE LA MESURE DUNE FREQUENCE ........... 22


4.1
BASE THEORIQUE ................................................................................................................................ 22
4.1.1
Notations et dfinitions.................................................................................................................. 22
4.1.2
Principes de la mthode ................................................................................................................ 22
4.2
CAS GENERAL (TRAITEMENT DU PROBLEME PAR LA LOI BINOMIALE).................................................. 23
4.2.1
Position du problme .................................................................................................................... 23
4.2.2
Abaques ZELT............................................................................................................................... 24
4.2.2.1
4.2.2.2
4.2.2.3

Justification thorique ......................................................................................................................... 24


Abaques............................................................................................................................................... 24
Exemples ............................................................................................................................................. 38

4.3
APPROXIMATIONS DE LA LOI BINOMIALE ............................................................................................ 40
4.3.1
Position du problme .................................................................................................................... 40
4.3.2
Approximation par la loi normale................................................................................................. 40
REFERENCES.................................................................................................................................................... 42
ANNEXE : TABLE U(1-
/2) EN FONCTION DE ....................................................................................... 43

Avant-propos
Depuis plusieurs annes, plusieurs travaux mthodologiques ont eu pour ambition de fournir
aux techniciens des outils leur permettant de raliser, ou de piloter, les tudes d'valuation
des matriels et systmes d'exploitation.
Dans le domaine urbain et priurbain, ces travaux ont souvent t raliss l'initiative du
CERTU, en particulier au sein d'un groupe de travail sur l'valuation des oprations
1
d'exploitation dites "SDER de niveau 1".
Il est apparu ce groupe de travail qu'un minimum de connaissances statistiques tait
ncessaire aux techniciens pour raliser les plans d'exprience et interprter les rsultats.
Pour actualiser et renforcer cette comptence, un stage de formation Mthodes statistiques
pour l'exploitation de la route, assur par M. Jean Peybernard (LCPC), a t organis, et une
2
premire session a eu lieu en 2000.
En complment, le CERTU a demand la ZELT de rdiger une note technique sur le calcul
de la taille des chantillons, cueil sur lequel se heurtent parfois les exprimentateurs
lorsqu'ils laborent les plans d'exprience.
Le problme a t trait ici d'une manire pragmatique, c'est--dire en fournissant des
mthodes ou outils (abaques) permettant de traiter la plupart des cas courants.
En particulier, nous n'avons pas dvelopp le cas des petits chantillons et nous nous
sommes placs dlibrment dans l'hypothse d'une taille d'chantillon suprieure 30.
Nous avons conserv un dcoupage du problme en 2 sous-ensembles : mesure de la
moyenne d'une variable continue d'une part ; mesure d'une frquence (proportion) d'autre
part. Nous n'ignorons pas que, moyennant certaines restrictions d'emploi, ces 2 situations
peuvent tre traites de manire analogue par emploi de la loi normale ; toutefois, il nous a
sembl prfrable de fournir, pour les proportions, des outils dvelopps partir de la loi
binomiale dont les conditions d'application sont trs larges et non brides par la condition
usuelle np>20.
Nous avons privilgi ici l'utilisation d'abaques. Les outils informatiques qui ont permis leur
tablissement ont t fournis au CERTU.

1
2

Groupe de travail dirig successivement par JP Mizzi et F. Kunkel.


D'autres sessions de ce stage sont programmes ou le seront. Contacter le CERTU cet effet.

11 G
meess ddee llcchhaannttiilllloonnnnaaggee
Gnnrraalliittss ssuurr lleess pprroobbllm
La ralisation dun test de matriel, ou dune valuation dimpact a gnralement pour
objectif de fournir des informations sur une variable (ou plusieurs) caractristique du
3
phnomne tudi ; par exemple :

Temps de parcours des vhicules entre deux points A et B.

Pourcentage de vhicules franchissant un feu au rouge.

Taux de dtection dun capteur.

Taux de fausses alarmes dun systme de DAI. 4

Frquence de passage dun bus son arrt commercial.

etc.

La nature des phnomnes qui nous occupent fait quil est impossible (indpendamment
mme de toutes considrations logistiques) de procder une tude exhaustive de la
population concerne ; on procde donc par chantillonnage.
Plus prcisment : lexprimentateur choisit une priode de temps, ou un nombre dindividus,
qui sera le support des mesures ; le nombre dindividus observs constitue lchantillon ; il
doit tre tel (autant que faire se peut) que les caractristiques de la variable tudie, tablies
sur l' chantillon, reprsentent galement les caractristiques de la population relle.
Or, la satisfaction de cet espoir nest pas certaine ; elle dpend de plusieurs facteurs,
parmi lesquels :

3
4

La pertinence et la qualit des mesures effectues.

La reprsentativit de lchantillon.

La taille de lchantillon.

Nous nous limitons ici, et ce sera le cas dans tout ce document, des exemples qui concernent la gestion des dplacements.
DAI : Dtection Automatique dIncidents.

1.1 La qualit des mesures


Nous ne dveloppons pas ce point, qui relve du savoir-faire de lexprimentateur et de la
pertinence des mthodes de mesure quil utilise. Nous nous limitons quelques
considrations gnrales qui npuisent pas le problme :

Lorsque des enqutes par interview ou questionnaire sont utilises, on prendra


garde au biais dit de complaisance , qui est la tendance du sujet interrog se
positionner sur les rponses quil suppose attendues. Il est parfois possible de faire
5
des hypothses crdibles sur loccurrence de ce biais . Le biais contraire peut tre
qualifi de biais militant : il consiste privilgier lutilit suppose de la rponse
au dtriment de son objectivit. Ce dernier biais doit tre apprhend lors de la
constitution de lchantillon et relve du problme de la reprsentativit, problme
trait plus loin.

Lorsquun appareillage technique est utilis pour effectuer des mesures,


l'impression intrinsque de la mesure est une donne quil ne faut pas confondre
avec l'incertitude rsultant de la taille de lchantillon. La premire viendra toujours
sajouter la seconde. En dautres termes, les bornes de lintervalle de confiance
seront galement associes un intervalle de prcision rsultant de la qualit
mtrologique de lappareil.

La prcision dun appareil de mesure peut galement dpendre de facteurs


extrinsques ventuellement non matrisables : par exemple la mto, la luminosit,
lenvironnement lectromagntique, le savoir-faire de loprateur, etc.

La prcision du rsultat peut parfois tre entache par des imprcisions (voire des
erreurs de manipulation) rsultant non pas de la mesure mais du traitement qui est
fait de cette mesure. Par exemple : supposons que lon tudie la rpartition des
temps de parcours, sur un trajet donn AB en milieu urbain, et que les donnes
recueillies soient des dates de passage en A et en B ; supposons en outre que lon
dispose dun logiciel capable dapparier les dates de passage dun vhicule donn
et den dduire un temps de parcours6. Ce logiciel doit tre capable dliminer les
temps de parcours anormaux qui sont ceux de vhicules ayant effectu un arrt
de longue dure sur le trajet AB, arrt dont on peut supposer quil nest pas une
consquence des conditions de trafic, mais relve du libre choix du conducteur ou
de circonstances fortuites (sarrter pour faire un achat ; sarrter pour cause de
panne ou dincident ; etc.). Le traitement des donnes doit donc tre prcd par
une phase de validation et de dtection des valeurs aberrantes.

Des analyses de ce type ont t effectues par la ZELT dans les travaux du programme europen CENTAUR.
Cf. rfrence [6].
6

Cet exemple nest pas fortuit : cette mthode et ces outils sont ceux utiliss par la ZELT, mthode dite ZELT-PSION .

1.2 La reprsentativit de lchantillon


1.2.1 Gnralits
7

Ce problme, important , relve lui aussi du savoir-faire de lexprimentateur et de sa


connaissance de la population tudie. Il peut ncessiter le recours des comptences plus
spcialises, qui sont celles dorganismes spcialiss dans les sondages. La position du
problme est simple et nappelle pas de longs dveloppements : est-ce que lchantillon
possde des caractristiques proches de celles de la population ?
Quelques exemples :

On sintresse la vitesse moyenne des vhicules sur une section donne de


8
VRU , et on ne mesure que la vitesse des vhicules circulant sur la voie de droite :
on a toutes chances davoir un rsultat par dfaut.

On sintresse aux temps de parcours de vhicules en les mesurant par insertion


de vhicules dans le flot : lchantillon obtenu ne sera reprsentatif que si le
conducteur-enquteur sest astreint un mode de conduite proche de celui de
lensemble des vhicules.

On sintresse au temps de parcours en milieu urbain, mais la priode de mesures


inclut des pisodes non rcurrents (manifestations sociales, intempries non
usuelles, etc.).

On sintresse au taux de violation dun feu rouge mais on neffectue les mesures
que pendant des priodes de trafic dense : chantillon non reprsentatif car la
probabilit de violation du rouge est certainement une fonction dcroissante du taux
doccupation (hors saturation).

On sintresse la rentabilit dun carrefour (nombre de vhicules couls par


seconde de vert) mais les conditions de trafic pendant la priode de mesure ne
correspondent pas au champ optimum dutilisation de lalgorithme de rgulation.

Etc.

Dans les exemples cits ci-dessus, des rflexions qui relvent du simple bon sens
permettent dviter les cueils.
Il nen est pas de mme pour les expriences utilisant des enqutes (interviews ou
questionnaires) : le problme est plus complexe, et nous allons nous y attarder quelque peu.

Lessentiel de ce document est consacr la dtermination de la taille de lchantillon. Ce chapitre relatif la reprsentativit
de lchantillon est en quelque sorte un dveloppement annexe succinct.
8

VRU : Voie Rapide Urbaine.

1.2.2 Cas particulier des enqutes dopinion


1.2.2.1

Gnralits

Les enqutes dopinion sont frquemment utilises dans des problmes relatifs la gestion
des dplacements, pour apprcier lacceptabilit dun systme par les usagers.
Par exemple :

Lisibilit et comprhension de linformation routire.

Opinion sur lutilit, ou lutilisation, dun systme quelconque.

Analyse de facteurs expliquant les choix modaux.

Opinion sur la qualit du service rendu.

Enqutes destines prvoir le comportement des usagers.

Etc.

A notre sens, lexprimentateur doit clairement choisir entre lun ou lautre des deux objectifs
suivants :
Lobjectif est davoir un avis dexpert
Dans ce cas lchantillon sera constitu au sein du sous-ensemble de la population le plus
directement concern par le problme tudi.
Exemple : on veut tudier lopinion de la population sur la qualit des amnagements
destins aux vlos ; si lchantillon est constitu par une partie quelconque de la population,
le taux de cyclistes pratiquants sera faible ; les rponses assises sur la pratique relle du
vlo seront minoritaires ; elles seront noyes dans la masse des rponses moins
pertinentes manant de cyclistes occasionnels, voire de non-cyclistes. Pour obtenir des
rponses dexpert , il faut constituer lchantillon dans une population particulire,
interviewe in situ (cest--dire sur un vlo), ou constitue partir dun fichier dassociation
de cyclistes. Au sein de cette sous-population reprsentative, on pourra alors admettre que
lon effectue un sondage alatoire, cest--dire que tous les individus sont reprsentatifs.
Lobjectif est davoir une opinion de lensemble de la population
Dans ce cas la prcaution prendre est de sassurer que lchantillon possde des
caractristiques reprsentatives de la population totale ou, plus prcisment, que les
variables que lon contrle au sein de lchantillon sont celles qui sont susceptibles davoir
une incidence sur les rponses fournies. En toute rigueur, ce problme est impossible
rsoudre. En effet, ce nest que lorsque lenqute sera effectue, que lon pourra analyser
lensemble des caractristiques et dterminer celles qui sont pertinentes (cest--dire qui
sont explicatives des rponses) et quil aurait fallu contrler. Fort heureusement, on peut
souvent faire des hypothses crdibles sur la nature des variables contrler, et construire
lchantillon en utilisant la mthode dite des quotas , brivement dcrite ci-dessous.

1.2.2.2

Aperu sur la mthode des quotas


8

La mthode des quotas est en fait la succession de 4 tapes distinctes :


1. On choisit les variables, dites variables de contrle que lon suppose corrles avec
les variables statistiques que lon veut tudier.
Exemple : on tudie lacceptabilit par lusager dun systme de page urbain et on fait
lhypothse que les variables de contrle sont le niveau de revenu, le lieu dhabitat et le lieu
de travail. Ceci signifie que lon suppose que lacceptabilit du page est explique par ces 3
variables. On peut se tromper : par exemple, il se pourrait que, niveau de revenu identique,
la population jeune soit plus rticente au principe du page que la population plus ge (ou
le contraire) ; dans ce cas, il aurait fallu ajouter lge comme variable de contrle
supplmentaire. Dans dautres cas, le sexe, la catgorie socioprofessionnelle (CSP), les
prfrences politiques, etc. doivent tre prises en compte. Dans le doute, on pourra ajouter
des variables de contrle dont on nest pas sr de la pertinence ; mieux vaut cet excs de
prcaution que linverse. Toutefois, la multiplication des variables de contrle rend plus
difficile (et plus coteuse) la constitution de lchantillon, et il faut garder une juste mesure en
la matire.
2. On recherche, sur la base des donnes statistiques existantes, la rpartition des
variables choisies dans la population totale. Pour des variables telles que lge, le sexe, le
lieu dhabitat, la CSP, les donnes sont souvent accessibles lINSEE ou dans des
banques de donnes publiques. Pour dautres variables (le revenu par mnage, la
prfrence politique, etc.) on est moins assur de disposer de donnes fiables et
rcentes.
3. On construit lchantillon en multipliant le taux de sondage par le pourcentage
doccurrence de chacune des variables de contrle dans la population totale (cf. exemple
ci-dessous).
4. On ralise lenqute en respectant les pourcentages calculs ci-dessus.

1.2.2.3

Exemple

Cet exemple est fictif. Ne pas sattacher la vraisemblance des valeurs numriques, mais
aux principes de la mthode.
On souhaite effectuer une enqute au 1/100 sur lutilisation des transports en commun pour
les dplacements domicile-travail, auprs de la population active de plus de 15 ans dune
grande agglomration. On suppose que le lieu dhabitat et le lieu de travail sont des
variables de contrle ; on a un doute sur le caractre explicatif de lge et du sexe.
On dcoupe le primtre urbain en n zones ; supposons quil y ait 3 zones : centre-ville,
priphrie du centre, banlieue, que nous dsignons dans ce qui suit par A, B et C.
La taille de lagglomration est suffisamment importante pour que lon puisse disposer des
donnes suivantes (ou les estimer de manire fiable) :
Rpartition des types de trajets effectus par les actifs de plus de 15 ans pour leurs
dplacements domicile vers travail
AA

AB

AC

BA

BB

BC

CA

CB

CC

Total

20%

10%

5%

10%

5%

5%

30%

10%

5%

100%

Les donnes de lINSEE, et autres banques de donnes fournissent les donnes suivantes :
Nombre dactifs de plus de 15 ans : 350 000 actifs, dont 60% dhommes et 40% de femmes.
Rpartition par ge

De 15 24 ans : 15%.

De 25 34 ans : 40%.

de 35 59 ans : 40%.

60 ans et plus : 5%.

Le sondage tant effectu au 1/100, on veut disposer dun chantillon de 3500 personnes.
Compte tenu des donnes qui prcdent on demandera lorganisme charg de raliser les
enqutes de constituer lchantillon au plus proche de ce qui suit :

Cible : actifs habitant et travaillant dans lagglomration et gs de plus de 15 ans.

Sexe : 2100 hommes ; 1400 femmes.

Rpartition par ge :

De 15 24 ans : 525.

De 25 34 ans : 1400.

de 35 59 ans : 1400.

60 ans et plus : 175.

Rpartition des trajets domicile-travail :

AA

AB

AC

BA

BB

BC

CA

CB

CC

Total

700

350

175

350

175

175

1050

350

175

3500

On conoit aisment que la constitution dun chantillon rpondant ces critres soit affaire
de spcialistes.

1.3 La taille de lchantillon


Cette question est dtaille dans les chapitres qui suivent. Elle peut tre rsume par la
question suivante :
Quelle taille doit-on donner l'chantillon pour disposer d'une estimation satisfaisante des
caractristiques de la population tudie avec une prcision acceptable? .

10

22 EEnnjjeeuuxx eett ddiiffffiiccuullttss dduu ddiim


meenntt ddeess cchhaannttiilllloonnss
meennssiioonnnneem
2.1 Enjeux
Pour illustrer l'importance de la taille de lchantillon, nous avons simul une population dont
les individus reprsentent la rponse dun capteur au passage dun vhicule. La variable
attache cet vnement est une variable discrte pouvant prendre lune ou lautre des
valeurs 0 (le vhicule nest pas dtect) ou 1 (le vhicule est dtect).
La valeur vraie du taux de non dtection dans cette population est de 15,1 %. La rpartition
des non dtections est alatoire. L'exemple a pour but de montrer comment varie l'estimation
du taux de dtection quand on fait crotre la taille de l'chantillon.
Supposons que lon ralise une exprience destine mesurer le taux de dtection dans
cette population en "tirant" un chantillon de taille n.
La figure qui suit montre quel serait le rsultat obtenu exprimentalement en fonction de la
taille de n :
Figure 1 : variation de l'estimation du taux de non dtection en fonction de la taille de l'chantillon
(exemple)
20,0%

frquences exprimentales

15,0%

10,0%

5,0%

0,0%
0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

Taille de l'chantillon n

Si on appelle prcision de la mesure la valeur absolue du demi-cart relatif entre la


frquence exprimentale et la valeur vraie, on a lvolution suivante, en fonction de n :
9

Ou "justesse de la mesure".

11

Figure 2 : variation de la prcision de la mesure en fonction de la taille de l'chantillon (exemple)


20,0%

17,5%

15,0%

Prcision %

12,5%

10,0%

7,5%

5,0%

2,5%

0,0%
0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

Taille de l'chantillon n

Supposons que lon accepte de se limiter une prcision de 5%. La taille minimale de
lchantillon correspond l'effectif au del duquel la prcision (au sens o nous lavons
dfinie plus haut) est stabilise au dessous de 5%.
Pour prciser cette valeur, nous nous intressons ci-dessous l'intervalle [0, 1000].
Figure 3 : taille d'chantillon ncessaire pour une prcision de 5% (exemple)
30,0%

25,0%

Prcision %

20,0%

15,0%

10,0%

5,0%

0,0%
0

50

100

150

200

250

300

350

400

450

500

550

600

650

700

750

800

850

900

950

1000

Taille de l'chantillon n

12

On voit quil est ncessire que l'chantillon contienne 375 individus pour atteindre la
prcision souhaite.
Si par contre on voulait atteindre une prcision de 2,5%, il faudrait un chantillon d'environ
2400 individus, comme le montre le graphe ci-dessous :
Figure 4: taille d'chantillon ncessaire pour une prcision de 2,5 % (exemple)
10,0%

Prcision %

7,5%

5,0%

2,5%

0,0%
0

250

500

750

1000

1250

1500

1750

2000

2250

2500

2750

3000

3250

3500

3750

4000

4250

4500

4750

5000

Taille de l'chantillon n

Les valeurs numriques prsentes plus haut ne sont pas extrapolables dautres
populations. Par contre les tendances sont gnralisables (elles correspondent dailleurs au
sentiment intuitif de tout un chacun) :

Lorsque la taille de lchantillon crot, la frquence exprimentale se rapproche de


la frquence relle et la prcision de la mesure samliore.

Une taille dchantillon trop faible ne permet pas de conclure avec une prcision
raisonnable.

13

2.2 Difficults
Les dveloppements qui prcdent ont t possibles car, sagissant dune population
parfaitement dcrite, on connaissait a priori le rsultat, cest dire la frquence relle.
Bien entendu, ce nest jamais le cas puisque le but de lexprience est, prcisment, de
dterminer cette frquence.
Dans la pratique lexprimentateur peut fixer ses propres contraintes en matire de prcision
attendue mais ne peut pas choisir au hasard la taille de lchantillon qui lui permettra de
satisfaire ces contraintes. Il souhaite donc pouvoir prdterminer la taille de
lchantillon.
Prcisons demble que ce problme est, en toute rigueur, impossible rsoudre. En effet
sa rsolution suppose connues des valeurs qui sont lenjeu de lexprience. Dans tous les
cas, on est amen faire des hypothses sur lordre de grandeur des rsultats que lon va
obtenir.
En dautres termes, on nest jamais assur a priori davoir correctement dimensionn un
chantillon. Ce nest qua posteriori que lon pourra vrifier l'adquation des hypothses des
hypothses sur les ordres de grandeur.
Mais cette vidence ne doit pas tre dcourageante : dune part car il est souvent possible
de faire des hypothses crdibles ; dautre part car un mauvais dimensionnement de
lchantillon ne rend pas forcment caduque lexprience : il modifie, dans un sens ou dans
lautre, la qualit de l'estimation. Si la prcision est meilleure que celle espre, lchantillon
aura t dimensionn trop largement et le seul regret que pourra avoir lexprimentateur est
davoir t trop luxueux . Dans le cas contraire, la taille de lchantillon aura t sousestime et il est de la responsabilit de lexprimentateur de dcider si la qualit de
l'estimation reste acceptable.

2.3 Champ de ltude


Ltude prsente ici est limite deux situations simples dont nous estimons quelles
correspondent la majorit des problmes rencontrs par le praticien de lexploitation de la
route :

La dtermination de la taille dun chantillon pour la mesure de la moyenne dune


variable continue.

La dtermination de la taille dun chantillon pour la mesure de la frquence dune


variable discrte pouvant prendre deux tats.

La premire situation sera illustre par lexemple dune exprience destine mesurer des
temps de parcours de vhicules.
La seconde par lexemple dune exprience destine mesurer le taux de dtection dun
capteur.

14

2.4 Quelques dfinitions pralables


2.4.1 Variable discrte, variable continue

Une variable discrte est une variable dont le domaine de dfinition comprend un
nombre fini de valeurs, ou un nombre infini de valeurs dnombrables. Exemples : la
variable caractrisant loccurrence ou la non occurrence de la dtection par un
capteur est une variable discrte pouvant prendre deux valeurs ; la variable
caractrisant le nombre dincidents rels dtects par un systme de DAI entre
loccurrence de deux fausses dtections successives est une variable discrte
pouvant prendre une infinit de valeurs dnombrables (1, 2, n) ; etc.

Une variable continue est une variable dont le domaine de dfinition est un
intervalle continu. Exemple : la vitesse des vhicules, les temps de parcours, etc.

Dans la pratique, la frontire entre variable discrte et variable continue est permable. Par
exemple : le temps de parcours est une variable continue. Mais si on mesure ces temps
avec une prcision de la seconde, on peut aussi considrer que cest une variable discrte
dont lintervalle de dfinition est infini et dnombrable (le nombre de secondes).

2.4.2 Echantillonnage indpendant, chantillonnage exhaustif


Un chantillonnage est dit indpendant (ou avec remise ), si le fait de tirer un individu
dans la population totale ne modifie pas la probabilit quont les autres individus dtre tirs.
Dans le cas contraire, il est dit exhaustif (ou sans remise ).
Un exemple simple permettra de comprendre ces notions :
Supposons quune urne contienne 100 boules, dont 10 sont noires, les autres blanches. Au
dpart, la probabilit de tirer une boule noire est gale 1/10. Supposons que le premier
tirage soit une boule blanche et que lon ne remettre pas cette boule dans lurne. Au
deuxime tirage, la probabilit de tirer une boule noire aura augment : elle deviendra gale
10/99. Si au contraire le premier tirage est une boule noire et que lon neffectue pas de
remise, la probabilit de tirer une boule noire au 2 tirage a diminu et devient gale 9/99.
Si par contre on remet systmatiquement la boule tire dans lurne, la probabilit de tirer une
boule noire reste constante et gale 1/10.

Dans tout ce qui suit, nous nenvisageons que des tirages indpendants. On admettra en
effet, pour reprendre les deux exemples cits plus haut :
1. Que le fait pour un vhicule dtre ou de ntre pas dtect ne modifie pas la probabilit
quont les autres vhicules dtre ou de ntre pas dtects.
2. Que le fait pour un vhicule davoir mis un temps ti pour aller de A B, ne modifie pas la
loi de distribution des probabilits de t pour les autres vhicules.

15

2.4.3 Niveau de confiance, niveau de risque


Nous appelons niveau de confiance (ou seuil de confiance) dun vnement quelconque, la
probabilit attache l'estimation d'un paramtre de la population. Nous notons (1 - ) ce
seuil de confiance, avec 0 1 et la probabilit de l'vnement contraire (probabilit de
conclure tort), appel niveau de risque.

16

33 TTaaiillllee ddee llcchhaannttiilllloonn ddaannss llee ccaass ddee llaa m


meessuurree ddee llaa
m
mooyyeennnnee dduunnee vvaarriiaabbllee ccoonnttiinnuuee
3.1 Base thorique : loi de la moyenne dun gros chantillon
La loi de probabilit de la moyenne arithmtique dun chantillon tir avec remise dans une
population de moyenne m et dcart-type , peut tre assimile une loi normale de
moyenne m et dcart-type /n, quelle que soit la distribution de lchantillon, si la taille de
10
l'chantillon est suffisante .

Supposons lexprience effectue : on a tir un chantillon de taille n dont la moyenne


arithmtique est x et lcart-type s'.
La thorie montre que la moyenne arithmtique est toujours un estimateur sans biais de la
11
moyenne relle m et que, dans le cas de tirages indpendants, un estimateur sans biais de
lcart-type de la population est :

s=s'

n
n1

Lintervalle de confiance bilatral symtrique de la moyenne, pour un niveau de risque est


alors donn par :

x u 1 / 2 s n
Dans cette expression u(1-/2) est la valeur de la variable centre rduite correspondant au
seuil de probabilit (1-/2). Cette valeur est disponible dans les tables et tableurs usuels.
On trouvera en annexe 1 une table donnant u(1-/2) en fonction de , pour variant entre 0,01
et 0,1.

10

Dans la pratique on admet que la taille de lchantillon doit tre suprieure 30. Cest lhypothse que nous faisons dans
tout ce chapitre.
11

Un estimateur dune caractristique quelconque dune population est dit sans biais sil est toujours centr sur la valeur
relle de cette caractristique dans la population. Cest le cas pour la moyenne arithmtique de lchantillon. Ce nest pas le cas
pour lcart-type : lcart-type dun chantillon est un estimateur biais de lcart-type de la population relle.

17

3.2 Mthode
3.2.1 Choix dun niveau de risque accept
Lexprimentateur doit choisir pralablement un niveau de risque accept .
reprsente la probabilit de conclure tort que la moyenne relle de la population est
comprise dans lintervalle de confiance calcul partir de lchantillon (dans la pratique on
choisit souvent = 5%, ce qui signifie quen moyenne on se trompe une fois sur 20).
On admettra dans tout ce qui suit que le risque est partag, cest--dire que la probabilit
d'tre infrieur la borne infrieure de l'intervalle de confiance est gal au risque d'tre
suprieur la borne suprieure de cet intervalle, soit : /2.

3.2.2 Choix dune prcision relative


Nous appelons dans ce qui suit prcision relative, la valeur :

I=

u 1 / 2 s n
x

I, exprime en pourcentage, a une interprtation immdiate : cest la demi-tendue de


12
lintervalle de confiance rapporte la moyenne . Par exemple : le fait de choisir I = 10 %
signifie que lon souhaite un intervalle de confiance dont lamplitude soit :

x 10%
x

Lexprimentateur doit choisir la valeur I de la prcision relative souhaite.


Posons c = s / x

= coefficient de variation ; il vient :

n= cu(1 / 2)
I

n reprsente la taille minimale de lchantillon permettant de disposer dune prcision I, avec


un niveau de risque .
Si on examine cette expression, on voit quelle comporte un terme u connu si est connu,
un terme I choisi par lexprimentateur et un rapport c = s / x inconnu.
On touche l la difficult incontournable dj signale qui rside dans le fait que le calcul
ncessite la connaissance de donnes qui ne peuvent pas tre rigoureusement connues
12

Attention : ne pas confondre lincertitude relative avec le risque .

18

avant lexprience. La prdtermination de la taille de lchantillon ncessite imprativement


une valuation de lordre de grandeur du coefficient de variation c.

3.2.3 Dtermination dun ordre de grandeur du rapport c = s /


x et calcul de n
Pour dterminer l'ordre de grandeur de c, les outils disponibles sont en nombre limit. Nous
en voquons 3 :
1. Lordre de grandeur est connu par ltat de lart ou par des expriences antrieures : on
utilisera le rapport c dduit de ces donnes disponibles.
2. On effectue un test pralable de calibrage en relevant une trentaine de temps de
parcours et on utilise comme valeur approche de calcul la valeur c mesure sur cet
chantillon de calibrage.
3. La situation la plus favorable est celle o le recueil de donnes est automatique et ne
ncessite pas la mise en uvre de moyens coteux. On peut alors se permettre de
dbuter lexprience au fil de leau et deffectuer un suivi de lvolution du coefficient c
au fur et mesure de la croissance de lchantillon. Lorsque c est peu prs stabilis, on
utilise cette valeur pour dimensionner lchantillon, cest--dire fixer le terme de
lexprience.
Lorsquon dispose dun ordre de grandeur de c, par un moyen quelconque, on procde au
calcul de n.
Nous avons vu plus haut que :

n= cu(1 / 2)
I

Le calcul de n ne pose donc aucune espce de difficult.

19

3.3 Exemple
On veut raliser une exprience destine mesurer des temps de parcours de vhicules
entre 16h et 19h. Pour dterminer lordre de grandeur de c, on effectue une mesure de
calibrage en mesurant 30 temps de parcours sur le site, entre 17h et 18h. Ces 30 mesures
fournissent les temps suivants (en secondes) :
1110

992

884

999

770

993

1109

952

869

1057

975

947

1036

960

1026

1063

1180

746

735

783

1033

963

988

771

722

791

1278

911

1025

971

La moyenne de cet chantillon est gale : 955 secondes et son cart-type est gal 136
secondes.

Estimateur sans biais de la moyenne : 955s.

Estimateur sans biais de l'cart-type : 136.30/29 = 138

Une valeur approche du coefficient c est donc : 138 / 955 = 0,145. On utilise cette valeur
pour prdimensionner lchantillon, avec les choix suivants : 1 - = 0,99 et I = 5%.
Avec :

C = 0,145

I = 0,05

u(1-/2) = u0,995 = 2,58

soit : n = 56 (cf. formule de calcul au prcdent).


Cette valeur tant assez faible, on peut se permettre daugmenter la prcision du rsultat en
augmentant la taille de lchantillon. On a cherch quel tait le prix payer pour cela :
Prcision relative

Taille

5%

56

4%

87

3%

156

2%

350

Une taille n = 100 semble un compromis raisonnable. L'exprience a t conduite avec cette
taille d'chantillon et a conduit aux rsultats suivants :

Moyenne = 994 s.

Ecart-type = 148 secondes. Estimateur sans biais = 149s.


20

On peut maintenant calculer la prcision relative I :

I=

u 1 / 2 s n
x

avec :
u(1-/2) = u0,05 = 2,58
s = 149 s

x = 994 s
n = 100

soit : I% = 3,9 %
soit : 956 s < m < 1032 s.

21

44 TTaaiillllee ddee llcchhaannttiilllloonn ddaannss llee ccaass ddee llaa m


meessuurree dduunnee
ffrrqquueennccee
4.1 Base thorique
On sintresse ici au calcul de la taille de lchantillon lorsque la variable est une variable
discrte binaire.
Lexemple qui nous servira de support est la dtermination exprimentale du taux de
13
dtection dun capteur .

4.1.1 Notations et dfinitions


Lvnement lmentaire est constitu par le passage dun vhicule sur le capteur.
La variable est ltat du capteur :
X=1 : le vhicule est dtect.
X=0 : le vhicule nest pas dtect.

On appellera parfois tirage loccurrence dun vnement.


On dsignera par p la probabilit (inconnue) de non-dtection
probabilit de dtection est donc 1-p.

14

dans la population totale. La

Dans lchantillon de taille n nous dsignerons par f la frquence


exprimentalement, et par k le nombre dvnements lui correspondant.

observe

On a donc un estimateur de p donn par f = k/n.

4.1.2 Principes de la mthode


Dans son principe gnral, la mthode est similaire celle utilise pour prdterminer
lchantillon destin estimer la moyenne dune variable continue. Elle en diffre par les
moyens de calcul utiliser.
1. Lexprimentateur doit choisir pralablement un niveau de risque accept . On admettra
ici aussi que le risque est partag (/2).
2. Soient p1 et p2 les bornes de lintervalle de confiance de la proportion inconnue p, dont un
estimateur est f. Nous appelons dans ce qui suit prcision relative de la mesure la
valeur : I%=

(p2 p1) 2
, ou f est la frquence mesure. Il sagit donc de la demi-amplitude
f

13

Plus exactement : du taux de non-dtection, complment 1 du taux de dtection. Le principe de lexprience est, par
exemple, le suivant : un observateur relve et date tous les passages de vhicules sur le capteur ; on compare ces relevs avec
les donnes fournies par le capteur. Le taux de non-dtection est le pourcentage de vhicules ayant effectivement franchi le
capteur mais qui nont pas t dtects. On ne sintresse pas ici aux fausses dtections qui constituent un problme diffrent.
14

Le lecteur pourra transposer sans peine lexemple tous types de phnomnes binaires. Il rservera la notation p la
probabilit de ltat dont la probabilit doccurrence est la plus faible.

22

15

de lintervalle de confiance, rapporte la frquence mesure . Lexprimentateur doit


choisir la valeur I de la prcision relative souhaite.
3. Lexprimentateur doit enfin faire une hypothse sur lordre de grandeur de la valeur de f
16
quil mesurera exprimentalement . On ne peut, l encore, quapprocher un ordre de
grandeur :

Soit par ltat de lart ou les informations fournies par lindustriel.

Soit par un test de calibrage pralable.

Soit au fil de leau , comme indiqu au 3.2.3

Dans ce qui suit, nous appellerons parfois la frquence f, frquence-cible .

4.2 Cas gnral (traitement du problme par la loi binomiale)


4.2.1 Position du problme
On assimile lexprience une srie de tirages indpendants (cf. 2.4.2). Comme nous
lavons dj indiqu, cela signifie que le fait quun vhicule soit, ou ne soit pas, dtect ne
modifie pas la probabilit quont les autres vhicules dtre, ou de ne pas tre, dtects.
Dans ces conditions la loi de densit de probabilit de la frquence est une loi binomiale
dont les caractristiques sont :

Moyenne = p
Ecart type =

p(1 p )
n

On trouve, dans la littrature, des tables et abaques souvent limites des tailles
d'chantillon infrieures 100 (par exemple dans [1]), plus rarement utilisables pour des
chantillons de taille suprieure (c'est le cas dans [4]).
Exemple :

Soit f la frquence cible, f = 0,4.

Soit I la prcision relative, I = 25%.

On choisit 1- =0,95, avec un risque partag (intervalle de confiance bilatral).

On cherche donc la taille minimale n de l'chantillon permettant de satisfaire l'inquation :


0,3 < p < 0,5
On utilise l'abaque Ib (page 52) de [1] ; on trouve n=100 environ17

15

On notera que le caractre discret de la loi binomiale implique que la valeur ne correspond gnralement pas exactement
la valeur centrale de lintervalle de confiance.
16

Cette hypothse est le pendant de lhypothse faite sur c dans le cas dune variable continue.

23

4.2.2 Abaques ZELT


La ZELT a tabli ses propres abaques de calcul pour traiter le problme dans le cas o la loi
18
binomiale peut tre utilise , c'est--dire :
Lorsque elle s'applique un tirage avec remise.
Lorsqu'elle s'applique un tirage sans remise condition que la fraction
prleve ne reprsente pas plus de 10% de la population totale.

4.2.2.1

Justification thorique

Sur un chantillon de taille n, la probabilit que la frquence exprimentale soit gale une
valeur p, cest--dire que le nombre de vhicules non-dtects soit k = np, est gale :
nk

Pr (k)=C p (1p)
k

Les limites infrieures et suprieures de l'intervalle de confiance (respectivement p1 et p2),


19
pour un seuil de confiance 1-, sont les solutions des quations suivantes :
n j

C p (1p1)
n

j= k

n j

C p (1p2)
k

j= 0

= / 2

= / 2

Le principe du calcul ralis par la ZELT pour l'tablissement des abaques consiste, pour
une frquence cible donne k/n, et pour 1- =0,95, tablir les courbes n=f(I%). Ce calcul a
t rendu possible par le dveloppement d'un programme spcifique sous environnement
20
DELPHI 4.

4.2.2.2

Abaques

On trouvera ci-aprs un jeu d'abaques tablis pour des valeurs de la frquence-cible variant
de 5% 50% (inclus) par pas de 5% (soit 10 abaques numrots de 1 10).
Un abaque supplmentaire (numrot 11) prcise le domaine des chantillons de taille
moyenne (taille infrieure 500).
On rappelle que ces abaques sont tablis pour 1- =0,95.

17
Dans la limite de la prcision de lecture sur l'abaque. Lecture assez difficile, car cet abaque n'a pas t construit pour fournir
n mais pour fournir un intervalle de confiance.
18

Elle peut l'tre dans les problmes dont nous traitons ici (exemple : taux de dtection d'un capteur) car la population dont est
extrait l'chantillon est quasiment infinie.
19
20

Voir justification de ces relations en [1], p. 42 ou en [4], p. 260 et suivantes.


Ce programme permet, si ncessaire, de dresser les abaques qui correspondent d'autres valeurs de 1- .

24

Utilisation des abaques n1 10 :


L'abaque utiliser est dtermin par la frquence-cible. Nous rappelons que la frquencecible reprsente l'ordre de grandeur prvisible de la frquence dans l'chantillon.
L'entre dans l'abaque est constitue par la prcision relative I %, en abscisse. Nous
rappelons que nous avons appel "prcision relative" le rapport entre la demi-amplitude de
l'intervalle de confiance et la moyenne mesure sur l'chantillon.
La taille de l'chantillon permettant de satisfaire I%, pour la frquence-cible considre et
pour 1- =0,95 est lue en ordonne.
Utilisation de l'abaque N11 :
L'abaque n11 est un rcapitulatif des abaques prcdents pour la zone n <500. Elle
n'apporte pas d'information supplmentaire par rapport aux abaques 1 10, mais procure
une meilleure lisibilit.

25

9000
8500
8000

Abaque n1
Frquence-cible : 5%

7500
7000

Taille de l'chantillon

6500

Confiance = 95 %

6000

Abaque CETE SO/DAT/ZELT

5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Prcision relative (%)

27

9000
8500
8000

Abaque n2
Frquence-cible : 10%

7500
7000

Taille de l'chantillon

6500

Confiance = 95 %

6000

Abaque CETE SO/DAT/ZELT

5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Prcision relative (%)

28

9000
8500
8000

Abaque n3
Frquence-cible : 15%

7500
7000

Taille de l'chantillon

6500

Confiance = 95 %

6000

Abaque CETE SO/DAT/ZELT

5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Prcision relative (%)

29

9000
8500
8000

Abaque n4
Frquence-cible : 20%

7500
7000

Taille de l'chantillon

6500

Confiance = 95 %

6000

Abaque CETE SO/DAT/ZELT

5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Prcision relative (%)

30

9000
8500
8000

Abaque n5
Frquence-cible : 25%

7500
7000

Taille de l'chantillon

6500

Confiance = 95 %

6000

Abaque CETE SO/DAT/ZELT

5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Prcision relative (%)

31

9000
8500
8000

Abaque n6
Frquence-cible : 30%

7500
7000

Taille de l'chantillon

6500

Confiance = 95 %

6000

Abaque CETE SO/DAT/ZELT

5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Prcision relative (%)

32

9000
8500
8000

Abaque n7
Frquence-cible : 35%

7500
7000

Taille de l'chantillon

6500

Confiance = 95 %

6000

Abaque CETE SO/DAT/ZELT

5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Prcision relative (%)

33

9000
8500
8000

Abaque n8
Frquence-cible : 40%

7500
7000

Taille de l'chantillon

6500

Confiance = 95 %

6000

Abaque CETE SO/DAT/ZELT

5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Prcision relative (%)

34

9000
8500
8000

Abaque n9
Frquence-cible : 45%

7500
7000

Taille de l'chantillon

6500

Confiance = 95 %

6000

Abaque CETE SO/DAT/ZELT

5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Prcision relative (%)

35

9000
8500
8000

Abaque n10
Frquence-cible : 50%

7500
7000

Taille de l'chantillon

6500

Confiance = 95 %

6000

Abaque CETE SO/DAT/ZELT

5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

Prcision relative (%)

36

Abaque n11 : domaine des chantillons de taille moyenne


500
450
400

Taille de l'chantillon

350

Cible 5%
Cible 10%
Cible 15%
Cible 20%
Cible 25%
Cible 30%
Cible 35%
Cible 40%
Cible 45%
Cible 50%

300
250
200
150
100
50
0
10%

15%

20%

25%

30%

35%

40%

45%

50%

Prcision (%)

37

4.2.2.3

Exemples

Exemple 1 :
Nous reprenons l'exemple dj utilis page 23.

Soit f la frquence cible, f = 0,4.

Soit I la prcision relative, I = 25%.

On choisit 1- =0,95, avec un risque partag (intervalle de confiance bilatral).

L'abaque 11 fournit la valeur n=100.


Exemple 2 :
On teste le taux de non-dtection d'un capteur.
On souhaite une prcision relative de 10%.
Les indications fournies par le constructeur laissent prsager une frquence-cible de non
dtection de l'ordre de 10%.
L'abaque n2 montre qu'il faudra disposer d'un chantillon de 3400 vhicules au minimum.
Exemple n3 :
Au milieu de la nuit, le taux de franchissement de feux rouges peut tre de l'ordre de 15%.
Si on veut tablir ce rsultat avec une incertitude relative de 20%, l'abaque n3 montre qu'il
faudra utiliser un chantillon de 600 vhicules au minimum.
Remarque : rappelons que ceci signifie que l'on vise un rsultat dont l'ordre de grandeur est :
12% < f < 18% avec une confiance de 95%.
Exemple n4 :
Pendant l'heure fluide diurne, le taux de franchissements illicites n'est que de 5% environ.
Pour tablir le rsultat avec la mme prcision relative que ci-dessus, c'est--dire pour
pouvoir affirmer avec une confiance de 95% que 4% < f < 5%, l'abaque n1 montre qu'il
faudra utiliser un chantillon de 2000 vhicules.
Exemple n5 :
21
On value l'efficacit d'un guidage par PMV en observant, dans un chantillon de n
vhicules, le comportement des usagers : suivi ou non des recommandations incitant
utiliser un itinraire de dlestage.

On estime, au vu d'expriences similaires, que le taux de non-respect est lev, de l'ordre de


45%.
On cherche un ordre de grandeur, et on se satisfait d'une prcision mdiocre, de l'ordre de
25%. L'abaque n 11 fournit : n = 80 vhicules.

21

PMV : panneau messages variables.

38

Exemple n6 :
Exemple trait, par une autre mthode, dans la rfrence [3], chap. IV, 4.5.4 :
"Pour estimer une proportion de l'ordre de 0,2, par un intervalle bilatral symtrique 0,95
d'amplitude +/- 0,03 il faut un chantillon de taille au moins gale 683".
Calcul par abaque ZELT : l'amplitude vise correspond une prcision relative I% = 15%.
L'abaque n4 fournit, pour cette valeur de I%, n = 700.
Exemple n7 :
Adaptation d' exemples issus de [3], chap. IV, 4.5.4 :

On estime que dans une fabrication, le pourcentage de pices dfectueuses est de


l'ordre de 25%. Quelle est la taille n de l'chantillon permettant de vrifier ce rsultat
avec une prcision relative de l'ordre de 45% ? L'abaque 11 fournit n = 65 pices.

Mme question avec un pourcentage de pices dfectueuses de l'ordre de 15%, et


une prcision relative de l'ordre de 33% : l'abaque 11 fournit n = 225 pices.

39

4.3 Approximations de la loi binomiale


4.3.1 Position du problme
On trouve dans la littrature de nombreux dveloppements sur lapproximation de la loi
binomiale par la loi normale ou par la Loi de Poisson.
Ces approximations se justifient pour des raisons pratiques, ces deux lois tant beaucoup
plus faciles manier que la loi binomiale.
Pour les problmes qui nous occupent ici, on peut se dispenser d'utiliser de telles
approximations si l'on dispose des abaques qui viennent d'tre prsentes. En effet, ces
abaques s'appuient exclusivement sur la loi binomiale, alors que les approximations
demandent une certaine rigueur dans leur domaine d'application :

On admet que la loi binomiale peut tre assimile une loi normale lorsque la taille
de lchantillon est grande, et la frquence p pas trop petite. En pratique
lapproximation est utilisable lorsque le produit np est suprieur 20.

On admet que la loi binomiale peut tre assimile une loi de Poisson lorsque la
taille de lchantillon est grande, et la frquence p faible. En pratique lapproximation
est utilisable lorsque le produit np est gal quelques units ou, plus gnralement,
quand p <0,1.

Nous ne dveloppons pas ici en dtail la thorie de ces approximations. En effet, les
abaques dcrits plus haut permettent de se librer des contraintes de calcul, et il ne nous
semble pas, dans ces conditions, quil y ait un avantage quelconque substituer la loi
binomiale une approximation.
Nous nous contentons dvoquer lapproximation par la loi normale qui est d'un emploi trs
frquent 22. Nous rappelons les conditions d'emploi : produit np > 20.

4.3.2 Approximation par la loi normale


On montre que lorsque le produit np est suffisamment grand, la loi binomiale de la frquence
tend vers une loi normale de moyenne p et dcart-type =p(1-p)/n.
Dans ces conditions, on montre que la taille n de lchantillon est donne par23 :

22
23

(u 1 2 ) 2 (1 p )
I 2p

On trouvera des dveloppements thoriques plus complets dans les rfrences bibliographiques [3], [4] et [7].
Mmes notations que dans les paragraphes qui prcdent. On retrouve ici la relation prsente au 3.2.3.

40

Exemple
Nous reprenons l'exemple dj utilis page 23.

Soit f la frquence cible, f = 0,4.

Soit I la prcision relative, I = 25%.

On choisit 1- =0,95, avec un risque partag (intervalle de confiance bilatral).

La relation ci-dessus donne : n= (1,96)2(0,6/0,4)/(0,25)2 = 92.


Le produit np est gal 37 (donc > 20), ce qui lgitime l'emploi de l'approximation normale.
On avait trouv n=100 en utilisant l'abaque de la rfrence [1] et en utilisant l'abaque ZELT.

41

RRffrreenncceess
Nota : nous avons limit les rfrences aux documents que nous avons effectivement utiliss
pour tablir ce document. Il ne saurait s'agir d'une bibliographie en matire de calculs
statistiques, d'autant moins, comme nous l'avons indiqu plus haut, que seuls des cas
simples ont t traits ici.
1.

Tables statistiques, CISIA-CERESTA, 1997.

2.

Aide-mmoire statistique, CISIA-CERESTA, 1999.

3.

J.Peybernard, Mthodes statistiques pour l'exploitation de la route, formation


LCPC-CERTU24, 2000.

4.

B. Grais, Mthodes statistiques, 2 volume : techniques statistiques, Dunod, 1998.

5.

P. Bailly, Statistique descriptive, Presses Universitaires de Grenoble (PUG), 1999.

6.

Le projet CENTAUR Toulouse, collectif, coordination ZELT, dition Mairie de


Toulouse, 298 p., mars 2000.

7.

N.E El Faouzi, Dimensionnement d'un systme de recueil du temps de parcours


fond sur les vhicules traceurs, Note technique, LICIT (ENTPE-INRETS), aot
2000.

24

Support de formation remis aux stagiaires. Non disponible hors stages.

42

AAnnnneexxee :: TTaabbllee uu((11--

//22)) eenn ffoonnccttiioonn ddee

0,01
0,015
0,02
0,025
0,03
0,035
0,04
0,045
0,05
0,055
0,06
0,065
0,07
0,075
0,08
0,085
0,09
0,095
0,1

u(1-/2)
2,575834515
2,43238901
2,326341928
2,241395123
2,170090738
2,108354238
2,053748176
2,004653652
1,959961082
1,918879207
1,880789569
1,845255611
1,811913535
1,780463208
1,750686351
1,722382876
1,695398169
1,669591256
1,644853

43