Vous êtes sur la page 1sur 8

DETERMINATION DE LA TAILLE DES ECHANTILLONS ET CALCUL DES INTERVALLES DE CONFIANCE POUR LES ENQUETES ADVANTAGES

Taille des chantillons et intervalles de confiance, document interne Fvrier 2004

1/8

Table des matires


Introduction ......................................................................................................................3 1 Modlisation..............................................................................................................3 1.1 Simplification du problme ..................................................................................................3 1.2 Notations ................................................................................................................................3 2 Premire approche ....................................................................................................4 2.1 Ingalit de Bienaym-Tchebychev.....................................................................................4 2.2 Cas Advantages ......................................................................................................................4 2.3 Application numrique .........................................................................................................5 3 Approche plus fine.....................................................................................................5 3.1 Thorme de Moivre-Laplace..............................................................................................5 3.2 Cas Advantages ......................................................................................................................5 3.3 Pour les grands chantillons.................................................................................................5 3.3.a Formule pour lintervalle de confiance......................................................................5 3.3.b Formule de dtermination de la taille de lchantillon ............................................6 3.3.c Application numrique ................................................................................................6 3.4 Pour les petits chantillons...................................................................................................6 3.4.a Formule pour lintervalle de confiance......................................................................6 3.4.b Formule de dtermination de la taille de lchantillon ............................................6 4 Les limites de ces techniques....................................................................................6 4.1 Population mre infinie ou finie ? .......................................................................................6 4.1.a Des thories pas infiniment pratiques .......................................................................6 4.1.b Alors que faire ? ............................................................................................................7 4.2 Cas dune population mre finie..........................................................................................7 4.2.a Application numrique : dtermination dun intervalle de confiance...................7 4.2.b Dtermination de la taille dun chantillon...............................................................7 4.3 Les enqutes exhaustives sont-elles exhaustives ? ............................................................8

Taille des chantillons et intervalles de confiance, document interne Fvrier 2004

2/8

Introduction
Les enqutes Advantages sont composes dune majorit de questions 4 modalits de rponses : Pas du tout satisfait , Plutt pas satisfait , Plutt satisfait et Tout fait satisfait . Ce type de question est ramen une notation de 1 4, sur laquelle on calcule la moyenne. Pour la grande majorit des enqutes, leffectif total de la population est grand (plusieurs milliers). Pour des raisons de cots, les enqutes Advantages ne sont pas toujours exhaustives. On peut par exemple diffuser lenqute auprs denviron 1 millier dutilisateurs de linformatique, sur des populations dpassant souvent les 3 milliers. On peut tre amen se poser ou tre questionn sur deux questions : - quelle est la prcision de la moyenne calcule sur lchantillon ? - combien faut-il interroger dutilisateurs pour obtenir une prcision souhaite dans le calcul de la moyenne ? La moyenne calcule sur lchantillon est un estimateur de la moyenne relle (moyenne sur lensemble de la population). On cherche dterminer un intervalle de confiance des moyennes quun chantillon permet dobtenir en fonction de sa taille. Ou encore, en inversant le problme, partir dune prcision donne, cest--dire de lamplitude dun intervalle de confiance, on cherche dterminer la taille dchantillon ncessaire pour obtenir cette prcision. Cette question peut se poser dans le cadre dun chantillonnage alatoire sur lensemble de la population (dtermination de leffectif minimum pour la prcision sur la note utilisateur ) ou dans le cadre dun chantillonnage stratifi (dtermination des effectifs minimums ncessaires pour toutes les populations dune segmentation).

1
1.1

Modlisation
Simplification du problme

On regroupera les modalits Pas du tout satisfait et Plutt pas satisfait en une seule modalit quivalente Pas satisfait , et de mme, on regroupera les modalits Plutt satisfait et Tout fait satisfait en une seule quivalente Satisfait . En dehors des raisons smantiques, ce regroupement est assez naturel car les modalits extrmes remportent dans les faits beaucoup moins de suffrage que les 2 modalits centrales. Sous cet angle, chaque individu rpondant une question a deux issues : pas satisfait ou satisfait . En supposant que tous les individus sont indpendants et que leur rponse rpond aux mmes critres, cest--dire ils rpondent avec la mme probabilit dtre satisfait, la rponse cette question suit une loi binomiale.

1.2

Notations

Ci-dessous, les notations utilises dans le document


p , la probabilit quun individu rponde satisfait la question n , la taille de lchantillon N , la taille de la population mre Fn , la frquence de satisfaits sur lchantillon , le risque choisi , la demi amplitude de lintervalle de confiance de Fn Le problme est le suivant : - soit calculer un intervalle de confiance de Fn

Taille des chantillons et intervalles de confiance, document interne Fvrier 2004

3/8

soit dterminer n la taille de lchantillon partir de la donne de lamplitude de lintervalle de confiance souhait.

2
2.1

Premire approche
Ingalit de Bienaym-Tchebychev

Soit Y , une variable alatoire de loi quelconque, desprance E (Y ) et de variance var(Y ) var(Y ) > 0, P ( Y E (Y ) ) Cette ingalit signifie en langage plus humain que pour une variable dont on ne connat pas le comportement (une moyenne sur une question de 1 4 par exemple), dont on connat (ou on peut estimer) la moyenne et la dispersion, on peut trouver un intervalle de confiance tel quon ait une chance mesure que la valeur vraie de la moyenne soit en dehors.

2.2

Cas Advantages

Suite la modlisation et la simplification du problme, Fn , la moyenne calcule sur lchantillon est une variable alatoire de loi binomiale, donc de loi connue B ( p, p (1n p ) ) . Mais on ne peut pas dfinir prcisment son comportement car dune part si n est grand ( n > 50), la loi nest pas tabule et dautre part p nest pas connu. On applique donc lingalit de Bienaym-Tchebychev. p (1 p ) Fn est la variable alatoire, desprance p , et de variance n p (1 p ) > 0, P ( Fn p ) n p (1 p ) > 0, P ( Fn < p < Fn + ) 1 n Lintervalle de confiance [ Fn ; Fn + ] de la proportion p sera dtermin avec le risque p (1 p ) not . n 1 1 1 p (1 p ) peut tre major par (1 ) = (entropie maximale). 2 2 4 p (1 p ) 1 1 donc = n 4 n 2 n Lingalit devient donc : 1 1 > 0, P( Fn < p < Fn + ) 1 2 n 2 n Ce qui nous donne lintervalle de confiance pour p au risque valant 1 1 ]Fn ; Fn + [ 2 n 2 n En retournant le problme, la dtermination de la taille de lchantillon n pour obtenir la prcision (demi amplitude) au risque se fera par : 1 n= 4

Taille des chantillons et intervalles de confiance, document interne Fvrier 2004

4/8

2.3

Application numrique

Une application numrique suffira pour se convaincre que cette ingalit est loin dtre satisfaisante. Supposons que les notes tournent autour de 2,8 avec 80% de satisfaits ayant mis la note 3 et 20% dinsatisfaits ayant mis la note 2. Si on souhaite avoir un intervalle de confiance du type p [2,75;2,85] , alors il faut que soit environ gal 0,05. On choisit = 5% Et = 0,05 1 1 Alors n = = = 2000 5 4 4 100 0,05 Une tude sur 2000 utilisateurs est envisageable, dailleurs Advantages en a dj ralis plus dune. Mais il sagit du nombre de retours et non du nombre de questionnaires diffuss. Si le taux de retour est de 70%, ce qui est dj un bon taux de retour, il faut contacter presque 2900 utilisateurs. Or, ce nombre dpasse le nombre des utilisateurs de certaines socits parmi nos clients.

3
3.1

Approche plus fine


Thorme de Moivre-Laplace

Hypothse : n assez grand et p pas trop voisin de 0 ni de 1. Selon les sources, les hypothses de Moivre-Laplace varient : n >30 et pas plus de prcision que p pas trop voisin de 0 ni de 1 n >50 et p [0,1;0,9] np > 5 et n(1 p ) > 5 Le thorme dit que sous ces hypothses, on commet une erreur ngligeable en considrant que p (1 p ) Fn suit une loi normale N ( p; ). n

3.2

Cas Advantages

Dans le cas des enqutes de satisfaction, p est inconnu a priori. La littrature dit ce sujet que p (1 p ) lerreur commise en approximant la variance par la variance empirique de lchantillon n est ngligeable dans le calcul des probabilits lies Fn . Dans le cadre des enqutes Advantages, lorsquil sagit de donner un intervalle de confiance pour p , on peut alors se baser sur la variance empirique de lenqute. Lorsquil sagit de dterminer en amont de lenqute la taille de lchantillon ncessaire pour obtenir un niveau de prcision voulu, on pourra se servir du benchmark pour dterminer une variance empirique.

3.3

Pour les grands chantillons

La littrature dsigne communment les chantillons de taille suprieure 30 comme de grands chantillons. 3.3.a Formule pour lintervalle de confiance Lintervalle de confiance de p au risque 1 vaut donc
]Fn u

n Fn (1 Fn )

; Fn + u

n Fn (1 Fn )

Taille des chantillons et intervalles de confiance, document interne Fvrier 2004

5/8

o u est la p-value de la loi normale centre rduite (pour =5%, u =1,96). 3.3.b Formule de dtermination de la taille de lchantillon
Fn (1 Fn ) o u est la p-value de la loi normale centre rduite. n = u

3.3.c Application numrique Reprenons les mmes donnes de dpart que pour lapplication numrique prcdente. On suppose quon connaisse une approximation de Fn 0,8. On choisit = 5% Et = 0,05 0,8(1 0,8) 246 Alors n = 1,96 0,05 On rappelle que le rsultat obtenu prcdemment tait 2000. 246 utilisateurs rpondant, au taux de retour 70%, correspondent moins de 360 utilisateurs interrogs. A ce prix l, on vous en fait 400 !

3.4

Pour les petits chantillons

3.4.a Formule pour lintervalle de confiance Pour les chantillons de taille infrieure 30, il sagit dutiliser la loi de Student (n 1) degrs de libert. Lintervalle de confiance de p au risque 1 vaut donc
]Fn t ,n 1

n Fn (1 Fn )

; Fn + t ,n 1

n Fn (1 Fn )

o t ,n 1 est la p-value de la loi de Student au risque pour un chantillon de taille n . 3.4.b Formule de dtermination de la taille de lchantillon t ,n 1 dpend de n , cest pourquoi il est techniquement difficile de donner une formule pour calculer n . n peut tre dtermin par ttonnement. F (1 Fn ) La formule n = u n peut donner une premire approximation de n On pourra alors recalculer n en remplaant u par t ,n 1 , et recommencer lopration autant de fois que ncessaire.

4
4.1

Les limites de ces techniques


Population mre infinie ou finie ?

4.1.a Des thories pas infiniment pratiques La taille de la population mre pour les thories dveloppes plus haut nentre pas en ligne de compte dans le calcul des intervalles de confiance ni dans celui de la taille de lchantillon, et pour cause, elle est considre infinie.
Taille des chantillons et intervalles de confiance, document interne Fvrier 2004

6/8

Dans la pratique, on peut tre amen par ces calculs dterminer des intervalles de confiance de 1 mme amplitude lorsquon interroge les de la population que lorsquon en interroge 10000 . Plus absurde encore, on peut parvenir calculer des tailles dchantillon ncessaire plus grandes que la population de dpart. Voici donc que nos puissantes thories rencontrent leurs limites dans la pratique. 4.1.b Alors que faire ? Si la population mre fait moins de quelques dizaines, on peut considrer que la population est finie. Les calculs sont dterministes. La variable suit une loi binomiale La loi binomiale est couramment tabule jusqu N =50 ou 100 (sous forme de graphique). Pour des populations plus grandes, soit on considre que la taille est infinie, soit on trouve les tables qui vont bien (bon courage) ou encore, on utilise un ordinateur , dixit le vnrable Saporta.

4.2

Cas dune population mre finie

4.2.a Application numrique : dtermination dun intervalle de confiance Soit une population mre de taille N =50. 43 personnes ont rpondu la question. La frquence F43 vaut 34 (34 personnes sont satisfaites, 43 9 sont insatisfaites). On cherche dterminer un intervalle de confiance 95% de F50 , qui dans le cas dune population mre finie est gal p . Il sagit donc de deviner le comportement des 7 qui nont pas rpondu. On note F7 la frquence sur ces 7 individus. F7 suit une loi binomiale B ( 7 , F50 ) . Or F50 est inconnu, cest ce quon cherche estimer. Mais F43 est un estimateur sans biais de F50 . La loi de F7 peut donc tre approxime par B ( 7 , F43 ) . Un intervalle de confiance 95% de F7
5 est [ 7 ; 7 ]. 7 41 On en dduit quun intervalle de confiance de F50 95% est [ 39 ; 50 ]. 50 Lestimateur de F50 est 34 79,07%, et il a 95% de chance dappartenir [78% ; 82%]. 43

4.2.b Dtermination de la taille dun chantillon Le problme est beaucoup plus difficile rsoudre lorsquil sagit de dterminer la taille dun chantillon ncessaire pour obtenir un niveau de prcision souhait, pour deux raisons. La premire raison est technique. En effet la taille de lchantillon dtermine la loi utiliser, et on ne peut pas comme dans le cadre dune loi normale centrer et rduire . La seconde raison est lie au mode de diffusion des questionnaires Advantages, en effet le nombre de rponses nest pas le nombre de questionnaire diffus. Il est donc impossible de savoir lavance combien de questionnaires seront complts. Il est donc plus raisonnable de procder une tude exhaustive qu un sondage dans le cas de petites populations mres. Pour les populations plus grandes, mais quon ne peut pas encore considres comme infinies (par exemple de quelques centaines 1 ou 2 milliers de personnes), on pourra utiliser les techniques de dtermination de la taille des chantillons partir de population mre infinie. Du fait des nombreuses approximations, il pourra tre judicieux de revoir en cours le nombre de personnes interroger partir de rsultats provisoires obtenus en cours de ralisation de lenqute ou partir dune estimation grce au benchmark Advantages.

Taille des chantillons et intervalles de confiance, document interne Fvrier 2004

7/8

4.3

Les enqutes exhaustives sont-elles exhaustives ?

Mme lorsquon dcide de diffuser le questionnaire lexhaustivit de la population, on peut tre confront des soucis dontologiques sur la significativit des rsultats. Peut-on considrer quune enqute soumise lexhaustivit dune population et dont le taux de retour natteint pas 100% est une enqute exhaustive ? Quelques lments de rponse : - Lenqute nest-elle rellement soumise lensemble dune population que quand tous les utilisateurs sont en mesure de pouvoir rpondre dans le cadre dfini de lenqute. Prendon en compte les congs des utilisateurs de linformatique ? Prend-on en compte que certains sont surchargs de travail et quil faudrait attendre quil trouve le temps de rpondre ? Prend-on en compte que le PC de lutilisateur lambda a crash, et quil na pu accder au rseau pendant plusieurs jours ? - Que signifie le refus de rpondre lenqute dun utilisateur ? Y a-t-il des pressions pour ne pas sexprimer ? Son opinion non exprime est-elle dtermine ou lutilisateur estimet-il quil na pas assez de recul pour se prononcer ? Pour viter certains cueils, il est important de motiver le client sur la communication et la validation technique pour que tous les lments soient runis pour garantir un taux de retour excellent.

Taille des chantillons et intervalles de confiance, document interne Fvrier 2004

8/8

Vous aimerez peut-être aussi