Vous êtes sur la page 1sur 3

Mon opinion sur les sondages d'opinion...

Andr Bouchier 10 mars 2010


Des sondages, encore des sondages comme s'il en pleuvait ! Et toujours cette question, peut-on faire confiance un sondage d'opinion ? Pour y rpondre, je vous propose de faire un peu de statistique. Mais rassurez-vous, il n'y aura pas d'quation entre nous, seulement du bon sens. Pour commencer, voici un extrait d'une dpche de l'AFP qui date dj de quelques annes. PARIS (AFP) - L'action de [...] Jean-Pierre Raffarin recueille 38% d'avis positifs, en hausse de 2 points, selon un sondage IFOP pour ParisMatch. [...] Sondage ralis par tlphone les 3 et 4 fvrier auprs d'un chantillon de 1.008 personnes reprsentatif de la population ge de 18 ans et plus (mthode des quotas). Cette dpche pose un problme intressant. Le passage de 36% 38% a-t-il une signification. C'est dire, dans ce cas particulier, 38 est-il plus grand que 36. Oui, je sais, la question a l'air idiote mais elle est importante. Car si la rponse est non, alors tous les articles de presse tirs de cette dpche sont des impostures. Pour illustrer ce problme, nous allons jouer au crateur et fabriquer sur ordinateur un pays de 40 millions de personnes. Parmi eux, 20 millions seront favorables au oui et 20 autres millions au non . Je n'ai bien entendu aucune ide personnelle sur la question, il n'est pas important pour nous de rentrer dans la polmique. Puis, nous allons chantillonner cette population en interrogeant 1000 personnes. Le premier essai donne : non = 51,3% et oui = 48,7%. Manifestement, les gens sont plutt contre. Pour confirmer ce rsultat, nous allons lancer un second chantillonnage. Ce deuxime essai donne : non = 48,6% et oui = 51,4%. Je prcise que je n'ai pas trich sur les chiffres, ce sont bien les premiers rsultats fournis par mon logiciel (logiciel libre de statistique R). La premire conclusion de ce test, ce n'est pas nouveau, est que les rsultats d'un sondage sont incertains. Pour en savoir plus, il faudrait pouvoir mesurer cette incertitude. Pour a, nous allons encore faire appel l'ordinateur. Nous allons lui demander de faire ce qui n'est pas possible dans la ralit, c'est--dire d'effectuer 1000 sondages indpendants portant chacun sur 1000 personnes. Et bien entendu, nous y tions prpar, chaque sondage nous fournit un rsultat diffrent. Le rsultat est reprsent par le graphique de droite. On voit que les pourcentages de non se retrouvent dans une fourchette allant de 45% 55%. On trouve cependant une majorit de rsultats centrs sur la bonne valeur 50%.

Nous avons maintenant une ide de l'incertitude associe un sondage d'opinion. Pour la mesurer plus finement, les statisticiens utilisent ce qu'ils appellent l'intervalle de confiance. Dans le cas de notre simulation, un petit calcul nous donne un intervalle de confiance compris entre 47% et 53%. C'est entre ces 2 valeurs que se trouvent 95% des rsultats de nos sondages. Revenons la dpche de l'AFP prsente au dbut. La question pose tait : 36% est-il bien diffrent de 38%. Pour y rpondre, il nous faut calculer l'intervalle de confiance sur ces deux mesures. On suppose ici que le premier pourcentage a t obtenu de la mme manire que le deuxime, ce qui n'est pas prcis dans la dpche. On trouve : 36% 2.98 et 38% 3.01 Comme les chiffres ne sont pas trs parlants, on peut reprsenter ces intervalles sur un graphique :

Les intervalles de confiance de ces deux rsultats se chevauchent tellement qu'on ne peut pas les considrer comme diffrents. Mais comme cette formulation n'est pas prcise (pas statistiquement correcte), nous allons poser la question des sondages d'une autre manire. Combien de personnes faut-il interroger pour que 36% devienne diffrent de 38% ? De manire gnrale, en statistique, plus l'chantillon est grand, plus la puissance des tests augmente. Avec un chantillon plus grand, on peut mettre en vidence des diffrences plus fines. Un calcul rapide (mais trop complexe pour tre prsent ici) nous suggre d'chantillonner 15242 personnes. Pour affirmer avec un risque d'erreur acceptable que 38% est suprieur 36% il aurait donc fallu questionner plus de 15000 personnes. On en est loin ! Le rsultat d'un sondage d'opinion ne devrait jamais tre communiqu sans y associer un intervalle de confiance. Bien sr, nous pouvons l'valuer nous mme quand la taille de l'chantillon est prcise. Mais combien d'entre nous font ces calculs ?

Voici les instructions, dans le langage R, qui ont permis d'effectuer les calculs : #cration de notre Pays et de sa population oui<-rep("o",20000000) non<-rep("n",20000000) pop<-c(oui,non) #rsultat sur un premier chantillon de 1000 personnes ech<-sample(pop , size=1000, replace = FALSE) summary(as.factor(ech)) n o 513 487 #rsultat sur un deuxime chantillon de 1000 personnes ech<-sample(pop , size=1000, replace = FALSE) summary(as.factor(ech)) n o 486 514 #On effectue 1000 chantillonnages et on trace un histogramme des rsultats hist(replicate(1000, { ech<-sample(pop , size=1000, replace = FALSE) res<-summary(as.factor(ech)) res[1]/10 } ),main="Pourcentage de non", sub="",xlim=c(40,60))