Vous êtes sur la page 1sur 7

La loi de Benford

http://w3.mi.parisdescartes.fr/smel/articles/benford/benford.html

Le premier chiffre gauche


Mlanie Roman, Claudine Robert

1- Un bien trange phnomne Dans trois sries de nombres dcrites ci-dessous, on a relev la distribution des frquences du "chiffre significatif" qui est le premier chiffre non nul lu dans l'criture de ce nombre en base 10 (le chiffre significatif de 2543,34 est 2 et celui de 0,00678 est 6). - La colonne La bourse est relative une srie de 1000 nombres extraits des pages "finances et marchs" du journal Le Monde dat du vendredi 23 avril 1999. Ces nombres sont les taux de change des monnaies, les cours des matires premires en dollars ou en euros, les prix des actions dans diffrents domaines : automobile, banques, chimie, pharmacie, tlcommunications ...Le plus petit nombre correspond au taux d'change franc contre livre sterling (valeur : 0,101 05) et le plus grand au prix en dollars de l'once de platine (valeur : 81 602,53). - Les 1229 nombres qui ont servi dans la colonne Recensement sont relatifs au recensement national de 1992. Les donnes reprsentent le nombre d'habitants de chaque commune de l'Isre et du Vaucluse, les derniers nombres donnant la population totale de tous les dpartements et celle de la France. Le plus petit nombre (valeur : 9) correspond la population de la commune de Oulles (Isre); et le plus grand (valeur : 58 0730553) la population totale de la France. Les 914 chiffres de la colonne Gilibert sont extraits des colonnes dbits et crdits d'un historique de compte de la socit Gilibert, une socit de fabrication de remorques, pour l'anne 1995. Ils ont diverses origines : frais de minitel, cotisations ASSEDIC, achat de gasoil, payements de clients, cotisations la mdecine du travail, impts... Le plus grand nombre correspond un total des dbits du 10/01/95 au 30/09/95 (valeur : 96 981 060,08), et le plus petit la fin de rglement d'un compte (valeur : 0,03).

La bourse Premier chiffre

Recensement

Gilibert

0,322

0,321

0,317

0,151

0,168

0,161

0,108

0,133

0,142

0,099

0,081

0,088

1 sur 7

15/03/2012 10:26

La loi de Benford

http://w3.mi.parisdescartes.fr/smel/articles/benford/benford.html

0,073

0,087

0,070

0,081

0,067

0,061

0,055

0,055

0,070

0,065

0,045

0,040

0,046

0,044

0,050

On observe l un phnomne tonnant : ces distributions de frquences sont trs voisines ! Un tel phnomne mrite une explication. Pour la trouver, posons-nous deux questions. les comptes de la socit Gilibert sont exprims en francs ; pourquoi le phnomne observ serait-il li au franc ? Que se passe-t-il si on exprime ces chiffres en euro, ou en dollar ? les chiffres sont crits en base 10 ; que se passe-t-il si on crit les nombres dans une autre base ? En fait, on peut multiplier les nombres des trois colonnes par n'importe quelle quantit, on observe toujours peu prs la mme distribution des frquences : la proprit observe est invariante par changement d'chelle. De mme, si on crit les nombres du tableau dans une autre base, les distributions des frquences relatives aux trois sries restent encore voisines. 2- L'usure du premier volume des tables de logarithmes : On peut lire dans un article de La Recherche (janvier 1999) ayant pour titre Le premier chiffre significatif fait sa loi, les faits ci-dessous. En 1881, Simon Newcomb publie un article prsentant un trange phnomne : le premier volume des tables logarithmiques est plus utilis que le deuxime qui l'est plus que le troisime et ainsi de suite. Un savant calcul l'amne conclure que la probabilit que le premier chiffre significatif d'un nombre, " pris dans un ensemble quelconque ", soit d, est gale log10(1+1/d). Cet article passe totalement inaperu. Par contre, 57 ans plus tard, un article de Franck Benford, motiv par la mme observation et aboutissant la mme loi de probabilit, tay d'exemples clectiques, attire l'attention. La loi est baptise loi de Benford. On a trouv depuis de trs nombreux exemples de donnes se conformant cette loi de probabilit. 3- Mesures invariantes

2 sur 7

15/03/2012 10:26

La loi de Benford

http://w3.mi.parisdescartes.fr/smel/articles/benford/benford.html

Pour comprendre le phnomne observ, nous allons nous interesser certaines lois de probabilit dfinies partir de mesures invariantes. 3-1 Invariance par translation On dit qu'une mesure m sur (R, B (R )) est invariante par translation si : "B B(R ), "a R m(a+B) = m(B) o a+B = {a+b, bB} A un coefficient multiplicatif prs, il y a unicit d'une telle mesure : c'est la mesure de Haar du groupe (R ,+). La mesure de Lebesgue dx est l'unique mesure m invariante par translation et telle que m([0,1]) = 1. En projetant alors la mesure de Lebesgue sur {R /c.Z ,+}, o c R , on obtient la mesure uniforme. Par normalisation on construit la loi de probabilit uniforme sur [0,c[, savoir dx/c. 3-2 Invariance par changement d'chelle On dit qu'une mesure m sur (R +*,B (R +*)) est invariante par changement d'chelle si : "B B (R ), "a R m(a.B) = m(B) o a.B = {a.b, bB} A un coefficient multiplicatif prs, il y a unicit d'une telle mesure : c'est la mesure de Haar du groupe (R +*, ). La mesure dx/x est l'unique mesure invariante m telle que m([1,e]) = 1. En projetant m = dx/x sur (R +*/cZ , ), on obtient la mesure dx/x sur [1/c,1[ dont nous nommerons la forme normalise loi de Benford continue sur [1/c,1[. 3-3 Lois de Benford discrtes -Choisissons la base 10 (c =10). Soit X une variable alatoire suivant la loi de Benford sur [0,1 ;1 [. Soit d {1,...,9}. Alors, la probabilit que le premier chiffre significatif de X soit d est :

Donc si des donnes sont invariantes par changement d'chelle, leurs premiers chiffres significatifs peuvent tre considrs comme un chantillon de la loi dfinie sur {1,...,9} par : PB(10)(i)=Log10(1+1/i), que nous nommerons loi de Benford discrte en base 10.

3 sur 7

15/03/2012 10:26

La loi de Benford

http://w3.mi.parisdescartes.fr/smel/articles/benford/benford.html

Le mme calcul montre que si on crit les nombres en base c, c tant un entier suprieur 2, alors la srie des premiers chiffres significatifs en base c suivra la loi B(c), avec : i {1, ..., c-1} : PB(c)(i)=Logc(1+1/i) . On notera que pour des valeurs leves de i, PB(c)(i) est presque inversement proportionnel i, et on retombe ainsi sur la loi de Zipf tudie en linguistique. -L'image de la mesure de Lebesgue dx par l'homomorphisme de groupe : (R ,+) (R +*,) x ex est la mesure dx/x sur R +*. L'image de la loi U[0,1[ par f : [0;1[ [1 ;10[ telle que f(x)=10x-1 est la loi de Benford continue sur [0,1;1[. En particulier, pour simuler un chantillon de taille n de B10, il suffit de prendre l'algorithme suivant : Pour i {1, ..., n} : X random ([0;1[) Y=10X Ecrire Y 4- Petits calculs 4-1 Probabilits des cinq premiers chiffres Le tableau suivant donne la probabilit des cinq premiers chiffres significatifs selon la loi de Benford ainsi que la distance du chi-deux de chaque colonne avec la loi uniforme : frquence du i-me chiffre. Le calcul des probabilits des chiffres dans l'ordre de leur lecture est donn par : pour le premier chiffre puis o fi est la

o ij est la valeur du j-me chiffre significatif.

4 sur 7

15/03/2012 10:26

La loi de Benford

http://w3.mi.parisdescartes.fr/smel/articles/benford/benford.html

x
100.P(c1=x) 100.P(c2=x) 100.P(c3=x) 100.P(c4=x) 100.P(c5=x)

12,0

10,18

10,02

10,00

30,1

11,4

10,14

10,01

10,00

17,6

10,9

10,10

10,01

10,00

12,5

10,4

10,06

10,01

10,00

9,7

10,0

10,02

10,00

10,00

8,0

9,7

9,98

10,00

10,00

6,7

9,3

9,94

9,99

10,00

5,8

9,0

9,90

9,99

10,00

5,1

8,8

9,86

9,99

10,00

9 chi-deux

4,6

8,5

9,83

9,98

10,00

1,49

1,3.10-2

1,3.10-4

1,3.10-6

1,3.10-8

4-2 Probabilits conditionnelles du deuxime chiffre Le tableau suivant donne (100 ) la probabilit que le deuxime chiffre soit c2, sachant que le premier est c1. Le calcul des probabilits conditionnelles est le suivant :

c1 c2

13,8

12,0

11,4

11,0

10,9

10,7

10,6

10,5

10,5

5 sur 7

15/03/2012 10:26

La loi de Benford

http://w3.mi.parisdescartes.fr/smel/articles/benford/benford.html

12,6

11,5

11,0

10,8

10,7

10,5

10,5

10,4

10,4

11,5

11,0

10,7

10,5

10,4

10,4

10,3

10,3

10,3

10,7

10,5

10,4

10,3

10,3

10,2

10,2

10,2

10,2

10,0

10,0

10,0

10,0

10,0

10,0

10,0

10,0

10,0

9,3

9,7

9,8

9,8

9,9

9,9

9,9

9,9

9,9

8,7

9,3

9,5

9,6

9,7

9,7

9,8

9,8

9,8

8,2

9,0

9,3

9,4

9,5

9,6

9,7

9,7

9,7

7,8

8,7

9,0

9,2

9,4

9,5

9,5

9,6

9,6

7,4

8,4

8,8

9,0

9,2

9,3

9,4

9,5

9,5

5- Retour aux donnes Reprenons les donnes pour la colonne recensement du 1 et testons l'hypothse nulle que les chiffres significatifs suivent la loi de Benford . La statistique du chi-deux pour chacune des colonnes du tableau du 1 est le produit de la taille de l'chantillon par la distance de la distribution des frquences la loi de Benford.

o pi= Log10(1+1/i), et n est le nombre de donnes .

Les rsultats sont les suivants :

n La bourse Recensement Population 1000 1229 914

distance du chi-deux 14,8 7,9 11,03

6 sur 7

15/03/2012 10:26

La loi de Benford

http://w3.mi.parisdescartes.fr/smel/articles/benford/benford.html

Pour le test dont l'hypothse nulle est que les chiffres significatifs suivent la loi de Benford, la valeur limite de rejet au seuil 5% est 15,5 ; on peut donc accepter l'hypothse nulle pour les trois ensembles de donnes au risque 5%. Pour mieux percevoir ce phnomne d'invariance d'chelle, rien n'empche de faire de nouvelles expriences : collecter des donnes analogues, calculer le chiffre significatif de ces donnes et des donnes multiplies par une constante, calculer la distance de la distribution des frquences la loi de Benford, faire un test du chi-deux. ou d'autres tests pour tester l'adquation la loi de Benford continue, etc...

7 sur 7

15/03/2012 10:26