Vous êtes sur la page 1sur 29

S1.

3 La dispersion statistique

Thrse Saint-Julien

Dispersion statistique : dfinition


On appelle dispersion statistique, la tendance qu'ont les valeurs de la distribution d'un caractre s'taler, se disperser, de part et d'autre d'une valeur centrale. On distingue la dispersion absolue (mesure dans l'unit de mesure du caractre), et la dispersion relative (mesure par un nombre sans dimension).

1. Les mesures de la dispersion absolue


Part des cadres Nombre dans le total de Arrondiss d'habitants la population ements en 1999 (en active rsidente milliers) (%) Paris 1er Paris 2e Paris 3e Paris 4e Paris 5e Paris 6e Paris 7e Paris 8e Paris 9e Paris 10e Paris 11e Paris 12e Paris 13e Paris 14e Paris 15e Paris 16e Paris 17e Paris 18e Paris 19e Paris 20e 17 20 34 31 59 45 57 39 56 90 149 137 172 133 225 162 161 185 173 183 45 39 44 46 52 53 49 43 43 33 35 37 34 43 46 45 40 28 25 26

Les paramtres de dispersion absolue indiquent de combien les valeurs d'une distribution s'cartent en gnral de la valeur centrale de rfrence. Un paramtre de dispersion absolue s'exprime toujours dans l'unit de mesure. Les mesures de la dispersion absolue sexpriment dans lunit de mesure de la variable considre. Exemples: Pour le nombre d'habitants en 1999, il sagira de milliers d'habitants Pour la part des cadres dans le total de la population active rsidente, il sagira de % de personnes actives occupant un emploi de cadre Les trois paramtres de dispersion absolue les plus courants sont l'tendue, l'intervalle inter quantile, et l'cart type

Anne

Pluviosit du mois de septembre (en mm) 119 170 31 35 583 422 27 254 153 133 27 760 49 201 70 90 252 300 200 158 382 186 150 630 211 160 182 98 112 61

1896 1897 1898 1899 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 1925

La dispersion inter annuelle des prcipitations de septembre au Mont Aigoual entre 1896 1925
Minimum Maximum Etendue 1er quartile Mdiane 3me quartile Intervalle interquartile Ecart-type 27 mm 760 mm 733 mm 90 mm 252 mm 162 mm 32246 179,6 mm
nombre de mois de septembre 11 10 9 8 7 6 5 4 3 2 1
0 100 200 300 400 500 600 700 800

Moyenne Variance

Total des prcipitations en mm

Anne 1896 1897 1898 1899 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924

Pluviosit du mois de septembre (en mm) 119 170 31 35 583 422 27 254 153 133 27 760 49 201 70 90 252 300 200 158 382 186 150 630 211 160 182 98 112

1.1 Ltendue ou amplitude


l'tendue ou amplitude d'une distribution est gale la diffrence entre la plus grande et la plus petite valeur de la distribution

Etendue de X = Xmax - Xmin

nombre de mois de septembre 11 10 9 8 7 6 5 4 3 2 1


0 100 200 300 400 500 600 700 800

Total des prcipitations en mm mdiane= 160 moyenne=212

1.2 La mesure de la dispersion statistique et les valeurs centrales


nombre d'arrondissements 4 3 2 1
] 2 0 4 0 ] ] 4 0 6 0 ] ] 6 0 8 0 ] ] 8 0 1 0 0 ] ] 1 0 0 1 2 0 ] ] 1 2 0 1 4 0 ] ] 1 4 0 1 6 0 ] ] 1 6 0 1 8 0 ] ] 1 8 0 2 0 0 ] ] 2 0 0 2 2 0 ] ] 2 2 0 2 4 0 ]

la mesure de l'tendue excepte, chacun des paramtres de dispersion statistique caractrise le degr de dispersion des valeurs de la distribution statistique de part et d'autre d'une valeur centrale de rfrence
Nombre d'habitants

intervalle interquantile par rapport la mdiane variance et cart-type par rapport la moyenne

< 2 0 ]

nombre d'arrondissements 5 4 3 2 1
< 2 4 ] ] 2 4 3 0 ] ] 3 0 3 5 ] ] 3 5 4 0 ] ] 4 0 4 5 ] ] 4 5 5 0 ] ] 5 0 5 5 ]

Arrondissements
Part des emplois de cadres dans la population active rsidente

Part des cadres Nombre dans la d'habitants en population 1999 (en active % milliers)

Mdiane Moyenne

43,0 40,3

111 106

1. Mesures de la dispersion autour de la mdiane

Pluviosit du mois Nombre de mois de Anne de septembre septembr e (en mm) 1902 1906 1898 1899 1908 1910 1911 1923 1924 1896 1905 1918 1904 1915 1921 1897 1922 1917 1914 1909 1920 1912 1903 1913 1916 1901 1900 1919 1907 27 27 31 35 49 70 90 98 112 119 133 150 153 158 160 170 182 186 200 201 211 252 254 300 382 422 583 630 760

Quantiles
1. Quantiles : les quantiles sont les valeurs

1er quartile=90 mm

mdiane=159 mm

du caractre qui dfinissent les bornes d'une partition en classes d'effectifs gaux. Ces particuliers Les quartiles sont les trois valeurs qui permettent de dcouper la distribution en quatre classes d'effectifs gaux. On les note Xq1 , Xq2 et Xq3. Partition du caractre Xmin Xq1 Xq2 Xq3 Xmax

3e quartile=252 mm

frquence des lments: 25% 25% 25%

25%

Remarque : Xq2 est gal la mdiane.


Intervalle interquartile 162 mm

Quantiles
Prcipitations en mm (dciles) 33 65,5 105 141,5 159 184 206 277 502,5 1er dcile 2e dcile 3e dcile 4e dcile 5e dcile 6e dcile 7e dcile 8e dcile 9e dcile

2. Dciles- Les dciles sont les neufs valeurs de X qui permettent de dcouper la distribution en dix classes d'effectifs gaux. 0n les note Xd1...Xd9.
Etc..

Intervalle interquantile
L'intervalle interquartile est l'tendue de la distribution sur laquelle se trouvent concentre la moiti des lments dont les valeurs de X sont les plus proches de la mdiane. On exclut alors de la distribution les 25% des valeurs les plus faibles et les 25 % des valeurs les plus fortes de X. Cet intervalle se note:(Xq3Xq1). L'intervalle interdcile est l'tendue de la distribution sur laquelle se trouvent concentrs 80% des lments dont les valeurs de X sont les moins diffrentes de la mdiane. On exclut alors de la distribution les 10 % des valeurs les plus faibles et les 10% des valeurs les plus fortes. Il se note (Xd9-Xd1).

Le rapport interquantile : XQ3/XQ1; ou interdciles : XD1/XD9

Revenus fiscaux dclares au titre de l'anne 2001 revenu mdian Paris Hauts de Seine Seine-Saint-Denis Val de Marne Ile de France Province 20147 20195 13155 17181 17982 14103 1er dcile 4864 6138 3658 5841 5581 5446 9e dcile 50961 45716 27740 36129 38912 27637 rapport interdcile 10,5 7,4 7,6 6,2 7,0 5,1

Application du rapport inter dciles aux revenus des mnages en Ile-deFrance


La position de chaque point est dfinie en fonction de la valaur prise par le revenu mdian (abscisse) et par le rapport inter dciles (ordonne).

source DGI: revenus fiscaux localiss

11 Paris 10 9 rapport interdcile 8 7 Val de Marne 6 5 4 10000 Province Seine-SaintDenis Ile de France Hauts de Seine

12000

14000

16000

18000

20000

22000

revenu m dian

2. Mesures de la dispersion autour de la moyenne

1.4 Variance, cart-type et moyenne


La variance de X, note x est une mesure globale de la variation d'un caractre de part et d'autre de la moyenne arithmtique (quantit d'information). Elle exprime la dispersion dans une unit de lordre du carr de lunit de mesure du caractre. Pour obtenir un paramtre de dispersion absolue, on calcule la racine carre de la variance L'cart type, not x est la racine carr de la moyenne des carrs des carts la moyenne, c'est dire la racine carre de la variance.

= 1 ( X i X N i =1
n

= 1 N i =1

(X X )
i

Exemple de calcul de la variance et de lcart-type


nombre d'lves Notes du professeur X
Notes du Professeur X
carts algbrique s la moyenne carr des carts algbriques

Notes du Professeur Y
carts carr des algbrique carts s la algbriques moyenne

3 2 1

D E A B C F G H I J 1 2 3 4 5 6 7 8 9 10 11 12 13 14 14 16 17 18 19 20

Elves

/20

/20

nombre d'lves Notes du professeur Y


3 D 2 E 1A B C F G H I 1 2 3 4 5 6 7 8 9 10 11 12 13 14 14 16 17 18 19 20

(X X ) ( X
i

X i

(X X ) ( X
i

X i

A B C D E F G H I moyenne somme cart-type

7 8 9 10 10 10 11 12 13 10 1,8

-3 -2 -1 0 0 0 1 2 3 0 0 1,8

9 4 1 0 0 0 1 4 9 28

0 5 9 10 10 10 11 15 20 10 5,3

-10 -5 -1 0 0 0 1 5 10 0 0 5,3

100 25 1 0 0 0 1 25 100 252

Valeurs centrales et paramtres de dispersion pour quelques indicateurs dcrivant les arrondissements de Paris
Paramres de la distribution revenu moyen Part des Part des Part des Part Nombre communal par trangers ouvriers cadres chmeurs d'habitants unit de dans la dans la dans la dans la en milliers consommation population population population population en 1999 en milliers % active % active % active % d'Euros 20 12807 45460 32652 15142 20033 25398 10256 0,51 22727 94804619 9737 7687 0,44 20 8 17 9 9 11 14 4 0,41 11 7 3 2 0,24 20 25 53 28 35 43 45 11 0,25 40 63 8 7 0,20 20 4 14 10 5 7 11 6 0,78 8 11 3 3 0,42 20 11 28 17 14 17 21 8 0,48 18 24 5 4 0,29 20 17 225 208 42 111 167 125 1,12 106 4327214 66 62 0,64

Nbr. de valeurs utilises Minimum Maximum Etendue 1er quartile Mdiane 3me quartile Intervalle interquartile intervalle interquartile relatif Moyenne Variance Ecart-type Ecart absolu moyen CV (cart-type/moyenne)

Caractristiques de la distribution normale


Caractristiques de la courbe Normale : 1. La variable x varie de - + 2. La fonction est toujours > 0 3. Laire sous la courbe vaut 1 4. Elle est symtrique 5. Elle atteint son maximum au point X (moyenne arithmtique) 6. Elle a une forme en cloche : plus on scarte gauche et droite de la moyenne arithmtique, plus la hauteur de la courbe diminue avec laxe des abscisses comme asymptote.

La signification probabiliste de lcart-type Distribution normale


Lcart-type a l'avantage d'avoir une signification probabiliste. La thorie des probabilits permet en effet d'estimer la chance qu'a une valeur d'tre loigne de la moyenne de plus d'un certain nombre d'carttypes. Lorsqu'une distribution est gaussienne (on dit aussi "normale") les probabilits de trouver les valeurs a une distance donne de la moyenne sont les suivantes : 68,3% des valeurs sont entre X X 1 X et

68,30%

X X + 1 X

95,50%

95,5% des valeurs sont entre XX 2X et X X + 2 X 99,7 % des valeurs sont entre X X 3 X et X X + 3 X

99,70%

2. Les mesures de la dispersion relative


IIQRX = IIQX
X

Eliminer leffet de lunit de mesure du caractre pour pouvoir comparer les degrs de dispersion de deux caractres Deux mesures usuelles de la dispersion relative partir de:

X md.

Q3

X
D9


Q1

X
CV

lintervalle interquantile: lintervalle interquantile relatif (IIQR) On peut aussi utiliser le rapport interquantile, par exemple: lcart-type: le coefficient de variation (CV)

D1

La dispersion statistique des revenus des mnages Paris et dans les dpartements de la petite couronne
REVENUS FISCAUX DES MENAGES: MEDIANES ET DECILES
P ar i s 60000

11 Paris 10 9 rapport interdcile 8 7 Val de Marne 6 5 4 10000 Province Seine-SaintDenis Ile de France Hauts de Seine

50000

40000

P r ovi nc e

30000

Haut s de Sei ne

20000

10000

I l e de Fr anc e

Sei ne-Sai nt -Deni s

12000

14000

16000

18000

20000

22000

V al de M ar ne

1er dcile

revenu mdian

9e dcile

revenu m dian

Revenus fiscaux (en euros) dclares au titre de l'anne 2001 Zones gographiques Paris Hauts de Seine Seine-Saint-Denis Val de Marne Ile de France Province revenu mdian 20147 20195 13155 17181 17982 14103 1er dcile 4864 6138 3658 5841 5581 5446 9e rapport dcile interdcile 50961 45716 27740 36129 38912 27637 10,5 7,4 7,6 6,2 7,0 5,1

Evolution des salaires annuels des hommes et des femmes en Ile-de-France: moyennes, mdianes et dciles

Mesures absolues et relatives de la dispersion statistique


Part de s Part de s cadre s ouvrie rs dans dans la la population population active % active %

Arrondissements

Minimum Maximum Etendue 1er quartile Mdiane 3me quartile intervalle interquartile intervalle interquartile relatif Moyenne Ecart-type CV (cart-type/moyenne)

3,9 14,3 208 5,5 7,2 11,1 5,6

24,7 53,0 28,3 34,5 43,0 45,4 11

0,78 8,2 3,4 0,42

0,25 40,3 7,9 0,20

Pour comparer les degr de dispersion de deux distributions on a recours aux mesures de dispersion relative, et non pas les mesures de dispersion absolue. Dans lexemple ci-contre la comparaison directe des cart-types (ou des intervalles interquartiles) pourrait, tort, laisser croire, quen moyenne, les disparits introduites entre les arrondissements par le caractre Part des cadres dans la population active sont suprieures celles lies au caractre Part des ouvriers dans la population active . Il nen est rien. Comme lindique la comparaison des coefficients de variation les arrondissements parisiens sont, en moyenne, beaucoup plus diffrents les uns des autres du fait de la part des ouvriers (cv=0,42) que de la part des cadres(cv= contre 0,2).

3. Distribution statistique et rpartition gographique

Montant moyen de limpt et nombre de contribuables dans les aires urbaines: distribution statistique et distribution gographique

montant de l'impt par contribuable Nbre d'aires urbaines Minimum 1er quartile Mdiane 3me quartile Int. interquartile Int. interquartile relatif Maximum Etendue Moyenne CV (carttype/moyenne) Ecart-type 361 9609 13386 14620 15755 2369 0,16 25847 16239 14718 0,15 2193

nombre de contribuables imposs 361 2656 4832 8984 22354 17522 1,95 2745058 2742402 30719 4,89 149915

Forme de la distribution, dispersion et distribution gographique (dpt des Yvelines)

Paramtres des distributions

part des prof. Intermdiaire densit en s dans la 1999(habitan population ts/km) active rsidente en 1999 (%) 194 29 99 303 1289 6729 6700 934 1,45 1355 993 194 17 25 27 30 39 23 28 0,15 4 3

Densit de population

Nbr. de valeurs utilises Minimum 1er quartile Mdiane 3me quartile Maximum Etendue Moyenne CV (cart-type/moyenne) Ecart-type d'chantillon Ecart absolu moyen
H i st og r a m m e

1,0 0,8 0,6

Rsidents ayant un emploi de profession intermdiaire pour 100 emplois


Hist o g r amme
0,400 0,350 0,300 0,250 0,200 0,150 0,100 0,050 0,000 16 20 24 28

0,4 0,2 0,0 29 1369 2709 4049 5389 6729

32

36

40

Montant moyen de limpt et nombre de contribuables dans les aires urbaines: distribution statistique et distribution gographique: synthse
Caractristiques des distributions gographiques montant de l'impt par contribuable nombre de contribuables imposs

Disparits entre les aires urbaines

Trs faibles: les aires Trs fortes: les aires urbaines urbaines ont, en sont en moyenne trs moyenne, tendance se dissemblables les unes des ressembler. Les valeurs autres. Les mesures de des mesures de dispersion relative trs loignes dispersion relative de 0 voisines de 0. symtrique: md.=moy. trs dissymtrique: md.< moy. Les aires urbaines les Les aires urbaines les plus plus nombreuses se nombreuses se concentrent concentrent autour de autour des valeurs les plus la moyenne faibles

Forme de la distribution

Dispersion statistique et rpartition gographique

Dispersion statistique et rpartition gographique


intensit de la Distribution dispersion statistique statistique de X Distribution gographique de X

concentration

avec un ordre gographique grandes diffrences des valeurs de X htrognit des units spatiales dispersion

forte

sans ordre gographique de la rpartition grandes ressemblances des valeurs de X homognit des units spatiales

faible

Les densits de population Paris de 1861 1999


La rpartition en 1861 Forte dispersion statistique des valeurs= forte htrognit spatiale Dans ce cas, lhtrognit est assortie dun ordre spatial fort : les fortes densits concernent les quartiers des arrondissements centraux; les plus faibles concernent les quartiers les plus priphriques des arrondissements priphriques. La rpartition en 1999 La dispersion statistique est plus faible mais un ordre spatial demeure. Les fortes valeurs sont le fait des quartiers nord et est.

Dispersion statistique et rpartition gographique dans lexemple des arrondissements parisiens