Vous êtes sur la page 1sur 37

INTRODUCTION A LECONOMETRIE

Amphi 4
Indices dingalit
et de concentration
Denis Fougre et Francis Kramarz
19 septembre 2008

Les indices dingalit ont t introduits pour valuer la plus ou


moins grande ingalit des revenus et des salaires
Les indices de concentration ont t introduits pour tudier le
phnomne de concentration des entreprises
On les applique aussi lanalyse de la concentration des
revenus
PLAN
1. La courbe de Lorenz
2. Les mesures scalaires dingalit
3. Les mesures de concentration
4. Dsagrgation des indices
5. Calcul de la prcision des estimateurs des indices: la
mthode du bootstrap
2

1. La courbe de Lorenz
Intuitivement une distribution de revenus est ingalitaire si une
faible proportion des individus reoit une forte proportion du
montant total des revenus distribus
Cette ide est la base de la construction de la courbe de
Lorenz
Rappel : Max Otto Lorenz (1880 - 1962) tait un conomiste amricain. Il publia en
1905 un article dcrivant la courbe dite depuis de Lorenz alors quil prparait son
doctorat lUniversit du Wisconsin. Son doctorat (1906), qui portait sur La thorie
conomique des prix de chemin de fer, ne fait aucune rfrence ce qui a
certainement t son plus clbre article. Sa vie sest partage entre les publications
et lenseignement. Il a galement t employ par le bureau du recensement des
tats-Unis, le bureau des chemins de fer amricains, le bureau des statistiques
amricaines et la chambre de commerce amricaine.
3

Supposons que les revenus x 1 x n des individus de la


population soient tous connus
Les k personnes les plus pauvres k 0, . . . , n reoivent la
proportion
xk
q k xx 1
xn
1
du revenu total (avec la convention q k 0 si k 0
Construction de la courbe
La courbe de Lorenz est obtenue en reliant entre eux les points
p k nk , q k pour k 0, . . . , n
Exemple: n 3, x 1 1, x 2 3, x 3 8, x 1 x 2 x 3 12 (voir
Graphique 1)
4

Proprits
1. La courbe de Lorenz est linaire par morceaux, inscrite dans
le carr de ct 1 (car p et q sont des proportions variant entre 0
et 1)
2. La courbe passe par les points 0, 0 et 1, 1 correspondant
respectivement k 0 et k n
3. Elle est croissante car q k1 q k . Elle lest strictement sil ny a
pas de revenu nul
4. La courbe de Lorenz est convexe car
xk
k1
q k1 q k x x

k
k1
x
x x
1

Elle est donc situe sous la premire bissectrice

Utilisation de la courbe de Lorenz pour ltude de lingalit


1. Egalit parfaite : lorsque les individus touchent tous le mme
revenu x 1 x n x, alors
x 1 x k kx, x 1 x n nx et p k q k k/n k
La courbe de Lorenz se confond alors avec la premire
bissectrice : les p% les plus pauvres reoivent p% du revenu
total
La distribution sera dautant plus galitaire que la courbe est
proche de la premire bissectrice (cf. Graphique 2)
2. Distribution fortement ingalitaire : Dans lexemple o n 3,
x 1 5, x 2 5, x 3 90, lindividu le plus riche, qui reprsente le
tiers de la population, reoit 90% du revenu total.
La courbe de Lorenz est alors proche des cts du carr
(cf. Graphique 3)
6

3.Comparaison de deux rpartitions diffrentes du mme revenu total


10, x 2 30, x 3 60
Rpartition B : x 1 5, x 2 10, x 3 85
La courbe de Lorenz associe A est situe au-dessus de celle
associe B (cf. Graphique 4)
Les pauvres de A sont moins pauvres que ceux de B et les
riches de A sont moins riches que ceux de B
La rpartition B est plus ingalitaire que la rpartition A lorsque
sa courbe de Lorenz est situe au-dessous de celle de A
Mais en gnral les courbes sintersectent (Cf. Graphique 5)
Rpartition A : x 1 20, x 2 20, x 3 60
Rpartition B : x 1 10, x 2 45, x 3 45
Rpartition A : x 1

Invariances
1. La courbe de Lorenz est invariante par changement dchelle: les distributions
x 1 x n et x 1 x n 0 ont mme courbe de Lorenz, elles
sont pareillement galitaires (ou ingalitaires)
2. La distribution x 1 h
distribution x 1 x n

x n h h 0 est plus galitaire que la

Preuve: vrai si et seulement si

x 1 x k kh x 1 x k
x1 xn
x 1 x n nh

khx 1 x n nhx 1 x k k
khx k1 x n n khx 1 x k k
or cette dernire galit est vraie car les revenus sont rangs par ordre croissant:

khx k1 x n khn kx k1 n khx 1 x k


8

Cas dune distribution continue


Supposons que le revenu soit une variable alatoire relle
positive continue X de fonction de rpartition F et de densit f
La proportion dindividus dont le revenu est infrieur x est
px Fx PrX x
La part du revenu total perue par cette fraction de la population
est:
x

qx

0 vfvdv

0 vfvdv

1
m

0 vfvdv

o m dsigne le revenu moyen

Dfinition: La courbe de Lorenz est en cas la courbe dquation paramtrique

1
q Lp m

0 F 1 udu

Preuve: Si la densit f est strictement positive (cas dune v.a.r. continue), F est
inversible, et donc:

1
qx m

F 1 p

Effectuons ensuite le changement de variable u


et du fvdv. On obtient alors le rsultat

vfvdv
Fv,

qui implique v

F 1 u

La courbe de Lorenz est croissante et convexe :

1
1 F 1 p 0 et L p 1
L p m
0
1
m
fF p

1
puisque F 1
F F 1
10

2. Les mesures scalaires dingalit


2.1. Lindice de Gini
Cest la mesure dingalit la plus utilise
Rappel: Corrado Gini (1884 - 1965) est un scientifique italien qui a t tout la fois
statisticien, dmographe, ethnologue, et sociologue. Partisan du rgime fasciste, il
devint professeur lUniversit de Rome en 1925 et publia Les bases scientifiques
du fascisme en 1927. Sous le rgime mussolinien, il occupa de nombreux postes
officiels. Il connut une priode de disgrce de 1945 1957, date laquelle il reut la
Mdaille dOr de lEducation pour lensemble de son uvre et les services rendus
lcole Italienne.

Dfinition: Lindice de Gini est gal deux fois laire comprise


entre la courbe de Lorenz et la premire bissectrice. Il est donc
compris entre 0 (galit) et 1 (ingalit maximum: un seul
individu peroit le montal total de la richesse)
11

a. Cas o les revenus x 1 x n sont parfaitement connus


La surface comprise entre la courbe de Lorenz, laxe des
abscisses et les droites dquation p k/n et p k 1/n vaut :
x k1
k 1 k x1 xk 1 1
n
n
n
x1 xn
x1 xn
2
surface du rectangle

surface du traingle

soit encore
1
2

2x 1 2x k x k1

2n x n
La surface totale sous la courbe de Lorenz est donc:
n1
1 G
1
2x 1 2x k x k1

2
k0
2
2
2n x n
1 1 x 1 2x 2 2 nx n
2n
n xn
12

Do la valeur de lindice de Gini:


2 x 1 2x 2 nx n

G 1 1
n
n2 x n
Expression quivalente:
1 x 1 3x 2 2n 1x n
n2 x n
1 21 2n 1x 1 2n 3x 2 x n
n xn
soit encore:
G 1

G 1 21
n xn

i1 j1 minx i , x j
n

13

Comme x i x j 2 minx i , x j |x i x j |, lindice de Gini scrit


galement sous la forme :
G

i1 j1 |x i x j |
n

1
2

2n x n

Remarque : Cet indice accorde le mme poids aux revenus des


plus riches qu ceux des plus pauvres
b. Cas dune distribution continue
La surface comprise entre la 1re bissectrice et la courbe de
Lorenz q Lp est gale :
1

0 p Lpdp
14

On en dduit la valeur de lindice de Gini :


1

G 2 p Lpdp
0

p
1
Comme Lp m F 1 udu, on en dduit que :
0
1
p
1
1
2
2
1
G 1 m F udu dp 1 m F 1 udp du
0
0
0
u

2
1 m
2
1 m

0 1 uF udu 1 m2

2
vfvdv m

0 uF 1 udu

F 1

2
udu m

0 uF 1 udu

en posant u Fv

soit encore

2
G 1 m

0 uF 1 udu
15

En faisant le changement de variables v F 1 u, qui implique


u Fv et du fvdv, on obtient :
2
G 1 m

0 vFvfvdv

2.2 Autres mesures scalaires dingalit


a. Coefficient de variation
Le coefficient de variation est le rapport de lcart-type de la
distribution sa moyenne:

CV m
Lorsque les revenus sont observs dans le cadre dun
chantillonnage, il est estim par:
1/2
n
2
1
1
CV
x i x n

xn n1
i1
16

Dans le cas dune distribution continue, cette mesure a pour


expression:
1
CV m

0 v m fvdv
2

1/2

Cette mesure est compatible avec lordre dduit des courbes de


Lorenz
b. Ecart quadratique des logarithmes
Il est dfini par :

i1
n

Iq 1
n
Iq

v
ln m

ln x i
xn
2

fvdv

lorsque les revenus sont observs


dans le cas dune distribution continue

Il accorde un poids plus important aux bas revenus et est


compatible avec lordre dduit des courbes de Lorenz
17

c. Ecart moyen des logarithmes


Il est dfini par :
n
1
lorsque les revenus sont observs
I m n ln x i
xn
i1

v fvdv dans le cas dune distribution continue


I m ln m
0
Il est compatible avec lordre dduit des courbes de Lorenz
d. Intervalle interquartile
Lintervalle interquartile est dfini par:
I i 3 2 1
o 1 : 1er quartile, 2 : mdiane, 3 : 3me quartile
Cet indice est simple calculer mais il nest pas toujours
compatible avec lordre dduit des courbes de Lorenz
18

3. Mesures de concentration
Ces mesures sont principalement utilises pour fournir des
indicateurs de la plus ou moins grande concentration des
entreprises dans un secteur dactivit
Quelle variable retenir? Nombre de salaris, chiffre daffaire,
bnfice, montant des investissements, etc.? Pas de rponse
gnrale, tout dpend de langle danalyse
Dans la suite, nous considrerons la taille de lentreprise
(nombre de salaris)
Si, dans un secteur dactivit, une faible proportion dentreprises
emploie une proportion leve du nombre total de salaris
employs dans ce secteur, le secteur est concentr
De ce fait, on pourrait utiliser lordre dduit des courbes de
Lorenz
19

Mais cette faon de faire nest pas totalement adapte


lexamen du phnomne de concentration
Exemple:
- soient deux secteurs dactivit comprenant respectivement 3 et 6 entreprises,
toutes de mme taille

- les deux courbes de Lorenz sont confondues avec la 1re bissectrice


- les deux distributions sont quivalentes pour lordre dduit des courbes de Lorenz
- pourtant le 1er secteur est plus concentr que le 2nd, puisquil comporte moins
dentreprises

Deux aspects prendre en compte :


- le nombre dentreprises du secteur,
- les diffrences de ces entreprises en termes de taille, de
chiffre daffaire, etc.
20

Il est souhaitable quune mesure scalaire de concentration


vrifie les proprits suivantes:
1. si les populations sont de mme taille n, et si x x 1 , , x n
est plus ingalitaire que y y 1 , , y n , alors Ix Iy
2. lorsquon agrge deux entreprises i et j du secteur en une
seule entreprise de taille x i x j , la concentration augmente
Ix 1 , , x i x j , , x n Ix 1 , , x i , , x j , , x n
Consquence: lorsque toutes les entreprises ont mme taille, le
mesure doit dcrotre avec laccroissement du nombre
dentreprises. En effet,
1 I 1 , , 1 , 0 I 1 , 1 , , 1
I 1
,
,
n
n
n
n
n1 n1
n1
n fois

n fois

n1 fois

21

3.1 Mesures classiques de concentration


Ces mesures sont construites en calculant une moyenne pondre des parts des
entreprises du secteur

Si x 1 x n est la distribution des tailles, lindice est dfini


par:
n
xi h xi
Ix 1 , , x n
nx n
i1 n x n
o h x i
est un poids qui est gnralement compris entre 0
nx n
et 1
Cette mesure vrifie la seconde proprit
Ix 1 , , x i x j , , x n Ix 1 , , x i , , x j , , x n
si

xi xj
x i x j
h
nx n
nx n

xi

nx n

xi
nx n

xj

nx n

xj
nx n
22

Cette condition est satisfaite lorsque h est croissante, puisquen


ce cas:
y zhy z yhy z zhy z yhy zhz

3.2 Lindice de Theil


Rappel: Henri Theil (1924 - 2000) tait un conomtre hollandais. Diplm de
lUniversit dAmsterdam, il fut le successeur lUniversit Erasmus (de Rotterdam)
de Jan Tinbergen (laurat, avec Ragnar Frisch, du 1er Prix Nobel dconomie,
dcern en 1969). Plus tard, il a enseign Chicago et lUniversit de Floride.

Lindice de Theil est dfini par:


x i ln x i
i1 n x n n x n
Cette mesure est compatible avec lordre dduit des courbes de
Lorenz.
Tx 1 , , x n

23

Elle accorde une importance plus grande la concentration des


petites entreprises
La seconde proprit est vrifie puisque la fonction hz ln z
est strictement croissante

3.3 Lindice dHerfindahl


Il correspond la fonction hz z, soit:
2
x
i
Hx 1 , , x n
i1 n x n
Cet indice est minimum dans le cas de lgalit et prend alors la
valeur 1/n
Le rapport 1/H peut donc sinterprter comme le nombre
dentreprises de mme taille conduisant la mme
concentration que celle de la distribution initiale
n

24

Lindice est maximum (et vaut alors 1) lorsquil y a ingalit


totale:
x n n x n et x i 0 i n
Cet indice accorde la mme importance la concentration
parmi les grandes entreprises qu la concentration parmi les
petites
Lindice dHerfindahl est utilis par les autorits de concurrence
sous deux formes : en valeur absolue et en variation (avant et
aprs lopration de concentration envisage)
Il est tabli en additionnant le carr des parts de march
(gnralement multiplies par 100) de toutes les entreprises du
secteur considr

25

On distingue habituellement trois intervalles de valeurs :


- indice infrieur 1000 : secteur peu concentr, prsentant peu de risques
- indice compris entre 1000 et 2000 : zone intermdiaire, pouvant prsenter des
risques en prsence de certains facteurs
- indice suprieur 2000 : zone de risques importants

Aux tats-unis, une transaction qui augmente de plus de 100


points lindice dun secteur est soumise aux lois anti-trust.
De mme, la Commission europenne sy rfre dans ses
lignes directrices sur lapprciation des concentrations
horizontales
Rfrence: Herfindahl, O. C. (1950): Concentration in the Steel Industry, Ph. D.
Thesis, Columbia University

26

4. Dsagrgation des indices


4.1 Courbes de Lorenz
Considrons deux sous-populations (sous-chantillons) de
tailles respectives n 1 et n 2 caractrises respectivement par les
revenus x 1 x n 1 et y 1 y n 2
A ces deux sous-populations, correspondent les courbes de
Lorenz :
x k pour k 0, , n
L 1 nk1 xx 1
1
x n1
1
y1 yk
k
L2 n2 y y
pour k 0, , n 2
1
n2
En gnral, la courbe de Lorenz L associe la population
obtenue en agrgeant ces deux sous-populations ne sexprime
pas de manire simple en fonction de L 1 et L 2
27

Cette difficult se retrouve pour la plupart des mesures


scalaires dingalit
La dcomposition est toutefois possible lorsque les deux
distributions sont disjointes y 1 x n 1
Preuve:
xk
x x 1x
L n k n
1
2
1
n1 y 1 y n2
n1 x

L 1 nk1
si k 0, , n 1
n1 x n2 y
et
x x y y
L n k n
x1 xn 1 y1 ykn 1
1
2
1
n1
1
n2
n 1 x n 2 y L 2 k n 2n 1

si k n 1 1, , n 1 n 2
n1 x n2 y
28

Cette dcomposition peut tre gnralise un nombre


quelconque de sous-populations dont les distributions sont
disjointes

4.2 Indices de Gini


Dans le cas des n 1 n 2 individus, on montre que lindice de Gini
a pour expression :
n1 n1

n2 n2

n1 n2

i1 j1

i1 j1

i1 j1

|x i x j | |y i y j | 2 |x i y j |
G

2n 1 n 2 n 1 x n 2 y
Les indices de Gini associs aux deux sous-populations sont:
G1

n1 n1

n2 n2

1 |x i x j | et G 2
1 |y i y j |
2n 21 x i1 j1
2n 22 y i1 j1

29

Appelons G 12 la quantit:
G 12

n1 n2

1
2n 1 n 2 x

|x i y j |
i1 j1

Si les moyennes x et y taient gales, G 12 reprsenterait une


mesure de lingalit entre les populations
Avec ces notations,
n2 y
n1 x
G n n1 n
G 1 n n2 n
G2
1
2
1
2
n1 x n2 y
n1 x n2 y
n1n2 x y

G 12
n 1 n 2 n 1 x n 2 y

30

4.3 Indice de Theil


Lindice de Theil pour la population totale a pour expression :
n1
n2
yj
yj
x
x
i
i
T
ln

ln
n1 x n2 y
n1 x n2 y
n1 x n2 y
n1 x n2 y
i1
j1
n1

i1

xi
n1 x
n1 x
ln x i
ln
n1 x n2 y
n1 x
n1 x n2 y
n1 x n2 y
n2

yj
yj
n2 y
n2 y

ln

ln
n
x

n
y
n
y
x

n
y
n
n1 x n2 y
1
2
2
1
2
j1
Les indices de Theil pour chacune des sous-populations sont:
n1
n2
yj
yj
x
x
i
i
T1
ln
et T 2
ln
n
x
n
x
n
y
n2 y
1
1
2
i1
j1

31

Appelons T 12 la quantit:
n2 y
n2 y
n
n
1x
1x
T 12
ln

ln
n1 x n2 y
n1 x n2 y
n1 x n2 y
n1 x n2 y
T 12 est la mesure de la concentration entre les deux
sous-populations affectes dune taille gale la somme des
tailles des entreprises les composant
Finalement on obtient:
n2 y
n1 x
T
T1
T T 12
n1 x n2 y 1
n1 x n2 y
concentration totale moyenne des concentrations intra concentration inter

32

4.4 Indice dHerfindahl


Lindice de Herfindahl pour la population totale est donn par :
n1
n2
2
2
y
j
x
i
H

n
x

n
y
n1 x n2 y
1
2
i1
j1

n1 x
n1 x n2 y

H1

n2 y
n1 x n2 y

H2

Lindice pour la population totale est donc obtenu comme


combinaison linaire des indices H 1 et H 2 de chacune des deux
sous-populations, les poids tant gaux aux carrs de chacune
des sous-populations dans la population tout entire

33

5. Calcul de la prcision statistique des


indices
Les indices sont des fonctions compliques (non linaires) des observations, de leurs
moments empiriques (moyenne, cart-type, etc.) et/ou des fractiles (mdiane, etc.) de
leur distribution

Difficile de produire une thorie asymptotique pour les


estimateurs de ces indices
Recours la technique du bootstrap
Origine du mot : le bootstrapping fait rfrence aux Aventures du Baron de
Mnchhausen, lequel est cens stre sorti dun marcage o il tait embourb en se
tirant par les bottes et en se propulsant ainsi dans les airs. Les bootstraps sont les
anneaux cousus sur le rebord des bottes et dans lesquels on passe les doigts pour
les chausser
34

Principe du bootstrap
Le bootstrap permet destimer certaines fonctions dune variable
alatoire X de loi de probabilit inconnue P X , ainsi quune
mesure de la prcision cette estimation, et ce partir dun
unique chantillon X 1 , , X n
La variable alatoire X peut tre continue ou discrte
Le bootstrap a deux caractristiques essentielles :
1) il est non-paramtrique (on ny fait aucune hypothse
paramtrique sur la distribution sous-jacente)
2) il peut tre utilis en lieu et place dune mthode
paramtrique lorsque celle-ci conduit des calculs inextricables

35

La mise en uvre du bootstrap repose sur :


1) La slection dune statistique approprie ZX 1 , , X n sur lchantillon. Par
exemple, si on veut estimer la mdiane dune distribution, la mdiane de lchantillon
sera la statistique retenue. Cette statistique peut galement tre un indice dingalit
ou de concentration.
2) La notion dchantillon bootstrap. Dans lchantillon initial X 1 , , X n , on
procde n tirages avec remise de faon constituer un nouvel chantillon
X 1 , , X n dans lequel chaque observation initiale figure au plus n fois. On rpte
un grand nombre de fois cette opration de faon disposer dun ensemble de L

chantillons bootstrap
X 1l
, , X nl
l1,,L

Le bootstrap procde alors de la faon suivante :


1) Un grand nombre dchantillons bootstrap sont crs
2) La statistique ZX 1 , , X n est calcule pour chacun des chantillons bootstrap

36

La fonction de distribution empirique de ces nouvelles


estimations est une approximation de la distribution de la
statistique ZX 1 , , X n
En particulier:
1) La moyenne empirique des L valeurs de Z ainsi produites est lestimation
bootstrap de la grandeur tudie
2) Lcart-type empirique de ces L valeurs de Z est une mesure de lincertitude
pesant sur cette estimation
3) Lintervalle 95% de lestimateur bootstrap est obtenu en retenant les quantiles
0.025 et 0.975 de la distribution empirique des Z

Combien dchantillons bootstrap?


En pratique, L 200 pour la moyenne et lcart-type, L 500 pour lintervalle de
confiance

37

Vous aimerez peut-être aussi