Académique Documents
Professionnel Documents
Culture Documents
Stat Desc v.6
Stat Desc v.6
A. Benchekroun
• Par ailleurs, tous les cas doivent être prévus (exhaustivité) et on doit pouvoir
classer tous les individus, sans exception.
• Les modalités d'un caractère qualitatif constituent les différents postes (ou
rubriques) d'une nomenclature ou classification. Ces postes doivent être
mutuellement incompatibles et exhaustifs. Si on n'est pas sûr de couvrir
tous les cas possibles, on sera conduit à prévoir une rubrique
supplémentaire: « Autres» pour répondre à l'exigence d'exhaustivité.
i ni fi
. . .
. . .
. . .
M nM fM
Total M
ni = N
M
i =1
i =1
fi = 1
n1 n2 nM
f1 + f 2 + ... + f M = + + ... + =1
Formellement, on écrira : N N N
M M
n
i =1
i =N & fi =1
i =1
Effectif (Nombre
Véhicule Fréquence fi
de véhicules) ni
C2P 10 40,00%
P4P 8 32,00%
5P 5 20,00%
ML 2 8,00%
Total 25 100,00%
C2P: Cabriolet, Deux Places; P4P: Petite 4 Places; 5P: Cinq Places; ML: Modèle Luxe
12
C2P
10
P4P
8
6
5P
ML
2
0
C2P P4P 5P ML
35,00%
P4P
30,00%
25,00%
5P
20,00%
15,00%
10,00% ML
5,00%
0,00%
C2P P4P 5P ML
ML
8%
5P C2P
20% 40%
P4P
32%
ML
8%
5P
C2P
20%
40%
P4P
32%
2
ML P4P
0
5P
Effectif (Nombre
Véhicule Fréquence
de véhicules)
C2P 14 35,00%
P4P 10 25,00%
5P 12 30,00%
ML 4 10,00%
Total 40 100,00%
16
ventes (en milliers)
14
12
10
Effectif (Nombre de véhicules) 20(A-1)
0
C2P P4P 5P ML
30%
20% C2P C2P
10%
0%
20(A-1) 20(A)
120 120
100
Effectifs ni
90
80 80
60
40 40
20
10 10
0
0 1 2 3 4 5 6 7
xi
35,00%
30,00% 30,00%
25,00%
24,00%
20,00%
18,00%
15,00%
16,00%
10,00%
8,00%
5,00%
2,00% 2,00%
0,00%
0 1 2 3 4 5 6 7
500
500
490
480
440
400
Effectifs Cumulés
350
300
200
200
100
80
0
0 1 2 3 4 5 6 7
Nombre d'enfants
100,00%
100,00%
98,00%
96,00%
88,00%
80,00%
Fréquences Cumulées
70,00%
60,00%
40,00%
40,00%
20,00%
16,00%
0,00%
0 1 2 3 4 5 6 7
Nombre d'enfants
F : IR → IR
x Pr op[ X x]
i
F ( x) = Fi = f p pour xi x xi +1
p =1
Effectif Fréquence
Salaire mensuel Nombre de
Fréquence corrigé Corrigée
ei-1 - ei salariés ni
1000xni/ai 1000xfi/ai
]3 000 ; 4 000] 30 6,00% 30 6,00%
]4 000 ; 6 000] 100 20,00% 50 10,00%
]6 000 ; 10 000] 150 30,00% 37,5 7,50%
]10 000 ; 20 000] 155 31,00% 15,5 3,10%
]20 000 ; 40 000] 40 8,00% 2 0,40%
Plus de 40 000 25 5,00% 0,5 0,10%
Courbe de fréquence
90,00%
80,00%
70,00%
60,00%
50,00%
40,00%
30,00%
20,00%
10,00%
0,00%
0 10 000 20 000 30 000 40 000 50 000 60 000 70 000 80 000 90 000 100 000
Salaire mensuel
EIQ représente l’écart interquartile sur toute la plage de données (voir plus loin la notion
d’écart interquartile ).
Si X désigne une v.a.r. ayant une densité de probabilité f, le mode (théorique) de X est le
nombre m0 tel que
f ( m0 ) = Max ( f ( x ))
xIR
Première définition
La médiane est la valeur de la variable statistique qui partage en deux effectifs
égaux les observations préalablement rangées par ordre croissant ou décroissant du
caractère.
Donc si par exemple on considère une population de 15 personnes décrite
suivant la taille, la taille médiane est celle de la 8ième personne,les personnes étant
rangées par ordre de taille croissante (ou décroissante).
Supposons maintenant que dans l'exemple précédant la population soit de 16
personnes rangées par ordre de taille croissante; Une taille médiane sera celle de la
8ième, mais une autre taille médiane sera celle de la 9ième. Il convient donc de donner une
définition plus rigoureuse.
Pr ob[ X ] 0, 5
Pr ob[ X ] 0, 5
médiane
1
médiane de X F ( ) =
2
Pr op[ X ] 0, 5
Pr op[ X ] 0, 5
On peut aussi écrire
ni
Soit ni (resp. fi = ) l'effectif (resp. la fréquence)
N
correspondant à la modalité xi
(! p IN;1 p M ) N p −1 [N ] +1 N p
2
On sait qu'une médiane (empirique) de X est
= X ([ N / 2]+1) = x p
3 90 440
4 40 480
5 10 490
6 10 500
Total 500
Total 500
On considère implicitement que les valeurs observées X1,…,XN sont issues d'une v.a.r. X
ayant une f.r. F continue et strictement croissante.
Soit X (1) ,... X ( N ) ces valeurs observées ordonnées de manière croissante.
X (1) X (2) ... X ( N −1) X ( N )
On a vu qu'une médiane (empirique) de X est = X ([ N / 2]+1)
([N/2] désigne la partie entière de N/2).
Soit Me la médiane théorique de X (médiane au sens des probabilités), celle pour laquelle
F(Me)=1/2 . On considère que est une estimation de Me. Cela est justifié par le
comportement asymptotique de .
N
Me
Mais souvent les observations sont groupées en classe (et donc soit on ne
dispose pas de toutes les observations, soit on ne veut pas "utiliser" toutes les
observations). On a alors l'habitude d'appeler médiane de X, la médiane Me
(théorique) de la v.a.r. X (au sens des probabilités); La médiane Me est donc
définie par F(Me)=1/2. Donc, souvent lorsque X est un caractère quantitatif
continu dont on a effectué un groupement des observations en classes, la médiane
de X désignera ce nombre Me dont on verra comment obtenir une estimation.
Evidemment, on n'a pas la valeur exacte de Me mais seulement un estimateur.
FN* : IR → IR
1 N
x Pr op[ X x] = 1 (X p )
N p =1 ]−, x]
Cette fonction FN* dépend de la taille de l'échantillon N et des valeurs observées, et donc si
les observations constituent les valeurs observées de variables aléatoires, FN* est elle-même
une variable aléatoire que l'on observe.
ps
Non seulement on a ( x) FN* ( x) N F ( x)
ps
On a même Sup F ( x)
*
N F ( x) N
0 Théorème de Glivenko-Cantelli
x
N désigne par abus de notation soit l'effectif total soit la fonction "Effectif cumulé" : le
contexte permet de savoir de quoi il s'agit.
D'ailleurs, si on utilise pas la fonction F, on confondra dans les notations F avec FN* (c'est
ce qu'on a l'habitude de faire en "Statistiques Descriptives") ; Me est alors estimée par
simple interpolation linéaire ; Compte tenu de
1
F (e p −1 ) = F ( M e ) F (e p ) on peut dire que e p −1 M e ep
2
M e − e p −1 e p − e p −1
F ( M e ) − F (e p −1 ) F (e p ) − F (e p −1 )
N
− N (e p −1 )
Me e p −1 + (e p − e p −1 ) 2
N (e p ) − N (e p −1 )
]3 000 ; 4 000] 30 30
]4 000 ; 6 000] 100 130
]6 000 ; 10 000] 150 280 500/2=250
Elle dépend de toutes les observations, mais seulement par leur ordre, et non
par leurs valeurs. Elle n'est donc pas influencée par des observations aberrantes,
anormalement grandes ou petites.
Son emploi n'est pas recommandé dans le cas de séries discrètes dont la
courbe en escalier comporte des « sauts» importants, ni dans celui de séries continues
ne comportant que peu d'observations, car son interprétation devient alors très
incertaine.
X
N
X1 + X 2 + + XN 1
X = = i
N N
i =1
Soit X une variable comportant N observations X1,…,XN, prenant les valeurs (modalités) :
x1, x2, …, xM
N M M
1 1
X = Xi = np xp = f p xp
N N
i =1 p =1 p =1
np
où f p =
N
Autrement dit, la moyenne arithmétique est égale à la moyenne des modalités
pondérées par leurs fréquences respectives.
x1 x2 x3 ... xM −1 xM
N M M
1 1
X = Xi = np xp = f p xp
N N
i =1 p =1 p =1
np
où f p =
N
np désigne l’effectif correspondant à la modalité xp (p=1 à M)
89
A. Benchekroun - Statistiques Descriptives
Reprenons l'exemple du caractère "nombre d'enfants" du tableau 4
(2)
(1) Nombre
Nombre de
d'enfants familles (3)=(1) x (2)
ni x xi
1 500
xi ni X =
500 i =1
Xi
0 80 0 1 7 960
1 120 120
=
500 p =1
np xp =
500
= 1, 92 enfant
2 150 300
3 90 270
4 40 160
5 10 50
6 10 60
Lorsque les observations sont groupées par classes, on ne peut (ou veut) pas
appliquer directement la formule de définition, car on ne connaît pas (ou on ne veut pas
connaître) précisément les valeurs prises par la variable statistique à l'intérieur de chaque
classe.
M M
1
X npcp = f pc p
N
p =1 p =1 M désigne ici le nombre de
np classes
où f p =
N
6
1 6 955 000
X = npcp = = 13910 DH
500 500
p =1
A. Benchekroun - Statistiques Descriptives 92
Propriétés algébriques de la moyenne arithmétique
La somme algébrique des écarts des observations à la moyenne est nulle
N M
(X
i =1
i − X ) = n p ( x p − X ) =0
p =1
Y = bX + a
Si une variable Z est la somme de deux autres: Z=X + Y; alors la même
transformation s’applique aux moyennes:
Z = X +Y
Soit X une v.a.r. (variable aléatoire réelle) ayant une espérance mathématique E(X)=m
H
1
(1) X =
N
N
h =1
h Xh Nh désigne la taille de la population h
(N1 + N 2 + ... + N H = N )
1
X = ( N1 X 1 + N 2 X 2 )
N
1
= (500 13910 + 1500 16500)
2000
1 31705 000
= (6 955 000 + 24 750 000) = = 15852,50 DH
2000 2000
Moyenne Géométrique
G = N X1 X 2 XN
N
1
Il est évident que : ln G =
N
ln X
i =1
i = ln X
1 + r = N (1 + r1 ) (1 + r2 ) (1 + rN )
À ces taux de hausse des prix, correspondent les indices (base 100 l'année précédente)
suivants:
G= 5
217,8 184,5 158,3 131, 7 112,8 156, 71
Ce qui correspond à un taux d'inflation annuel moyen de 56,71%.
Soit X une variable strictement positive comportant N observations X1,…,XN, prenant les M
valeurs (modalités): x1, x2, …, xM
N M M
1 1 1
ln G = ln X = ln X i = n p ln x p =
np
ln x p
N N N
i =1 p =1 p =1
M
1
= ln(
n N
xp p )
p =1
M
1
D'où
G=(
np N
xp )
p =1
A. Benchekroun - Statistiques Descriptives 102
Exemple
Dans le pays d'Amérique latine précédemment évoqué, le taux moyen annuel
d'inflation des prix à la consommation (en %) a été la suivante pour les trois périodes
suivantes:
À ces taux de hausse des prix, correspondent les indices moyens annuels suivants:
N N
H = = N
1 1 1 1
X1
+
X2
+ ... +
XN i =1 Xi
N
1 1 1 1
Il est évident que :
H
=
N
i =1 Xi
=(
X
)
(n1 + n 2 + ... + nM = N )
N M
1 1 1 1 np
= (1 ) = =
H X N Xi N xp
i =1 p =1
N
H =
M
np
xp
p =1
N
H =
M
np
xp
p =1
+ +
M
np 20 15 5
800 600 400
xp
p =1
Soit une fonction réelle définie sur un intervalle I de , strictement monotone et continue
sur I ( induit donc une bijection monotone de I sur l'intervalle (I)=J, dont la réciproque,
nécessairement continue, sera notée -1);
N
1
(M ) =
N
( X ) = ( X )
i =1
i
Cette définition a un sens, car ( X )J
puisque J est un intervalle.
Donc M = −1 ( ( X ))
x x2
la -moyenne de X − X , qui correspond à la moyenne quadratique de ( X − X )
s'appelle "l'écart type" de X : nous l'étudierons dans la prochaine section.
x xp
p 1;+
la -moyenne de X (resp. de X − X ) s'appelle moyenne absolue (resp.
moyenne absolue centrée) d'ordre p de X.
1 n
Pour p* on appelle moment (non centré) d'ordre p de X la statistique m p ( X ) X ip
n i 1
1 n
L'étendue est la différence entre la plus grande et la plus petite des valeurs observées:
Etendue= X ( N ) − X (1)
Exemples
✓Dans le cas du caractère "nombre d'enfants" du tableau 4
l'étendue est égale à w = 6 - 0 = 6 enfants.
✓Dans le cas de la distribution des 500 salariés d'un établissement industriel selon le salaire
mensuel (tableau 5), l'étendue peut être estimée par la différence entre l'extrémité
supérieure de la dernière classe (évaluée pour construire l'histogramme) et l'extrémité
inférieure de la première classe:w=90 000-3 000=87 000 DH.
1-
quantile d'ordre
quantile d'ordre de X F ( ) =
Pr op[ X ]
Pr op[ X ] 1 −
On peut aussi écrire
Et souvent on dira que est le fractile empirique d'ordre de X, même s'il en existe plusieurs.
k
→ Centiles. Les centiles correspondent à (k {1,2,3,...,99} k=1
100
correspond au 1er centile, k=2 correspond au 2ème centile,…, k=99 au 99ème centile.
Tout ce qui a été dit pour la médiane se généralise exactement de la même manière
Soit X1,…,XN les valeurs observées d'une v.a.r. X ayant une f.r. F continue et strictement
croissante et soit X (1) ,... X ( N ) ces valeurs observées ordonnées de manière
croissante.
N
Q
Les nombres Q0,25 , (resp. Q0, 50, Q0,75) s'appellent premier (resp. deuxième,
troisième) quartile de X. Le deuxième quartile Q0, 50 n'est autre que la médiane de X. Ces
trois nombres divisent la série, préalablement ordonnée par ordre croissant, en quatre
parties "égales".
On appelle intervalle interquartile (ou écart interquartile ou encore étendue interquartile)
de X, la différence entre le troisième et premier quartile : Q0,75 - Q0,25.
De la même manière que Q0, 50=Me a été estimé, Q0,25 et Q0,75 seront estimés.
]3 000 ; 4 000] 30 30
]4 000 ; 6 000] 100 130 500/4=125
Le rang de l'observation associée à Q0,25 est N/4 = 500/4=125 , d'où la 1ère classe
interquartile ]4000 ; 6000]; Le rang de l'observation associée à Q0,75 est 3N/4 = 375 ,
d'où la 3ème classe interquartile ]10 000 ; 20 000].
93 000
83 000
73 000
63 000
Salaire
53 000
43 000
33 000
23 000
13 000
3 000
La 1ère et 3ème entreprise ont la même dispersion autour de la médiane. Mais la 3ème est moins dispersée globalement
avec un IDG de 5,31% contre 12,09% : dans la 3ème entreprise il y a plus forte concentration vers les hauts salaires que
dans la 1ère.
140
I.2)C.)iii) L’écart type
N
1
VX =
N
i
( X
i =1
− X ) 2
C’ est donc la moyenne arithmétique des carrés des écarts à la moyenne arithmétique:
VX = ( X − X )2
X = VX
On peut faire exactement les mêmes remarques que pour la moyenne arithmétique
concernant le calcul selon les modalités de la variable.
Soit X une variable comportant N observations X1,…,XN, prenant les M valeurs (modalités):
x1, x2, …, xM
M
1
X =
N
n
p =1
p ( x p − X )2
188 967,50
VX = 106 − 13 9102 = 184 446 900
500
X = 184 446 900 13 581,12 DH
A. Benchekroun - Statistiques Descriptives 145
Propriétés de la variance et de l’écart type
Comme la moyenne arithmétique, l'écart type satisfait assez bien à l'ensemble des
conditions de Yule. Sa signification n'est peut-être pas facile à saisir: étant une moyenne -
la moyenne quadratique des écarts à la moyenne arithmétique- on comprend cependant
qu'il mesure la dispersion moyenne de la distribution.
N i 1
1 N
Pour p* on appelle moment empirique centré d'ordre p de X la statistique p
(X ) (Xi X )p (X X )p
N i 1
VY = b2VX ou Y = b X
Soit X une v.a.r. ayant un moment d'ordre 2 (E(X2)<+) , ce qui implique l'existence de
m=E(X) et de V(X)=E((X-m)2)=E(X2)-m2 ; l'écart-type de X est par définition V (X )
2
Plus précisément, on a 2 n 1 2
(il y a un biais égal à E ( )
2
2 )
E( )
n n
C'est pourquoi, on préfère pour estimer la variance théorique 2 , utiliser la variance
2 n 2 1 n
de 2.
Evidemment, dès que la taille n de l'échantillon devient assez grande, il n'y a quasiment
pas de différence entre ces deux variances d'échantillon. La différence se ressent que
pour des échantillons de taille petite.
2
est appelée "variance empirique", et la variance standard s2 est parfois appelée
"variance empirique corrigée".
2
Que ce soit s2 ou , tous les deux ce sont des estimateurs convergents de 2
152
On rappelle que bien que "grossière", l'inégalité de "Beinaymé-Tchébytchev" montre que
est un paramètre de la dispersion autour de la moyenne m.
1
( t 0) Proba[ X-m t ] 2
t
1
Ou encore ( t 0) Proba[ X-m t ] 1
t2
Autrement dit X est compris entre m - t et m + t avec une proba ≥ à 1-1/t2 la
longueur de l'intervalle est 2t . Donc est bien un indicateur de la dispersion autour de
m puisque plus est grand, plus la longueur de l'intervalle est grande. Par exemple si on
prend t=2, X sera compris entre m-2 et m+2 avec une proba ≥ à 75% (ce sera même
95% si X suit une loi normale).
H H
1 1
=
2
N
h =1
nh +
2
h
N
n
h =1
h ( X h − X )2
Le premier terme représente la moyenne (pondérée par les effectifs) des variances des
sous-populations; le second, la variance des moyennes des sous-populations. On a :
Le second terme est la variance que l'on obtiendrait si toutes les sous-
populations étaient homogènes, c'est-à-dire si toutes les observations de chaque sous-
population h étaient égales à leur moyenne X h (le premier terme serait alors nul). On
l'appelle "variance inter-populations" (c'est-à-dire entre les sous-populations):
1
La moyenne a déjà été calculée : X = ( N1 X 1 + N 2 X 2 ) = 15852,50 DH
N
500 184 446 900 +1500 15000 2 500 (13910 − 15852,5) 2 + 1500 (16500 − 15852,5) 2
=
2
+
2000 2000
429723450000 2515537500 432 238987500
= + = = 216119 493,8
2000 2000 2000
= 216119 493,8 14701, 00 DH
Dans lequel de ces trois pays, la dispersion du coût de la main d’œuvre est-elle
la plus grande?
Pour répondre à cette question, il faut, soit exprimer les écart types dans une monnaie
commune, par exemple le dollar (mais en utilisant quels coefficients de conversion? Les
taux de change? Les parités de pouvoir d'achat ?), soit utiliser le coefficient de variation.
C'est donc les E.U. qui, de ces trois pays, ont la plus forte dispersion relative des
coûts de la main-d'œuvre.
Une distribution de revenus est inégalitaire si une faible proportion des individus perçoit
une forte proportion du montant total des revenus distribués.
Soit X un caractère (quantitatif) à valeur strictement positive observé sur une population de
N individus; Soit X1,…,XN les valeurs
observées, et soit X (1) , ... X ( N ) ces valeurs observées
ordonnées de manière croissante ( X (1) X (2) ... X ( N −1) X ( N ) )
(i = 1 à N ) xi = X (i )
Tot ( X xk )
pk= Prop[ X≤xk ] & qk =
Tot ( X )
1 100%; 100%
q : proportion des revenus
0,9
0,8
0,7
Courbe de Lorenz
0,6 q= L(p)
0,5
75%; 45%
0,4
0,3
0,1
25%; 5% p: proportion des individus
0%;
0 0%
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
A. Benchekroun - Statistiques Descriptives 163
Propriétés de la courbe de Lorenz
•La courbe de Lorenz est linéaire par morceaux, inscrite dans le carré de côté 1, car p & q
sont des proportions variant entre 0 et 1.
•Elle passe par les points (0;0) & (1;1) correspondant respectivement à k=0 & k=N.
•Elle est croissante ( qk+1≥ qk ) (et même strictement , s'il n'y a pas de revenu nul.
•Elle est convexe et donc située sous la première bissectrice.
0,9
0,8
0,5
0,4
0,3
0,2
0,1
0
0 0,2 0,4 0,6 0,8 1
A. Benchekroun - Statistiques Descriptives 165
Prenons l'exemple suivant: N=3, x1=5, x2=5, x3=90; L'individu le plus riche, qui représente
seulement le tiers de la population reçoit 90% du revenu total. La courbe de Lorenz est
alors proche des côtés du carré.
1 100%; 100%
q : proportion des revenus
0,9
0,8
0,7
0,6
Forte Inégalité
0,5
0,4
0,3
0,2
1 1 ;1
La courbe de Lorenz associée à A est
0,9
située au dessus de celle associée à
0,8 B; Les "pauvres" de A sont moins
"pauvres" que ceux de B ( et
0,7
évidemment les riches moins
0,6 riches). Le deuxième partage
apparaît comme plus inégalitaire.
0,5
0,4 2/3;40%
A
0,3
B
0,2
2/3;15%
0,1 1/3;10%
1/3;5%
0 0;0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Une distribution B est plus inégalitaire qu'une autre A, si sa courbe de Lorenz est
constamment située en dessous de celle de A
1 1
0,9
0,8
0,7
0,6 B
Aucune des 2 courbes
2/3;55% n'est constamment sous
0,5
A l'autre; B est plus
0,4 2/3;40% égalitaire que A pour les
0,3 hauts revenus ( et A est
plus égalitaire pour les
0,2 1/3;20%
bas revenus)
0,1 1/3;10%
0 0;0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
xk
( qk − qk −1 = )
x1 + ... + xN
Les valeurs des revenus sont donc connues à une constante multiplicative près.
On peut aussi voir comment se comporte la courbe, lorsque tous les revenus x1,…, xN sont
augmentés d'une même quantité positive h; La nouvelle distribution y1 = x1 +h,…, yN = xN +h
apparaît plus égalitaire que la distribution initiale.
c.q.f.d.
Pour des raisons qu'on a déjà exposé, les données sont souvent
regroupées en classes.
Considérons une distribution de revenus où les données sont regroupées en M
classes. Les bornes de la kème classe sont ek-1, ek (ek-1< ek) ; pour cette classe, on
connaît le nombre nk d'individus percevant entre ek-1et ek; Soit Sk la masse totale
des revenus qu'ils perçoivent. On ne peut (ou on ne veut) construire que M+1
points de la courbe de Lorenz.
n1 + ... + nk N (ek )
kp ( e ) = = = F (ek )
N N
k = 1à M
q(ek ) = 1 S + ... + S S + ... + S Tot ( X e ) Tot ( X e )
k
= 1 k
= k
= k
S1 + ... + S M NX Tot ( X ) S
Les autres points de la courbe (N-M, il y en a N+1au total) ne sont pas représentés car on ne
sait pas (ou on ne veut pas savoir) comment sont répartis les revenus à l'intérieur de
chaque classe.
p
1
A. Benchekroun - Statistiques Descriptives 175
Même la masse des revenus Sk à l'intérieur d'une classe est rarement utilisée pour les
mêmes raisons exposées plus haut: on fait souvent l'hypothèse que le revenu moyen de
chaque classe est égal à son centre ; Ce qui conduit à l'approximation suivante :
S k nk ck
n1 + ... + nk N (ek )
p(ek ) = N
=
N
= F (ek )
D'où k = 1à M
q(ek ) n1c1 + ... + nk ck Tot ( X ek )
n1c1 + ... + nM cM S
100%
90%
80%
95,00%-76,64%
70%
60% 87,00%-59,38%
50%
40%
30%
56,00%-25,95%
20%
10% 26,00%-8,70%
6,00%-1,51%
0%
0% 20% 40% 60% 80% 100%
L'indice de Gini est la mesure d'inégalité la plus utilisée : il est défini comme étant le
rapport entre l'aire comprise entre la première bissectrice et la courbe de Lorenz et l'aire
du triangle (égale à ½).
Donc G= 2 Aire entre la droite et la courbe.
Il est évident que 0≤G≤1;
➢G=0 pour la distribution totalement égalitaire ;
➢G=1 pour la distribution totalement inégalitaire.
G=2Aire=2[1/2 – Aire des Trapèzes] (le premier trapèze est un triangle); D'où
M
G = 1 − 2 Ak
k =1
1 1
(k = 1 à M ) Ak = ( qk −1 + qk )( pk − pk −1 ) = f k ( qk −1 + qk )
2 2
M
1 M
G = 1 − f k ( qk −1 + qk ) = 1 − nk ( Sqk −1 + Sqk )
k =1 NS k =1
1 M
G = 1−
NS k =1
nk ( Sqk −1 + Sqk )
Cette dernière formule est très pratique car elle évite des pertes en précision, dues
aux divisions, dans le calcul de G.
Ml= 17 193,55 DH
y x y x x
x x
x x x
x x x
x x
x x x x x
x x x x
x x x x
x x x
x
xx x
x
x x
Dépendance relative – Ajustement A priori, il y a indépendance totale
linéaire justifié. entre les variables.
x
Très forte dépendance – La dépendance est Non Linéaire.
cov( X , Y ) = E ( XY ) − E ( X ) E (Y )
On appelle coefficient de corrélation linéaire de X et Y, et on notera corr( X,Y) le nombre
cov( X , Y )
r =
XY
➢ On a toujours −1 r 1
➢ r = +1 (b 0)(a ) Y = bX + a
➢ r = −1 (b 0)(a ) Y = bX + a
cov( X , Y ) = ( X − X )(Y − Y )
(c'est la moyenne des produits des variables centrées)
N
1
cov( X , Y ) =
N
(X
i =1
i − X )(Yi − Y )
cov( X , Y ) = XY − XY
cov( X , Y )
r =
X Y
(i = 1 à N ) Yi = bX i + a + ui
La variable u*=Y- Y* est appelée variable "des erreurs ajustées" ou "des résidus"
dues à la régression de Y sur X ; Elle est donc définie par
i =1
; Donc Y* = Y
N N N
➢
(Y − Y )
i =1
i
2
= (Y − Y ) + ui*2
i =1
*
i
2
i =1
i =1
Il est facile de voir que plus l'ajustement de Y sur X est "correct", plus le rapport
VE/VT est proche de 1; Ce rapport est appelé coefficient de détermination de la
régression: il est souvent noté R2. Donc:
VE VR
R2 = = 1−
VT VT
cov 2 ( X , Y )
R 2
=r 2
=
X2 Y2
Prenons l'exemple suivant: une société exploite un produit cosmétique P sur le marché
intérieur. On dispose des ventes trimestrielles des quatre dernières années.
Années A1 A2 A3 A4
Trimestres
T1 1 000 1 050 1 100 1 250
T2 1 200 1 350 1 450 1 650
T3 1 400 1 500 1 700 1 850
T4 1 150 1 300 1 400 1 550
Total 4 750 5 200 5 650 6 300
6 500
6 000
5 500
5 000
4 500
A1 A2 A3 A4
1900
1800
1700
1600
1500
1400
1300
1200
1100
1000
900
A1T1 A1T2 A1T3 A1T4 A2T1 A2T2 A2T3 A2T4 A3T1 A3T2 A3T3 A3T4 A4T1 A4T2 A4T3 A4T4
1800
A4
1700
1600 A3
1500 A2
1400
A1
1300
1200
1100
1000
900
T1 T2 T3 T4
de la forme X t = Z t + St + ut
u t appelé "partie irrégulière" ou "variation résiduelle" ou encore "perturbation" de la
série, aura le statut de variable aléatoire centrée.
Cette décomposition est classique; on y ajoute quelquefois une quatrième partie,
appelée le cycle, représentant des mouvements périodiques à moyen terme:
X t = Z t + St + Ct + ut
où f est une fonction assez simple. Les deux formes les plus utilisées de f sont la forme
additive et la forme multiplicative.
X t = f ( Z t , St , ut )
X t = f ( Z t , St , ut ) = Z t + St + ut
on dit que le modèle est un modèle d’ajustement "additif"
X t = f ( Z t , S t , ut ) = Z t S t u t
Lorsque les diverses variables sont positives, on passe du modèle multiplicatif à un modèle
additif à l’aide de la fonction logarithme.
➢ Calculer les rapports entre les valeurs observées et les valeurs ajustées X t
X t*
X t t2 tX
A1T1 1 000 1 1 1000
A1T2 1 200 2 4 2400
A1T3 1 400 3 9 4200
A1T4 1 150 4 16 4600
A2T1 1 050 5 25 5250
A2T2 1 350 6 36 8100
A2T3 1 500 7 49 10500
A2T4 1 300 8 64 10400
A3T1 1 100 9 81 9900
A3T2 1 450 10 100 14500
A3T3 1 700 11 121 18700
A3T4 1 400 12 144 16800
A4T1 1 250 13 169 16250
A4T2 1 650 14 196 23100
A4T3 1 850 15 225 27750
A4T4 1 550 16 256 24800
198 250
cov(t , X ) = -(8,50)(1368,75)=756,25
16
cov(t , X ) 756, 25
b* = = 35,5882
V (t ) 21, 25
756, 25
a* = X − bT = 1368, 75 − 8, 50 = 1066, 25
21, 25