Vous êtes sur la page 1sur 13

Chapitre 1 : DISTRIBUTION STATISTIQUE A UNE DIMENSION

Le mot "statistiques" au pluriel désigne l'ensemble des données chiffrées qui regroupent
toutes les observations faites sur des faits relatifs à un même phénomène qui concerne un
groupe d'individus.

La statistique est l’étude de la collecte de données, leur analyse, leur traitement,


l’interprétation des résultats et leur présentation afin de rendre les données compréhensibles
par tous. C’est à la fois une science, une méthode et un ensemble de techniques. Ainsi, la
statistique est la science qui étudie les statistiques.

I. Présentation des données


I-1 Population-Unité statistique (ou individu)

Cette section est consacrée à la définition du sujet de la collecte des observations.

I-1-1 Population

D’une manière générale, les études en statistique portent sur un ensemble d’éléments de
référence. Cet ensemble, qui est délimité d’une manière précise, constitue une population
statistique. En outre, ces éléments de référence pour une étude statistique particulière sont
appelés unités statistiques ou individu. Il est ainsi clair que le concept de la population
statistique dépasse le cadre strictement réservé aux personnes physiques, voire celui des êtres
vivants. La population statistique peut être :

- un ensemble d’êtres vivants : la population d’un pays, les élèves d’une région, les salariés
d’une usine ou d’un secteur d’activité particulier, les étudiants d’une université ou d’un pays,
les plantes sous une serre, etc.

- un ensemble d’objets corporels : les immeubles dans une région ou dans un pays, les pièces
produites dans une usine, les ordinateurs produits par une marque particulières, les véhicules
dans un parc, etc.

- un ensemble d’objets incorporels ou d’évènements : les opinions publiques sur un produit ou


un évènement particulier, les naissances ou les mortalités déclarées dans une région, etc.

I-1-2 Unité statistique ou individu

L’unité statistique ou individu est l’élément de la population. Cette unité est l’élément de
référence pour une étude statistique. L’unité statistique peut être :

- une entité élémentaire vivante : un étudiant d’une université, une plante dans une pépinière,
etc.

- un objet corporel : la cigarette fumée, la machine dans une usine, la pièce produite, etc.

- un objet incorporel : une opinion, un mariage, une mortalité, une natalité, etc.
III. Fréquence Cumulée Croissante et décroissante:

Permet de calculer la cumul des fréquences que pour le cas des variables quantitatives
(Discrète et continue)

Remarques:

Fréquence cumulée croissante: F(x)=prop(X<x)

1. Cas d'une variable discrète:

La répartition des familles selon le nombre d'enfants.

Nombre ni fi F croissante
d'enfants prop(X<x)
0 40 0,08 0
1 50 0,100 0+0,08=0,08
2 120 0,240 0,08+0,100=0,18
3 160 0,320 0,18+0,240=0,42
4 100 0,200 0,42+0,320=0,74
5et+ 30 0,06 0,740+0,200=0,940
500 1 ----

Fréquence cumulée croissante: F(x)=prop(X<x)

F(0)=prop(X<0)=0

F(1)=prop(X<1)=0,08

F(2)=prop(X<2)=prop(X=0)+prop(X=1)=0,08+0,100=0,18

F(3)= prop(X<3)= prop(X=0)+prop(X=1)+prop(X=2)= 0,18+0,240=0,42

F(4)= prop(X<4)= prop(X=0)+prop(X=1)+prop(X=2)+prop(X=3)= 0,42+0,320=0,740

F(5)= prop(X<5)= prop(X=0)+prop(X=1)+prop(X=2)+prop(X=3)+prop(X=4)= 0,74+0,20=0,94

Exp: F(4)= prop(X<4)=0,740=74% ==> 74% des familles ont moins de 4 enfants
2. Cas d'une variable continue

La représentation de la fonction cumulative des fréquences ou des effectifs qu’elle soit


croissante ou décroissante ne dépend pas des amplitudes des classes, qu’elles soient égales ou
inégales. On reprend l’exemple du salaire et on calcule les fréquences et les effectifs
cumulatifs croissants et décroissants.

Salaire ni fi Fi croissante
prop(X<x)
[5,10[ 45 0,225 0,225
[10,15[ 60 0,300 0,225+0,300=0,525
[15,20[ 30 0,150 0,525+0,150=0,675
[20,30[ 25 0,125 0,675+0,125=0,800
[30,50[ 40 0,200 0,800+0,200=1
Total 200 1 ---

Fréquence cumulée croissante: F(x)=prop(X<x)

F(10)=prop(X<10)=0,225

F(20)=prop(X<20)=67,5% ==> 67,5% des salariés touchent moins de 20 milles dinars par an.

...

IV. Les caractéristiques de tendance centrale ou de position


Les indicateurs statistiques de tendance centrale (dits aussi de position) considérés
fréquemment sont le Mode, la Médiane, la Moyenne et les Quantiles.

1- Le mode: Mo
C’est une grandeur statistique qui correspond à la valeur de la variable statistique qui a
l’effectif le plus élevé ou la fréquence la plus élevée. Dans certains cas, cette valeur peut être
observée plus qu’une fois dans une distribution statistique, alors on parle d’une distribution
plurimodale.

1.1- Cas d’une variable statistique discrète

Dans ce cas et pour déterminer le mode, noté par Mo, la lecture directe du tableau statistique
nous permet de désigner la valeur de la variable statistique qui apparait le plus de fois
possibles ou encore la plus fréquente dans la série statistique étudiée. Graphiquement, cette
valeur correspond au bâton le plus long ou le plus élevé dans le diagramme en bâtons. Cette
valeur correspond au mode ou encore la valeur modale.
Mode: Mo=3 enfants car c'est la modalité la plus fréquente ou bien qui a la fréquence la plus
élevée.

Interprétation: La plupart des familles ont 3 enfants.

Graphiquement

Mo=3 enfants car c'est la modalité qui a le baton le plus long.

Interprétation: La plupart des familles ont 3 enfants.


1.2- Cas d’une variable statistique continue :

Dans le cas continu on parle de Classe Modale

1ier Cas:

Si les amplitudes sont égales alors la classe modale est la classe qui a la fréquence la plus
élevée.

2ème Cas:

Si les amplitudes ne sont pas égales alors la classe modale est la classe qui a la fréquence
corrigée la plus élevée.
𝑎 ∗ =5
𝑓𝑖𝑐 = 𝑓𝑖 ∗
𝑎𝑖
0,225*5/5=0,225
0,300*5/5=0,300
0,150*5/5=0,150
0,125*5/10=0,0625
0,200*5/20=0,05
----

Classe Modale=[10;15[ Milles dinars. car c'est la classe qui a la fréquence corrigée la plus
élevée (0,300).

Interprétation: La majorité des salariés touchent entre 10 et 15 Milles Dinars par an.

Remarque: La fréquence corrigée est utilisée, en cas d'amplitudes inégales, seulement pour
représenter l'histogramme et pour déterminer la classe modale

Graphiquement

La classe modale est la classe qui a le rectangle le plus long dans l'histogramme.

2- La médiane: Me
La médiane, notée par Me, est la valeur de la variable statistique d’une série d’observations,
ordonnées d’une manière croissante ou décroissante, qui la partage en deux parties égales
dont chacune présente le même effectif. D’une manière générale et en pratique, la médiane est
la valeur de la variable statistique ayant une fréquence cumulée(F) égale à 50%.

C'est la valeur de la variable statistique qui divise la population en deux.

Pour déterminer la médiane, on doit utiliser soit la fréquence cumulée croissante soit la
fréquence cumulée décroissante telles que:

F( Me)=0,5 =50%
a- Cas d’une variable statistique discrète

Exemple 1: cas où on a la valeur exacte de 0,5

On considère un la répartition de 400 ménages, d’une cité (I), selon leur taille.

F croissante

0
0,15
0,25
0,50
0,80
---

F( Me)=0,5

Dans le tableau F(4)=0,5

Donc Me=4 personnes

Interprétation: 50% des ménages sont de taille inférieure à 4 personnes et 50% sont de taille
supérieure à 4 personnes.

Exemple 2: cas où on n'a pas la valeur exacte de 0,5

Nombre ni fi F croissante
d'enfants prop(X<x)
0 40 0,08 0
1 50 0,100 0,08
2 120 0,240 0,18
3 160 0,320 0,42
4 100 0,200 0,74
5et+ 30 0,06 0,940
500 1 ----

La lecture de ce tableau statistique ne fournit pas directement la valeur de la médiane. On


remarque que la valeur de 50% relative à la colonne des fréquences cumulées n’apparait dans
le tableau statistique. En pratique, la médiane correspond à la valeur de la variable de la ligne
la plus faible des deux valeurs. Dans ce cas, Me=3. Cette pratique conventionnelle n’est
qu’une détermination approchée de la valeur de la médiane, car on ne peut pas retenir la
valeur de 4 comme une valeur de la médiane, du fait qu’il y a 77,50% et non pas 50% des
ménages qui ont une taille inférieure ou égale à 4.

Dans ce cas on choisit la valeur de F qui est juste inférieure à 0,5. Donc, c'est 0,42
Avec F(3)=0,42 donc Me=3 enfants

Interprétation: 50% des familles ont moins de 3 enfants et 50% ont plus de 3 enfants.

b- Cas d’une variable statistique continue

Exemple 1: cas où on a la valeur exacte de 0,5

Age ni fi F croissante
prop(X<x)
[15;20[ 15 0,15 0,15
[20;25[ 25 0,25 0,40
[25;35[ 10 0,10 0,50
[35;50[ 40 0,40 0,90
[50;60[ 10 0,10 1
Total 100 1 ----

F(Me)=0,5

Or dans le tableau on a F(35)=0,5

Donc, Me=35 ans , 50% des personnes sont âgées moins de 35 ans et 50 % plus de 35 ans.

Exemple 2: cas où on n'a pas la valeur exacte de 0,5. Dans ce cas, on utilise l'interpolation
linéaire pour déterminer la médiane.

La répartition de 200 entreprises selon leur âge exprimé en années.

F(Me)=0,5

F: 0,225< 0,5 <0,525

X: 10 < Me < 15
𝑀𝑒 − 10 0,5 − 0,225
=
15 − 10 0,525 − 0,225
𝑀𝑒 − 10 0,275
= = 0,916
15 − 10 0,3
𝑀𝑒 − 10
= 0,916
5
𝑀𝑒 − 10 = 0,916 × 5 = 4,58

𝑀𝑒 = 4,58 + 10 = 14,58 𝑎𝑛𝑠


Interprétation: 50% des entreprises sont âgées moins de 14,58 ans et 50% sont âgées plus de
14,58 ans.

ou bien: 100 entreprises sont âgées moins de 14,58 ans et 100 sont âgées plus de 14,58 ans.

3- La moyenne: 𝑿
La moyenne arithmétique est la plus ancienne méthode employée pour caractériser un
ensemble de données et indiquer une tendance centrale. La moyenne arithmétique d’une
variable statistique relative à une population est la somme des valeurs observées divisée par le
nombre d’observations. Elle se calcule que pour le cas discret et le cas continu.

a- cas discret

1 𝑛𝑖
𝑋= 𝑛𝑖 𝑥𝑖 = 𝑥 = 𝑓𝑖 𝑥𝑖
𝑁 𝑁 𝑖

Soit la répartition de 500 familles selon le nombre d'enfants


1 40 ∗ 0 + 50 ∗ 1 + 120 ∗ 2 + 160 ∗ 3 + 100 ∗ 4 + 30 ∗ 5
𝑋= 𝑛𝑖 𝑥𝑖 =
𝑁 500
= 2,64

ou bien:

𝑋= 𝑓𝑖 𝑥𝑖 = 0,08 × 0 + 0,100 ∗ 1 + 0,240 ∗ 2 + 0,320 ∗ 3


+ 0,200 ∗ 4 + 0,06 ∗ 5 = 2,64 𝑒𝑛𝑓𝑎𝑛𝑡𝑠
Interprétation: Le nombre moyen des enfants est de 2,64 par famille

ou bien: Chaque famille a en moyenne 2,64 enfants.

Remarque: La valeur de la moyenne est abstraite. Comme dans l’exemple précédent,


𝑋 = 2,64 est un chiffre qui ne correspond pas à un fait concret.
b- cas continu
k k
1
X= ni ci = f i ci
N
i=1 i=1

𝑥𝑖 + 𝑥𝑖+1 𝐵𝑜𝑟𝑛𝑒 𝑆𝑢𝑝 + 𝐵𝑜𝑟𝑛𝑒 𝑖𝑛𝑓


𝑐𝑖 = =
2 2
Exemple: la répartition de 200 entreprises selon leurs âges exprimés en années.

ci
(5+10)/2=7,5
(10+15)/2=12,5
(15+20)/2=17,5
(20+30)/2=25
(30+50)/2=40

𝑋
1
= 𝑛𝑖 𝑐𝑖
𝑁
45 ∗ 7,5 + 60 ∗ 12,5 + 30 ∗ 17,5 + 25 ∗ 25 + (40 ∗ 40)
=
200
= 19,18 𝑎𝑛𝑠
1 𝑛𝑖
𝑋= 𝑛𝑖 𝑐𝑖 = 𝑐 = 𝑓𝑖 𝑐𝑖
𝑁 𝑁 𝑖
= 0,225 ∗ 7,5 + 0,300 ∗ 12,5 + 0,15 ∗ 17,5 + 0,125 ∗ 25
+ (0,200 ∗ 40) = 19,18 𝑎𝑛𝑠

Interprétation: L'age moyen des entreprises est de 19,18 années.

V- Les caractéristiques de dispersion


Les indicateurs statistiques de dispersion usuels sont l’étendue, la variance, l’écart-type et le
coefficient de variation.

1- Etendu

Il est définit par la différence entre la plus grande valeur et la plus petite valeur du caractère,
donnée par la quantité:

e = xmax − xmin

Le calcul de l’étendue est très simple. Il donne une première idée de la dispersion des
observations.

Exemple:

-- Cas discret: Nombre d'enfants(max) - Nombre d'enfants (min)=5-0=5 enfants ==> le


nombre d'enfants s'étale sur un intervalle de 5 enfants.

-- Cas continu: Age(max)-Age(min)=50-5=45 ans ==> l'âge des entreprises s'étale sur un
intervalle de 45 ans.

2- Variance et Ecart-type

La variance d’une série d’observations est la moyenne arithmétique des carrés des écarts de
ces valeurs par rapport à leur moyenne arithmétique. Elle se calcule que pour le cas quantitatif
(discret ou continu)

𝑘 𝑘 2
Cas discret: 𝑉 𝑥 = 𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑋)² = 𝑖 𝑓𝑖 𝑋𝑖 − 𝑋2
𝑘 2
Cas continu: 𝑉 𝑥 = 𝑖 𝑓𝑖 𝑐𝑖 − 𝑋2

Propriétés de la variances:

- V(X) est sans unité

- V(X) est toujours positive


-V(a)=0 ; avec a est une constante

- V(aX)=a² V(X)

- V(aX+b)=a² V(X)

L'écart-type est 𝝈𝑿 = 𝑽(𝑿)

L'écart-type mesure la distance moyenne entre 𝑋 et les valeurs de X. Il sert à mesurer la


dispersion d’une série statistique autour de sa moyenne.

– Plus il est petit, plus les caractères sont concentrés autour de la moyenne (on dit que la série
est homogène).

– Plus il est grand, plus les caractères sont dispersés autour de la moyenne (on dit que la série
est hétérogène).

a- Cas Discret:
X² fi * x²i

0² 0,08*0=0
1² 0,100*1=0,1
2² 0,240*4=0,96
3² 0.32*9=2,88
4² 0,200*16=3,2
5² 0,60*25=1,5
𝑘 2
--- 𝑖 𝑓𝑖 𝑋𝑖 =8,64

𝑉 𝑥 = 𝑓𝑖 𝑋𝑖2 − 𝑋 2 = 8,64 − 2,64² = 1,6704


𝑖

𝝈𝑿 = 𝑽(𝑿) = 1,6704 = 1,29 𝑒𝑛𝑓𝑎𝑛𝑡


b- Cas continu

ci C²i fi*C²i

7,5 56,25 12,65625


12,5 156,25 46,875
17,5 306,25 45,9375
25 625 78,125
40 1600 320
503,59375

𝑉 𝑥 = 𝑓𝑖 𝑐𝑖2 − 𝑋 2 = 503,59375 − 19,18² = 135,72135


𝑖

Ecart-type=𝜎𝑋 = 𝑉(𝑋) = 135,72135 = 11,65 𝑎𝑛𝑛é𝑒𝑠

3- Coefficient de Variance: CV

Le coefficient de variation, noté par CV, est le rapport entre l’écart-type et la moyenne d’une
série statistique :
𝛔𝐗
𝐂𝐕 =
𝐗
C’est un ratio qui n’admet pas d’unité. Cet indicateur est utilisé lorsqu’il s’agit de comparer
les dispersions des distributions qui ne sont pas exprimées dans la même unité (distribution
des prix de consommation dans différents pays), ou bien encore dans le cas de distributions
dont les moyennes sont très différentes.

Il permet d'étudier l'homogénéité d'une population.

--- Si CV>0,3 donc la population est hétérogène

--- Si CV<= 0,3 alors la population est homogène

Cas discret:

𝜎𝑋 1,29
𝐶𝑉 = = = 0,48 > 0,3
𝑋 2,64

Donc, la distribution du nombre d'enfants pour ces familles est hétérogène

Ces familles sont hétérogènes en terme du nombre d'enfants

Cas continu:
𝜎𝑋 11,65
𝐶𝑉 = = = 0,607 > 0,3
𝑋 19,18
donc la distribution de l'âge des ces entreprises est hétérogène.

Ces entreprises ne se ressemblent pas en terme d'âge.

Vous aimerez peut-être aussi