Vous êtes sur la page 1sur 9

Esi : 2CP Chap(1) : La statistique descriptive.

L’objet de la statistique descriptive est de proposer des outils pour l’étude d’un phénomène quantifiable.
Par exemple : donner des informations sur la taille moyenne d’un ensemble de personnes, avoir une idée sur le
niveau des étudiants de 2CP en mathématiques …etc.

1. Notions de base :

L’ensemble sur lequel portent les observations est appelé population, un élément de la population est
appelé individu où unité statistique.

Un échantillon est un sous-ensemble représentatif ( !!!)de la population.

Exemples :

- L’ensemble des étudiants de l’ESI en l’an 2020.


Population : tous les étudiants de l’ESI inscrits en 2020.
L’unité statistique : un étudiant de l’ESI inscrit en 2020.
- Le parc automobile algérien en 1er janvier 2020. (l’unité est : une automobile)
- Les demandes d’emplois déposés à la Sonelgaz. (l’unité est : une demande d’emploi)

Pour décrire une population, on repère et on classe les individus en sous –ensembles appelés caractères.
Un caractère est donc une propriété commune des individus de la population.

Exemples :

- La population de l’Algérie pourra être décrite par les caractères tels que : sexe, âge, nationalité, nombre
d’enfants,… etc.
- La production automobile par : couleurs, type, puissance du moteur, nombre de places assise,..etc.

Une situation possible du caractère sera dite une modalité :

Exemples :

- Le sexe : féminin, masculin (2 modalités)


- Etat matrimonial : marié, célibataire, veuf, divorcé (4 modalités)
- Couleur : rouge, bleu, verte, blanche, ou « autre couleur ». (5 modalités)

Remarque : les différentes modalités d’un caractère doivent être incompatibles, exhaustives et sans ambiguité.

Les effectifs et les tableaux :


- le nombre d’individus présentant chaque modalité a pour nom : effectif de cette modalité(où fréquence
absolue) noté : ni
- on résume les modalités et les effectifs sous forme de tableaux statistiques,
à une dimension si l’on retient qu’un seul caractère,
à deux dimensions (croisés) si l’on retient que deux caractères.

Exemple :

Population (P) d’une ville à une date


Unités statistiques les habitants
Caractère état matrimonial X
 marié x1
célibatair e
 x2
Modalités 4 modalités 
 veuf x3
 divorcé x4
 nbre d ' habi tan ts mariés n1
nbre d ' habi tan ts célibatair es
 n2
Effectifs 
 nbre d ' habitats veufs n3
 nbre d ' habi tan ts divorcé n4

On résume toutes ces données dans un tableau en respectant les règles de représentation : le titre, les intitulés
des lignes et des colonnes, l’unité utilisée et la source

Tableau statistique de la distribution de (p) selon X

Modalités (xi) Effectifs (ni)


x1 n1
x2 n2
x3 n3
x4 n4

n i
n

Définition : l’ensemble des modalités et des effectifs d’un caractère, forment une distribution statistique ou
série statistique xi , ni  .

2. Les différents types de caractères :


1. Le caractère qualitatif : (ce cas ne fera pas objet de notre cours malgré son importance en pratique)
Lorsque son observation ne peut être traduite par une mesure ( modalités non mesurables)
Exemples : la profession, le sexe, la nationalité, la couleur,… etc.
Les tableaux statistiques sont dits nomenclatures, et les modalités, rubriques.
2. Le caractère quantitatif ou la variables statistique : (c’est à ce cas qu’on va s’intéresser dans ce chapitre)
Si ses modalités sont mesurables, i.e traduites par des nombres qui en mesurent leurs valeurs.
Exemples : l’âge, la taille, le nombre d’enfants,… etc.

➢ Les variables statistiques sont de types différents : discrètes ou continues.

2.a)- variable statistique discrète : lorsqu’elle est mesurée par des nombres isolés
(exemple : 0, 1,2, …, etc)
Le nombre d’enfants par ménage, le nombre de pièces d’un appartement,….
2.b)- variable statistique continue : lorsque ses valeurs sont en nombre infini.
Le poids, la longueur, la surface, le temps,….

Remarque : on peut considérer « continue » une variable qui peut prendre un si grand nombre de valeurs
qu’on est obligé de regrouper en classes de la forme ei −1 , ei  (ou ei −1 , ei  ).
ei + ei −1
Le centre de la classe sera : ci =
2
L’amplitude de la classe est : ai = ei − ei −1
n i = n est dit effectif total
ni
fi = la fréquence relative, c’est la proportion d’individus présentant la même modalité dans la
n
population totale.

ni
fi % =  100 , et on a et on a  f i = 1 , et f i % = 100 .
n
3. Représentation graphiques :
C’est pour synthétiser de façon usuelle l’information contenue dans les tableaux statistiques.

1) Les caractères qualitatifs :


-les diagrammes à secteurs circulaires : chaque modalité de fréquence f i (ou ni )est représentée dans

un disque par l’angle  i = f i  360 (ou  i = ni


n  360 )

-les graphiques en tuyaux d’orgues : c’est des rectangles de bases constantes dont les hauteurs sont
proportionnelles aux effectifs ou aux fréquences.

2) Les caractères quantitatifs :

A) Variable statistique discrète (v.s.d) :

- Le diagramme en bâtons : à chaque valeur x i , on fait correspondre un segment vertical de


longeur proportionnelle à ni (ou à f i ).
Exemple : Distribution des ménages selon le nombre d’enfants

xi nbre d’enfants ni nbre de ménages


0 50
1 60
2 40
3 20
4 5
5 5
 180

B) Variable statistique continue (v.s.c) :

- Les histogrammes : à chaque classe de la variable, on fait correspondre la surface d’un


rectangle ayant pour base l’amplitude de la classe.
Deux cas se présentent :
a) Les amplitudes sont égales : la hauteur du rectangle est ni (ou f i ou f i % ).
Exemple :

xi ni fi %
[10, 20[ 9 13.85
[20, 30[ 13 20
[30, 40[ 22 33.85
[40, 50[ 10 15.38
[50, 60[ 7 10.77
[60,70[ 4 6.15
n 65 100

Remarque : -l’histogramme est la surface formée par l’ensemble des rectangles.


-en fréquence relative la surface est égale à 1.

b) Les amplitudes inégales : on ajoute une colonne (ai ) = amplitudes et une colonne
(hi ) = hauteur corrigée du rectangle. On repère l’amplitude unité a qui est
généralement la plus petite amplitude (ou parfois le PGCD des amplitudes).
On construit la colonne (hi ) :
a a
hi = f i  (ou hi = ni  )
ai ai
Cette colonne (hi ) donne les hauteurs des rectangles à tracer sur l’histogramme.
Exemple :

xi ni fi %
[10, 20[ 9 13.85
[20, 30[ 13 20
[30, 40[ 22 33.85
[40, 50[ 10 15.38
[50, 70[ 11 16.92

n 65 100

-Polygone des fréquences et courbe des fréquences : pour obtenir une


représentation moins lourde à visualiser, on peut tracer :
Le polygone des fréquences qui joint les milieux des sommets des rectangles des
classes d’amplitudes égales. Pour le tracer, on ajoute deux fausses classes au
extrémités. Il y’a toujours conservation des aires, en fréquence relative, la surface
sous le polygone est toujours égale à 1.
La courbe des fréquences est un ajustement graphique du polygone des fréquences,
elle représente une estimation de la loi de probabilité qui est censée suivre le
phénomène sous étude. (chapitres 3,4,…)

C) La courbe cumulative :
Pour savoir « combien d’individus dont x i est inférieur à… ? » ou « combien d’individus dont x i
est supérieur à… ? »
Exemple : « combien de ménages ont moins de 2 enfants ou plus de 4 enfants ?»
Il faut calculer les fréquences cumulées, comme suit :
On somme les fréquences relatives f i (ou absolues ni ) dans une colonne du tableau :

Si l’on somme de haut en bas Si l’on somme de bas en haut

Les valeurs croissent de haut en bas à la lecture Les valeurs croissent de bas en haut à la lecture

Les fréquences cumulées sont dites : Les fréquences cumulées sont dites :
ascendantes ou croissantes descendantes
 f i , f icc , Fi  f i , f icd ,
notées :  notées : 
ni , nicc , N i ni , nicd ,

elles correspondent à la notion : « moins de » elles correspondent à la notion : «plus de »

La courbe cumulative est une courbe représentative des fréquences cumulées croissantes.

Chaque point est représenté sur le graphe , a pour coordonnées ( xi , N i ) ou ( xi , Fi )


Remarque :
i
F ( x) =  f h Ou x tels que xi  x  xi +1
h =1

F (−) = 0 , F ( +) = 1

➢ Cas discret :
Tracer la courbe cumulative pour l’exemple de la distribution des ménages selon le nombre
d’enfants.
➢ Cas continu :
Tracer la courbe cumulative pour l’exemple donné en (3/2.B.a)

Remarque 1: la courbe cumulative est la représentation graphique de la fonction F de


répartition.

F (−) = 0 , F ( +) = 1 et F (x ) représente la surface située à gauche de la valeur x dans

l’histogramme :
x
F ( x) =  f ( x)dx
0

Exercice : Tracer pour les deux exemples précédents le diagramme de la courbe cumulative des

fréquences relatives descendantes.

4. Les caractéristiques de tendance centrale :

1. Le mode :(M0)
Le mode d’une distribution est la valeur de la variable qui correspond au plus grand effectif ou la plus
grande fréquence relative.
Exemple : la série {5, 6, 7, 7, 8, 8, 8, 9, 11} M0=8 ( valeur la plus fréquente ou dominante)

➢ Cas discret :

- Sur le tableau xi , f i , c’est le x i pour lequel f i est la plus élevée.


- Sur le diagramme en bâtons, c’est le x i correspondant au bâton le plus haut.
➢ Cas des variables continues :
le graphe est l’histogramme, on définit la classe modale comme la classe du tableau ou de
l’histogramme correspondant à la fréquence maximum après correction des fréquences dans le cas
ou les amplitudes des classes sont inégales.

2. La médiane :(Me)
C’est la valeur du caractère qui partage la série en deux sous-ensembles égaux, en supposant que les
individus sont rangés dans l’ordre.
Exemple : La série {12, 28, 6, 3, 32, 15, 21}, la série ordonnée est : « 3, 6, 12, 15, 21, 28, 32 », Me=15

Me

Calcul de la médiane :

Variable statistique discrète :


- Si le nombre d’observation est impair (exemple précédent), Me est bien déterminer ,
c’est la ( n2+1 ) ème observation de la série ordonnée.
- Si le nombre d’observation est pair, on définit un intervalle médian.
Exemple : {3, 6, 12, 15, 21, 28, 32, 38}, l’intervalle médian est [15, 21[

Si n = 2.k , Me est approchée par la moyenne de la k ème et la (k + 1) ème observation de

la série ordonnée.

- Dans le cas des données groupées, i.e xi , ni  , la médiane se calcule par les
fréquences cumulées.
On repère la valeur 0.5 ou la valeur n2 sur le graphe ou sur le tableau.
n
Si la valeur 0.5 (ou 2 ) apparaissent « entre 2 lignes » du tableau, la médiane est la
valeur de x i qui correspond à la ligne la plus basse (bien sûr en faisant attention comment on a
représenté le tableau statistique) .

Variable statistique continue :

- Détermination de la classe médiane :


On repère 0.5 dans la colonne des Fi , ( n2 sur la colonne des N i )ou sur le graphe de la
courbe cumulative.
- Si la valeur 0.5 (ou n2 ) correspond à une valeur de l’extrémité de la clase , la médiane est
une valeur exacte.
- Si la valeur 0.5 (ou n2 ) est comprise entre deux extrémités de classes, on a un
intervalle médian ( une classe médiane).
Me Se détermine par la méthode d’interpolation linéaire :

0.5 − F 
(Me )
ai
M e = ei +
(Me ) (Me )
(Me ) i
fi

ai
(Me )
est l’amplitude de la classe médiane ei  (Me )
, ei +1
(Me )

(Me )
fi la fréquence relative de la classe médiane
(Me )
Fi la fréquence cumulée de la classe médiane

Remarque : La formule précédente peut s’écrire, selon lés fréquence utilisées :

 
(Me )
n (Me ) 
(M )
ai ai e
M e = ei + − = + 50 − Fi % ( M e )
(Me ) (Me )
(Me )  2 N i  ou M e e i
ni f i %(Me )

3. La moyenne arithmétique : X
• Moyenne simple : à chaque valeur de x i correspond qu’une seule observation.
1 n
x=  xi
n i =1
Exemple : les notes (sur 20) de 8 étudiants sont : 3, 5, 7, 9, 10, 11, 12, 18.

x = 18 (3 + 5 + 7 + 9 + 10 + 11 + 12 + 18)  9.375
• Moyenne pondérée : à chaque valeur de x i peut correspondre ni observations.
k
1 k
x=  ni . x i
n i =1
avec n =  ni
i =1

Exemple : (3, 3, 3, 5, 9, 9, 11, 11) , x = [(3  3) + (5  1) + (9  2) + (11  2)]  6.75


1
8
k
ni
Remarque : puisque f i = on écrit : x =  f i .xi
n i =1

• Calcule de X
- V.S.D : on ajoute au tableau xi , ni  la colonne « xi  ni » (ou « xi  f i ») et on somme
dans la colonne en divisant par n .

- V.S.C : on choisit, comme valeur des x i , les centres de chaque classe c i .


borne gauche + boorne droite
ci =
2
et on calcule comme précédemment.

• Propriétés de la moyenne arithmétique :


On démontre facilement que :
k
-  n (.x
i =1
i i − x) = 0
k
-  n (.x
i =1
i i − a ) 2 est minimale pour a = x

- X = a. X / + b a, b  IR  X = a. X / + b (trés utilisée dans les calculs )

5. Généralisation de la médiane : ( Les quantiles )

Les quantiles(ou percentiles) sont des caractéristiques de position puisqu’elle correspondent à des valeurs de
la V.S qui partagent la série statistique ordonnée (ordre croissant) en  parties égales.

Quartiles :
Si  = 4 , les quantiles sont appelés quartiles. Il y’a donc, trois quartiles que l’on désigne par Q1 , Q2 et Q3

25% 25% 25% 25%

Q1 Q2 Q3

50% 50%

Remarque :

• On dira par exemple ; 25% des valeurs prises par la variable statistique sont
inférieures à Q1 .
• Q2 = M e
• Q3 − Q1 est appelé l’intervalle interquartile et comporte 50% des observations.
• Les quartiles peuvent s’obtenir directement de la courbe cumulative ascendante.

Déciles :
Si  = 10 , les quantiles sont appelés centiles, notes D1 , D2 , ...., D8 et D9
10% des observations sont inférieures à D1 ,
20% ……………………………………………………. D2 ,
50%........................................................ D5 = M e
...........etc

Centiles :
Si  = 100 , les quantiles sont appelés déciles, notes C1 , C 2 C3 , ...., C98 et C99
On dira par exemple ; 99% des observations sont inférieures à C99 .

Remarque :
De même que les quartiles, on peut déterminer les déciles et centiles, de la courbe cumulative
ascendante (tracée avec précision) ou à partir de la formule d’interpolation linéaire (cas continu seulement).

 p = eI +
aI
 p.n − FI 
fI

 p : quantile désirée.

eI : borne inférieure de la classe I contenant le quantile désiré.

p : pourcentage(sous forme décimale) des observations de la série à laquelle correspond le

quantile.

n : nombre totale d’observations dans la série.


f I : fréquence de la classe I .

FI : fréquence cumulée de toutes les classes précédentes la classe I .

a I : amplitude de la classe.

6. Les paramètres de dispersion :


Si deux séries ont des paramètres de positions égales, cela ne signifie pas pour autant qu’elles
sont identiques :
Exemple : distribution des salaires horaires des ouvriers.
Entreprise E1 : 14da, 15, 18, 25, 30, 35 et 38
Entreprise E2 : 18da, 20, 22, 25, 29, 30 et 31.
On calcule les valeurs centrales :
E1 : M e = 25 et x = 25 ; E2 : M e = 25 et x = 25

Bien que les deux séries ont même médianes et mêmes moyennes, on ne peut pas conclure
qu’elles sont identiques, on doit recourir aux mesures de dispersion, en mettant en évidence les
écarts.

i. L’étendue : E = X k − X1
X k est la plus grande valeur de la variable X .
X 1 est la plus petite valeur de la variable X .
ii. L’écart absolu moyen : c’est la moyenne arithmétique des écarts par rapport à une valeur
centrale : la moyenne arithmétique ou la médiane.
n
• Par rapport à X : - cas simple : ex = 1
n x
i =1
i −x.
k k
- cas pondéré : e x = 1
n  ni x i − x , n =  n i
i =1 i =1
n
ou e x =  f i xi − x
i =1
n
• Par rapport à M e : - cas simple : eM e = 1
n x i =1
i − Me .
k k
- cas pondéré : e M e = 1
n n
i =1
i xi − M e , n =  ni
i =1
k
ou e M e =  f i xi − M e
i =1

iii. Ecart-type et variance :(voir la propriété (2) de la moyenne arithmitique)

1 n
a) L’écart-type : - cas simple :  ( x) = 
n i =1
( xi − x) 2 .

1 k
- cas pondéré :  ( x) = 
n i =1
ni ( x i − x ) 2

k
ou  ( x) =  f (x
i =1
i i − x) 2 .

b) La variance : V ( x) =  ( x) .
2

Remarque : on montre que

1 k

2
1. V ( x) = ni xi2 − x (formule développée de la variance)
n i =1
V ( x) = a 2  V ( X / )
2. Si X = aX + b , a  0 alors 
/

 ( X ) = a   ( X )
/

iv. Le coefficient de variation :


C’est un coefficient sans dimension, il sert à rendre les comparaisons entre les séries statistiques
différentes, plus aisées.
 ( x)
=
x
-  0
- plus le coefficient de variation est élevé, plus la dispersion est forte.

v. Les intervalles interquantiles :

Les intervalles interquartiles les plus utilisés sont les suivants :

Appellation Distance de l’intervalle Proportion(%) des observations contenues


Intervalle interquartiles Q3-Q1 50%

Intervalle interdéciles D9-D1 80%

Vous aimerez peut-être aussi