Vous êtes sur la page 1sur 41

ISET SFAX STATISTIQUE DESCRIPTIVE

CHAPITRE INTRODUCTIF : DEFINITIONS ET TERMINOLOGIE


STATISTIQUE

INTRODUCTION :

Aussi loin que l'on remonte dans le temps et dans l'espace, les États ont
toujours senti le besoin de disposer d'informations sur leurs sujets ou sur les
biens qu'ils possèdent et produisent. Mais malgré les recensements de population
et de ressources, les statistiques sont restées purement descriptives
jusqu'au17ème siècle.

Puis s'est développé le calcul des probabilités, et des méthodes statistiques


sont apparues en Allemagne, en Angleterre et en France. Beaucoup de
scientifiques de tout ordre ont apporté leur contribution au développement de
cette science.

Actuellement, beaucoup de domaines utilisent les méthodes statistiques


(médecine, industrie, économie, etc....).

Le but de la statistique est de dégager les significations de données,


numériques ou non, obtenues au cours de l'étude d'un phénomène.

Il faut distinguer les données statistiques qui sont les résultats


d'observations recueillies lors de l'étude d'un phénomène, et la méthode
statistique qui a pour objet l'étude rationnelle des données.

I- DEFINITIONS
1- LA STATISTIQUE :

La Statistique, c'est une méthode qui consiste à réunir des données chiffrées sur
des ensembles nombreux, puis à les analyser et à les interpréter.

Page 1
ISET SFAX STATISTIQUE DESCRIPTIVE

2- LES STATISTIQUES :

Les statistiques désignent tout ensemble de données chiffrées relatives à un


phénomène donné et recueilli en général par des organismes spécialisés.

Exemples :

- La Banque Centrale de Tunisie publie régulièrement des statistiques


concernant l’évolution de la masse monétaire.

- L’Agence Tunisienne de l’Emploi (ATE) suit l’évolution mensuelle des


demandes et offres d’emploi.

- L'Institut National de la Statistique (INS) publie régulièrement des statistiques


sur les naissances et les décès, sur le commerce intérieur et extérieur, le
tourisme, le transport …

3- STATISTIQUE DESCRIPTIVE :

C'est l'ensemble des méthodes à partir desquelles on recueille, ordonne, réduit,


et condense les données.

A cette fin, la statistique descriptive utilise des paramètres, des graphiques et des
méthodes dites d'analyse des données (l'ordinateur a facilité le développement
de ces méthodes).

4- STATISTIQUE INFERENTIELLE OU INDUCTIVE :

C'est l'ensemble des méthodes qui permettent de faire des prévisions, des
interpolations sur une population à partir des résultats recueillis sur un
échantillon.

Nous utilisons des raisonnements inductifs c'est-à-dire des raisonnements de


passage du particulier au général.

Page 2
ISET SFAX STATISTIQUE DESCRIPTIVE

II- VOCABULAIRE DE BASE


1- POPULATION :

Une population est un ensemble d'individus ou d'unités statistiques. Une


population au sens statistique n'est pas nécessairement un ensemble d'êtres
humains, elle peut être constituée de n'importe quel ensemble d'objets concernés
par l'étude.

Exemples de populations :

Les véhicules automobiles immatriculés en Tunisie, la population des P.M.E.


d'un pays, les salariés d'une entreprise, les habitants d'un quartier, les étudiants
de l’ISET…

2- ECHANTILLON :

C'est un ensemble d'individus prélevés dans une population déterminée

3- INDIVIDU OU UNITE STATISTIQUE :

L'élément composant la population ou l'ensemble à étudier est appelé unité


statistique.

4- CARACTERE STATISTIQUE :

Les données relatives à une population sont des mesures portant sur un ensemble
de caractères. Un caractère c'est un aspect observable du phénomène étudié, c'est
donc l'élément retenu pour spécifier un phénomène étudié.

Exemple : les étudiants de l’ISET peuvent être étudiés selon plusieurs critères :
âge, moyenne, taille, poids…

5- MODALITES D’UN CARACTERE :

Les modalités d'un caractère sont les différents états possibles ou les différentes
situations possibles du caractère.

Les modalités d'un caractère doivent être incompatibles et exhaustives ; tout


individu doit présenter une et une seule modalité.

Page 3
ISET SFAX STATISTIQUE DESCRIPTIVE

Exemple : le caractère sexe a deux modalités féminin et masculin.

Le caractère moyenne au bac a un nombre infini de modalités à l'intérieur de


l'intervalle [0,20].

6- CARACTERE QUALITATIF :

Un caractère qualitatif est un caractère dont les modalités diffèrent par leur
nature donc les modalités ne peuvent être mesurées, elles peuvent seulement être
identifiées et constatées comme la couleur des yeux, la forme juridique, la
marque…

7- CARACTERE QUANTITATIF :

C’est un caractère dont les modalités ne diffèrent pas par leur nature mais par
leur intensité comme le poids, la taille, l'âge, le revenu, ce sont les caractères
mesurables, quantifiables.

On distingue deux catégories de caractères quantitatifs :

* Les caractères quantitatifs discrets : Ce sont les caractères qui ne peuvent


prendre que les valeurs isolées dans un intervalle donné. Exemple : nombre
d’enfants à charge, nombre de lits par chambre…

* Les caractères quantitatifs continus : Ce sont des caractères qui peuvent


prendre n'importe quelle valeur dans des intervalles [a,b] donnés. Exemple :
taille, poids, salaire mensuel…

8- DISTRIBUTION STATISTIQUE :

Une distribution statistique est une répartition de la population observée selon


les différentes modalités du ou des caractères retenus.

Page 4
ISET SFAX STATISTIQUE DESCRIPTIVE

CHAPITRE 1 : REPRESENTATION DES DONNEES


STATISTIQUES
INTRODUCTION :

Une distribution statistique est une répartition de la population observée


selon les différentes modalités du ou des caractères retenus.

Les distributions statistiques à un seul caractère sont dites à une


dimension, ces distributions peuvent faire l'objet d'une présentation sous forme
de tableau dit tableau à une seule dimension ou encore tableau à une simple
entrée.

Les distributions statistiques peuvent aussi faire l'objet d'une


représentation graphique, ce qui a l'avantage par rapport à la représentation sous
forme de tableau de permettre une lecture immédiate des traits dominants. Les
méthodes de construction des tableaux et les modèles de représentations
graphiques diffèrent selon la nature qualitative, quantitative discrète ou
quantitative continue du caractère étudié.

I- REPRESENTATION DES CARACTERES QUALITATIFS


1- TABLEAU STATISTIQUE :

Soit C un caractère qualitatif comportant k modalités notées m1 ,m2 ,m3 ,.......,mk,


l'ensemble des modalités d'un caractère est aussi appelé nomenclature associé
aux modalités d'un caractère nommé mi, i {1, ……..…. k ,}
Soit une population P de N individus sur laquelle on a observé un caractère
donné.
Soit ni le nombre des individus de la population qui présente la modalité mi. ni
est appelée effectif de la modalité mi et qui est le nombre de répétition de la
modalité mi.

Page 5
ISET SFAX STATISTIQUE DESCRIPTIVE

On appelle tableau statistique de la population P décrite selon le caractère C : le


tableau des couples (mi, ni).
Modalité mi Effectif ni
m1 n1
m2 n2
m3 n3
… …
mk nk
Effectif total = N = ni

On appelle fréquence de la modalité mi le rapport : fi = ni/N

Remarque :
 On parle de fréquence relative, l'effectif est donc la fréquence absolue.
 La somme des fréquences relatives est égale à 1.
Exemple : répartition des employés d’une entreprise selon la qualification :
 Population ; les employés d’une entreprise.
 Individu ; un employé.
 Caractère : qualification, nature du caractère : qualitatif.
 Modalités : apprenti (A), stagiaire (S), ouvrier (O), ouvrier qualifié (Oq).

Modalités Effectif ni Fréquence fi


(qualification)
Apprenti 5 5/100 = 0,05
Stagiaire 15 15/100 = 0,15
Ouvrier 56 56/100 = 0,56
Ouvrier qualifié 24 24/100 = 0,26
Total N = ni = 100 fi = 1

Page 6
ISET SFAX STATISTIQUE DESCRIPTIVE

2- REPRESENTATION GRAPHIQUE :
Pour une variable statistique qualitative, on utilise des diagrammes à secteurs
circulaires ou des diagrammes en tuyaux d'orgue. Le principe est de représenter
des aires proportionnelles aux fréquences de la variable statistique.
a- Diagramme à secteurs circulaires :
La population est représentée par un cercle divisé en k secteurs (k est le nombre
de modalités). Chaque secteur a un angle i tel que i = 360° x fi.
Exemple :
Modalités Fréquence fi i = 360° x fi
(qualification)
Apprenti 5/100 = 0,05 360 x 0,05 = 18°
Stagiaire 15/100 = 0,15 360 x 0,15 = 54°
Ouvrier 56/100 = 0,56 360 x 0,56 = 201,6°
Ouvrier qualifié 24/100 = 0,26 360 x 0,26 = 86,4°
Total fi = 1 i = 360°

b- Diagramme en tuyaux d’orgue :


Nous portons en abscisses les modalités, de façon arbitraire.
Nous portons en ordonnées des rectangles dont la longueur est proportionnelle
aux effectifs, ou aux fréquences, de chaque modalité.

Exemple précédent :
ni

Qualification

Page 7
ISET SFAX STATISTIQUE DESCRIPTIVE

II- REPRESENTATION DES CARACTERES QUANTITATIFS


DISCRETS
1- TABLEAU STATISTIQUE :

Une variable statistique est discrète si l'ensemble des valeurs possibles est un
ensemble discret c'est à dire un ensemble de valeurs isolées, cet ensemble est
constitué en général par des nombres entiers.
Exemple : on observe pendant un mois, 50 ouvriers d’une entreprise selon le
caractère nombre de retards.
 Population ; 50 employés d’une entreprise.
 Individu ; un employé.
 Caractère : nombre de retards, nature : quantitatif discret.
 Modalités : 0 retard, 1 retard, 2 retards, 3 retards, 4 retards.
On obtient les résultats suivants : (ce sont des données individuelles)

0-1-2-0-3-1-0-2……………………-0-2-4.

Nombre de retards du 1er Nombre de retards du dernier ouvrier


ouvrier

Ces données individuelles peuvent être présentées sous forme d’un tableau
statistique :
Nombre de Effectif ni Fréquence
retards fi
0 8 8/50 = 0,16
1 6 0,12
2 22 0,44
3 10 0,20
4 4 0,08
Total N =ni = 50 fi =1

Page 8
ISET SFAX STATISTIQUE DESCRIPTIVE

Remarque : fonction de répartition, fréquence cumulée croissante et fréquence


cumulée décroissante
Pour les caractères quantitatifs discrets (et continus) ayant des modalités
naturellement ordonnées, on introduit une notion importante : la fonction de
répartition.
Notation : X : désigne le caractère quantitatif, x : valeur particulière du caractère.
La fonction de répartition d'un caractère quantitatif est définie par :
FxPX x0,1indique la proportion des individus pour les quelles la
variable X est strictement inférieure à une variable particulière x.
F(x) est encore appelée fréquence cumulée croissante : F.
La fréquence cumulée décroissante (F) est définie par :
GxPX x0,1indique la proportion des individus pour les quelles la
variable X est supérieure ou égale à une variable particulière x.
Remarque :
 GxF(x).
 On peut également calculer l’effectif cumulé croissant (N)et l’effectif
cumulé décroissant (N) en remplaçant le mot proportion par le mot
« Nombre » dans les formules au dessus.
Exemple précédent :

Nombre de Effectif ni Fréquence Fréquence Fréquence Effectif Effectif


retards fi cumulée cumulée cumulé cumulé
croissante décroissante croissant décroissant
F F N N
0 8 8/50 = 0,16
1 6 0,12
2 22 0,44
3 10 0,20
4 4 0,08
Total N =ni = 50 fi =1

Page 9
ISET SFAX STATISTIQUE DESCRIPTIVE

Questions :
 Quelle est la proportion des ouvriers ayant moins de 3 retards ?
 Quelle est la proportion des ouvriers ayant au moins 3 retards ?
 Quel est le nombre des employés ayant plus que 2 retards ?
 Quel est le nombre des employés ayant au plus 2 retards ?
 Quelle est la proportion des employés ayant plus qu’un retard et moins de
4 retards ?
2- REPRESENTATION GRAPHIQUE :

La représentation graphique des caractères quantitatifs discrets donne lieu en


général à deux représentations graphiques qui sont :
 Le diagramme différentiel qui est une représentation de la distribution
elle-même (effectif et fréquence) qu'on appelle diagramme en bâtons.
 Le diagramme intégral qui est une représentation de la fonction de
répartition appelée courbe cumulative.
a- Diagramme en bâtons :

Dans un système d'axe on portera en abscisses les valeurs de la variable et en


ordonnés les fréquences ou les effectifs, la hauteur de chaque bâton est
proportionnelle à l'effectif ou à la fréquence.
Exemple précédent :

b- Courbe cumulative (diagramme intégral)

Le diagramme intégral ou représentatif de la fonction de répartition est une


courbe en escalier.

Page 10
ISET SFAX STATISTIQUE DESCRIPTIVE

III- REPRESENTATION DES CARACTERES QUANTITATIFS


CONTINUS
1- TABLEAU STATISTIQUE :

La distribution d’une variable statistique continue peut être présentée sous forme
du tableau suivant :

Modalités mi Effectif ni Fréquence fi

[e0, e1[ n1 f1
[e1, e2[ n2 f2
[ek-1, ek[ nk fk

Total N = ni = N fi = 1

Remarque :

 Pour chaque classe [ei-1, ei [, on peut calculer l’amplitude ai = ei - ei-1.


 Pour chaque classe [ei-1, ei [, on peut calculer le centre Ci = (ei + ei-1)/2.

Exemple : répartition des ouvriers d’une entreprise selon le salaire horaire.

Salaire horaire Effectif Ni Fréquence fi

[0,800 - 1[ 32 32/200 = 0,16


[1 - 1,200[ 56 0,28
[1,200 - 1,600[ 86 0,43
[1,600 - 1,800[ 26 0,13

Total N = 200 fi = 1

Page 11
ISET SFAX STATISTIQUE DESCRIPTIVE

 Population ; les employés d’une entreprise.


 Individu ; un employé.
 Caractère : salaire horaire, nature : quantitatif continu.
 Modalités : [0,800 - 1[, [1 - 1,200[, [1,200 - 1,600[, [1,600 - 1,800[.

Comment lire le tableau ?

 56 employés touchent un salaire horaire entre 1 dinar et 1,200 dinar.


 43% des employés touchent un salaire horaire entre 1,200 et 1,600.

Remarque :
 On peut calculer pour la variable statistique continue la fréquence
(l’effectif) cumulée croissante et la fréquence (effectif) cumulée
décroissante.
 Fréquence cumulée croissante = F([ei-1,ei[) = proportion (x<ei).
 Fréquence cumulée décroissante = G ([ei-1,ei[) = proportion (x>=ei-1).
 F([ei-1,ei[) + G ([ei-1,ei[) >1.

Exemple précédent :

Salaire horaire Effectif Fréquence N N F F


(en dinar) Ni Fi

[0,800 ;1[ 32 32/200 = 0,16


[1 ;1,200[ 56 0,28
[1,200 ;1,600[ 86 0,43
[1,600 ; 1,800[ 26 0,13

Total N = 200 fi = 1


Questions :
 Quel est le nombre des employés qui touchent un salaire horaire moins de
1,600 ?

Page 12
ISET SFAX STATISTIQUE DESCRIPTIVE

 Quel est le nombre des employés qui touchent un salaire horaire supérieur
ou égal à 1 dinar ?
 Quelles la proportion des employés qui touchent un salaire horaire
inférieur à 1,600 ?
 Quelle est la proportion des employés qui touchent au moins un salaire
horaire de 1,200 ?
 Quelle est la proportion des employés qui touchent au moins un salaire
horaire de 1,200 et ne dépassant pas 1,600 ?
2- REPRESENTATION GRAPHIQUE :
Comme pour les caractères discrets, la représentation graphique donne lieu à un
diagramme différentiel (histogramme), et un diagramme intégral (diagramme
cumulatif).
a- L’histogramme :
L'histogramme est la représentation graphique de la distribution d'un caractère
continu, c'est un ensemble de k rectangles juxtaposés (un par classe) dont la base
est l’amplitude ai. Quant à la surface Si, elle est proportionnelle à l'effectif ou à
la fréquence de la classe.
Remarque :
 Lorsque les amplitudes des classes sont égales, l’histogramme sera
construit en prenant comme hauteur hi de chaque rectangle l’effectif ni ou
la fréquence fi.
 Si les amplitudes des classes sont inégales, il faut corriger tout d’abord
l’effectif ou la fréquence et prendre par la suite comme hauteur de chaque
rectangle une de ces deux valeurs corrigées.
L’effectif corrigé = nic =  (ni/ai) ; la fréquence corrigée =  (fi/ai).
 sera choisi comme étant l’amplitude la plus petite ou la plus fréquente.

Page 13
ISET SFAX STATISTIQUE DESCRIPTIVE

Exemple précédent :

Salaire horaire Effectif Fréquence Amplitude Effectif corrigé Hauteur hi


(en dinar) ni fi ai = ei – ei-1 = nic =  (ni/ai)
( = 0,200)

[0,800 ;1[ 32 32/200 = 0,16 0,200 32 32


[1 ;1,200[ 56 0,28 0,200 56 56
[1,200 ;1,600[ 86 0,43 0,400 43 43
[1,600 ; 1,800[ 26 0,13 0,200 26 26

Total N = 200 fi = 1

Histogramme : répartition des employés selon le salaire horaire


Remarque : le polygone de fréquences (effectifs) s’obtient en joignant les
milieux des sommets des rectangles de l’histogramme par des segments de
droites.
b- La courbe cumulative :
La courbe cumulative croissante est la représentation graphique de la fonction
de répartition (F).
Par contre la courbe cumulative décroissante est la représentation graphique de
la fréquence cumulée décroissante (F).
Le point d’intersection des deux courbes cumulatives (croissante et
décroissante) a pour abscisse la médiane (elle sera étudié ultérieurement) et pour
ordonné 0,5.

Page 14
ISET SFAX STATISTIQUE DESCRIPTIVE

CHAPITRE 2 : LES PARAMETRES DE TENDANCE


CENTRALE
INTRODUCTION :
Les paramètres de tendance centrale ou de position traduisent l’accumulation
des effectifs autour d’une valeur particulière de la variable observée. On
distingue trois paramètres de tendance centrale : le Mode, la Médiane et la
Moyenne. Ces paramètres se calculent pour les variables statistiques
quantitatives discrètes ou continues.

I- LE MODE
1- Définition :
Le mode d’une variable statistique (Mo) est la valeur la plus fréquente de cette
variable.
Remarque : le Mode correspond à une valeur de la variable et non pas à une
valeur de l’effectif.
2- Détermination du mode :
2-1- Cas d’une variable discrète :
Exemple 1 : la répartition des chambres d’un hôtel selon le nombre de lits par
chambre est la suivante :
Xi ni fi
1 15 0,25
2 25 0,416
3 15 0,25
4 5 0,084
 60 1

Le Mode de cette variable est 2. C’est-à-dire que la plupart des chambres de cet
hôtel renferment 2 lits.

Page 15
ISET SFAX STATISTIQUE DESCRIPTIVE

2-2- Cas d’une variable continue :


a- Cas d’amplitudes égales :
Exemple 2 : la répartition des employés d’une entreprise selon le salaire mensuel
obtenu est la suivante :

Xi ni fi
[150, 200[ 50 0,2
[200, 250[ 25 0,1
Classe modale [250, 300[ 100 0,4
[300, 350[ 60 0,24
350 et plus 15 0,06
 250 1

La plupart des employés de cette entreprise touchent un salaire mensuel entre


250 D et 300 D. On a dans ce cas une classe modale qui est [250, 300[.

b- Cas d’amplitudes inégales :

Exemple 3 : Répartition des étudiants d’un département selon leur âge.

Xi ni fi fi c
[19, 20[ 32 0,16 0,16
Classe modale [20, 21[ 56 0,28 0,28
[21, 23[ 86 0,43 0,215
[23, 24[ 26 0,13 0,13
 250 1

Dans le cas des amplitudes inégales, il faut tout d’abord calculer les fréquences
corrigées (ou les effectifs corrigés) puis trouver la classe modale à partir de ces
fréquences.

Page 16
ISET SFAX STATISTIQUE DESCRIPTIVE

Dans notre exemple, la classe modale est [20, 21[, c’est-à-dire que la plupart des
étudiant de ce département sont âgés entre 20 et 21 ans.
Remarque : Une distribution peut avoir plus qu’un Mode. On parle donc d’une
distribution bimodale (deux modes) ou multimodale (plus que deux modes).
Exemple : soit la distribution suivante :

Xi ni
1 50
2 50
3 40
4 30
 170

Cette distribution admet deux modes qui sont 1 et 2. Il s’agit donc d’une
distribution bimodale.
II- LA MEDIANE (Mé)
1- Définition :
C’est la valeur de la variable qui divise les observations en deux parties égales.
Elle laisse autant d’observation à sa gauche qu’à sa droite.
Proportion (X< Mé) = Proportion (X > Mé) = 50%.
2- Détermination de la médiane :
2-1- Cas de N observations individuelles :
 N est impair
Exemple : 5 étudiants ont eu les notes suivantes : 9 ; 9,5 ; 10,5 ; 11 ; 12
La Médiane est la valeur de la variable qui laisse autant d’observations à sa
gauche qu’à sa droite. Dans notre exemple, la Médiane est égale à 10,5
 N est pair
Exemple : 6 étudiants ont eu les notes suivantes : 9 ; 9,5 ; 10,5 ; 11 ; 12 ; 13.
Dans ce cas, on a un intervalle médian [10,5 ; 11]

Page 17
ISET SFAX STATISTIQUE DESCRIPTIVE

2-2- Cas de N observations groupées d’une variable


discrète :
Exemple 1 :
Xi ni fi Fi
1 15 0,25 0
2 25 0,416 0,25
3 15 0,25 0,666
4 5 0,084 0,916
 60 1

Pour déterminer la Médiane, on doit chercher sur le tableau la valeur de Xi tel


que F(Xi) = proportion (X<Xi) = 0,5. Si cette valeur est introuvable, alors on
cherche la valeur de Xi tel que F(Xi) <0,5< F(Xi+1).
Dans notre exemple, on a F(2) <0,5< F(3) donc la médiane est égale à 2 lits.
C’est-à-dire que la moitié des chambres ont moins de deux lits et la moitié ont
plus que deux lits.
Détermination graphique :

Fi

0,916

0,666
0,5

0,25

1 2=Mé 3 4 Xi

La Médiane est égale à 2.

Page 18
ISET SFAX STATISTIQUE DESCRIPTIVE

2-3- Cas de N observations groupées d’une variable


continue :
Exemple 2 :

Xi ni fi Fi
[150, 200[ 50 0,2 0,2
[200, 250[ 25 0,1 0,3
[250, 300[ 100 0,4 0,7
[300, 350[ 60 0,24 0,94
350 et plus 15 0,06 1
 250 1

Il faut chercher sur ce tableau la valeur de Xi tel que F(Xi) = 0,5.


On remarque que la Médiane de cette série appartient à la classe [250, 300[ car :
 F(250) = 0,3
 F(300) = 0,7
Donc il existe Xi appartenant à [250, 300[ tel que F(Xi) = 0,5.
Détermination de la Médiane par interpolation linéaire :

250 Mé 300

0,3 0,5 0,7

Mé  250 300  250


  Mé = 275
0,5  0,3 0,7  0,3

Détermination graphique de la Médiane :


 La Médiane est l’abscisse du point de la courbe cumulative (croissante ou
décroissante) dont l’ordonnée est égale à 0,5.
 La Médiane est l’abscisse du point d’intersection des courbes cumulatives
croissante et décroissante.

Page 19
ISET SFAX STATISTIQUE DESCRIPTIVE

III- LA MOYENNE ARITHMETIQUE


1- Définition
C’est la somme des valeurs observées divisées par le nombre d’observations.
La moyenne arithmétique est dite simple lorsque les données sont présentées
sous forme individuelle.
1
X 
N
X i

La moyenne est dite pondérée lorsque à chaque valeur Xi correspond un effectif


n i.
1
X 
N
n X i i

2- Détermination de la moyenne arithmétique


2-1- Cas de N observations individuelles x1, x2, x3,…..xn
1
X 
N
X i

Exemple : la moyenne d’un étudiant qui a obtenu les notes suivantes : 8 ; 9,5 ;
10 ; 10,5 ; 11 ; 11 ; 12 est :

notes  8  9,5  10  10,5  11  11  12  10,28


1 1
X 
7
 7
2-2- Cas d’une variable statistique discrète
Pour calculer la moyenne arithmétique, on doit ajouter au tableau une nouvelle
colonne dans laquelle on met le produit (xi*ni)
Exemple 1 : Répartition des chambres d’un hôtel selon le nombre de lits par
chambre.
Xi ni Xi ni
1 15 15
2 25 50
3 15 45
4 5 20
 60 130

Page 20
ISET SFAX STATISTIQUE DESCRIPTIVE

1
X  x130  2,16 Chaque chambre renferme en moyenne 2,16 lits.
60
2-3- Cas d’une variable statistique continue
Exemple 2 : La répartition des employés d’une entreprise selon le salaire
mensuel obtenu.
Xi ni ci ni ci
[150, 200[ 50 175 8750
[200, 250[ 25 225 5625
[250, 300[ 100 275 27500
[300, 350[ 60 325 19500
[350, 400[ 15 375 5625
 250 67000
Remarque : On choisira par convention le centre de la classe comme valeur
représentative de la variable.
Le centre d’une classe [ei, ei+1[ = (ei+ei+1) / 2
1 1
X 
N
n c i i 
250
x67000  268 D

Interprétation : chaque employé reçoit en moyenne un salaire mensuel de 268 D.


3- Propriétés de la moyenne arithmétique
Propriété 1 : La somme des écarts entre les valeurs observées et leur moyenne
est nulle.

 n x i i X 0
Démonstration :

 n xi i 
 X   ni xi  X  ni  N X  N X  0
Propriété 2 : propriété de la linéarité
Soient X et X’ deux variables statistiques telles que X’ = aX + b. Si X est la
moyenne arithmétique de la variable X, alors la moyenne arithmétique de la
variable X’ vérifie cette propriété : X '  a X  b

Page 21
ISET SFAX STATISTIQUE DESCRIPTIVE

Exemple 2 : Répartition des employés d’une entreprise selon le salaire mensuel.


Supposons que la direction a décidé d’augmenter le salaire mensuel de chacun
de 10% et d’y ajouter en plus 20D. Le nouveau salaire sera donc X’ = 1,1 X +
20. La répartition des nouveaux salaires sera la suivante :
Xi X’i ni c’i ni c’i
[150, 200[ [185, 240[ 50 212,5 10625
[200, 250[ [240, 295[ 25 267,5 6687,5
[250, 300[ [295, 350[ 100 322,5 32250
[300, 350[ [350, 405[ 60 377,5 22650
[350, 400[ [405, 460[ 15 432,5 6487,5
 250 78700
1 78700
X' 
N
 n c'
i i 
250
 314,8 D

Ou bien X '  1,1X  20  1,1x268  20  314,8


Propriété 3 : Lorsque deux populations P1 et P2, d’effectif respectif N1 et N2,
ont pour moyenne arithmétique X 1 et X 2 , alors la population totale P = P1P2

N1 X 1  N 2 X 2
d’effectif N = N1+N2, a pour moyenne : X 
N1  N 2

Page 22
ISET SFAX STATISTIQUE DESCRIPTIVE

CHAPITRE 3 : LES PARAMETRES DE DISPERSION

INTRODUCTION :

Les paramètres de tendance centrale ou de position (mode, moyenne et


médiane) traduisent l’accumulation des effectifs autour d’une valeur particulière
de la variable observée. Cependant ces paramètres ne donnent pas toutes les
informations sur la distribution.

Exemple : cinq étudiants ont eu les notes suivantes : 8-10-10-10-12

Mode = 10, Médiane = 10 et Moyenne = 10

Cinq autres étudiants ont eu les notes suivantes : 2-8-10-10-20

Mode = 10, Médiane = 10 et Moyenne = 10

Si on se contente d’étudier les paramètres de position, on sera amené à


conclure que les deux distributions sont identiques, or on remarque que la
dispersion n’est pas la même. Autrement dit, les paramètres de position sont
incapables de donner toutes les informations concernant les deux distributions et
il faut calculer d’autres paramètres permettant de combler ces lacunes.

On appelle dispersion statistique, la tendance qu'ont les valeurs de la


distribution d'un caractère à s'étaler, à se disperser les unes par rapport aux
autres ou de part et d'autre d'une valeur centrale.

Les paramètres de dispersion qui seront étudiés dans ce chapitre sont :


l’étendue, les intervalles interquantiles, la variance, l’écart type, l’écart absolu
moyen et le coefficient de variation.

I- L’ETENDUE
C’est la différence entre les valeurs extrêmes prises par la variable. On l’utilise
pour avoir une première idée sur la dispersion d’une série.
Exemple : répartition des employés selon le salaire mensuel :

Page 23
ISET SFAX STATISTIQUE DESCRIPTIVE

Xi ni
[150, 200[ 50
[200, 250[ 25
[250, 300[ 100
[300, 350[ 60
[350, 400[ 15
 250
L’étendue = 400 – 150 = 250.

II- LES INTERVALLES INTERQUANTILES

Les quantiles sont des paramètres de position tout comme la médiane.


Cependant on les utilise fréquemment dans la statistique descriptive pour
calculer les intervalles interquantiles et pour avoir une idée sur la dispersion.
La logique de définition et de détermination est identique à celle de la
médiane.
Les quartiles sont les trois valeurs de la variable qui divisent la population en 4
parties égales (4 x 25%).

Xmin Q1 Q2 = Mé Q3 Xmax

L’intervalle interquartile = Q3-Q1. Cet intervalle renferme 50% des


observations.
Les déciles sont les 9 valeurs de la variable qui divisent la population en 10
parties égales (10 x 10%).
L’intervalle interdécile = D9-D1. Cet intervalle renferme 80% des observations.
Les centiles sont les 99 valeurs de la variable qui divisent la population en 100
parties égales (100x1%).
L’intervalle intercentile (C99-C1) renferme 98% des observations.

Page 24
ISET SFAX STATISTIQUE DESCRIPTIVE

III- LA VARIANCE
On appelle variance d’une variable statistique xi la quantité positive définie par :

1 k
V ( x)   ni ( xi  X ) 2
N i 1
Remarque :
k
 La variance peut être calculée autrement : V ( x)   f i ( xi  X )
2

i 1

 On peut utiliser la formule suivante pour calculer la variance :


1

2 2
V ( x)  ( xi )  X  ni xi  X
2 2

N
 Pour une variable statistique continue, on remplace xi par les centres des
1 k
classes ci. V ( x)  
N i 1
ni (ci  X ) 2


La variance d’une constante est égale à 0.
 V(ax+b) = a2 V(x)
Exemple : répartition des employés selon le salaire mensuel :
Xi ni ci ni*Ci Ci2 ni*Ci2
[150, 200[ 50 175 8750 30625 1531250
[200, 250[ 25 225 5625 50625 1265625
[250, 300[ 100 275 27500 75625 7562500
[300, 350[ 60 325 19500 105625 6337500
[350, 400[ 15 375 5625 140625 2109375
 250 67000 18806250
1 1
X
N
 ni ci 
250
67000  268D

2
V(x) = 1/N (ni*Ci2 ) – X
=(1/250 * 18806250) – 2682 = 3401D2

Page 25
ISET SFAX STATISTIQUE DESCRIPTIVE

IV- L’ECART TYPE


On appelle écart type de la variable statistique xi la quantité positive définie
par : (x) = V(x)
L’écart type est le paramètre de position le plus utilisé, il est mesuré dans la
même unité que la variable alors que la variance est mesurée par l’unité de la
variable au carré.
Exemple précédent : V(x) = 3401 D2
(x)=V(x)= D.

V- LE COEFFICIENT DE VARIATION
Le coefficient de variation est utilisé pour remédier au problème de la sensibilité
de la dispersion à l’unité de mesure. En effet, ce coefficient est un indicateur
sans unité.
 ( x)
Coefficient de variation = CV 
X
VI- L’ECART ABSOLU MOYEN
On appelle écart absolu moyen la quantité définie par :
1 k
EAM =  ni xi  X
N i 1

Page 26
ISET SFAX STATISTIQUE DESCRIPTIVE

CHAPITRE 4 : LES PARAMETRES DE FORME

INTRODUCTION
Les paramètres de forme permettent de préciser l’allure de la courbe des
fréquences sans avoir besoin de la tracer. La forme sera déterminée par deux
types de coefficient :
 Les coefficients d’asymétrie.
 Les coefficients d’aplatissement.
I- MESURE DE L’ASYMETRIE
1- Définition :
Une distribution est dite symétrique si les valeurs de la variable observée sont
dispersées de la même manière de part et d’autre d’une valeur centrale.
Autrement dit, une distribution statistique est symétrique si les paramètres de
tendance centrale (Mode, Médiane et moyenne arithmétique) sont confondus.
 Si Mode = Médiane = Moyenne arithmétique alors la distribution est
symétrique, on a autant d’observations à gauche qu’à droite de ces paramètres.

Mo = Mé = Moyenne
Distribution symétrique
Si la série n’est pas symétrique, on dit qu’elle est oblique, soit à droite, soit à
gauche.
Si Mo<Mé<Moyenne, on dit que la série est oblique à gauche ou étalée vers la
droite :

Page 27
ISET SFAX STATISTIQUE DESCRIPTIVE

Si Mo>Mé>Moyenne, on dit que la série est oblique à droite ou étalée vers la


gauche :

2- Les coefficients d’asymétrie :


Afin de mesurer l’asymétrie d’une distribution, on calcule souvent des
coefficients variés, nous étudierons dans ce qui suit les coefficients de Pearson
et de Fisher.

2-1- Les coefficients de Pearson :

Si ces deux coefficients sont égaux à zéro alors la distribution est symétrique.
S’ils sont positifs, alors la distribution est oblique à gauche. S’ils sont négatifs,
alors la distribution est oblique à droite.
Exemple : répartition des chambres d’un hôtel selon le nombre de lits par
chambre :

Page 28
ISET SFAX STATISTIQUE DESCRIPTIVE

Xi ni
1 15
2 25
3 15
4 5
 60

ni

Graphiquement, la distribution est oblique à


gauche.

1 2 3 4 Xi

2-3- Le coefficient de Fisher

 Si F = 0 alors la distribution est symétrique.


 Si F<0 alors la série est oblique à droite.
 Si F>0 alors la série est oblique à droite.
II- MESURE DE L’APLATISSEMENT
Les coefficients d’aplatissement permettent de comparer la distribution étudiée
par rapport à une distribution de référence : la distribution normale.

fi
Distribution aigue

Distribution normale

Distribution plate

xi
Page 29
ISET SFAX STATISTIQUE DESCRIPTIVE

Pour mesurer l’aplatissement, on utilise souvent le coefficient de Fisher


d’aplatissement :

 Si  = 0 alors la distribution est symétrique.


 Si  < 0 alors la distribution est plate.
 Si  = 0 alors la distribution est aigue.

Page 30
ISET SFAX STATISTIQUE DESCRIPTIVE

CHAPITRE 5 : LES PARAMETRES DE CONCENTRATION

INTRODUCTION :

L’étude de concentration ne s’applique qu’à des variables statistiques


continues à valeurs positives et cumulables. Exemples : masse salariale,
superficie d’une région agricole…

L’étude de concentration d’une série statistique a pour but de mesurer les


inégalités de répartition d’une valeur totale. Elle cherche, au moyen d’un
indice de concentration appelé indice de Gini, à décrire comment la population
se partage la masse totale du caractère étudié.

I- DETERMINATION DE LA CONCENTRATION A
PARTIR DE LA MEDIALE :
1- Définition de la médiale :

La médiale d’une série statistique est une médiane que l’on calcule non
plus à partir des effectifs ni de la série {xi, ni} mais plutôt à partir du produit nixi
de la série {xi, nixi}.

La médiale est donc la valeur de la variable xi qui partage la série {xi,


nixi} en deux sous ensembles égaux.

Le calcul de la médiale se fait de la même manière que celui de la


médiane. Toutefois, au lieu d’utiliser les fréquences cumulées croissantes F
pour chercher la valeur 0,5, on utilise la fréquence cumulée croissante de la
masse de la variable qi = F’.

Page 31
ISET SFAX STATISTIQUE DESCRIPTIVE

Exemple : répartition des employés selon le salaire mensuel :


Xi ni ci ni*Ci f’i= nici/nici qi= F’
[150, 200[ 50 175 8750 0,1306 0,1306
[200, 250[ 25 225 5625 0,0840 0,2146
[250, 300[ 100 275 27500 0,4104 0,625
[300, 350[ 60 325 19500 0,2910 0,916
[350, 400[ 15 375 5625 0,0840 1
 250 67000 1

Ml  [250,300[
Détermination de la médiale par interpolation linéaire :
250 Ml 300

Ml = 284,77 D
Interprétation : 50% de la masse salariale (soit 50% de 67000) est accordée aux
employés dont le salaire mensuel est inférieur à 284,77D et 50% de la masse
salariale est accordée aux employés dont le salaire mensuel dépasse 284,77D

2- Calcul de la concentration en utilisant la médiale :


On appelle écart médiale-médiane d’une série statistique, le nombre défini par :
ΔM = Ml – Me (Remarque : cet écart est toujours positif)
Cet écart nous fournit un premier renseignement sur la concentration d’une
distribution statistique.
 Si ΔM = 0 ⇔ Ml = Me, alors la concentration est nulle et la répartition de
la masse totale est parfaitement égalitaire.

Page 32
ISET SFAX STATISTIQUE DESCRIPTIVE

 Si ΔM  0 alors la répartition de la masse totale n’est pas égalitaire.


Cependant, aucune information sur l’intensité de cette inégalité ne peut
être avancée.
 Pour comparer la concentration de deux ou plusieurs séries statistiques, on
peut utiliser le rapport (ΔM/Etendue)
 La concentration d’une série est d’autant plus forte que le rapport
(ΔM/Etendue) est élevé.
Exemple précédent : ΔM = Ml – Me = 284,77 – 275 = 9,77D  0 alors la
répartition n’est pas égalitaire, car si c’était le cas, on doit trouver 50% des
employés se partagent 50% de la masse salariale, c’est-à-dire Ml = Mé.

II- LA COURBE DE CONCENTRATION OU COURBE DE


LORENZ :
Soit une variable statistique xi dont la masse totale nixi a un sens et est partagée
par les individus de la population. On désigne par :
 pi = Fi = fréquence cumulée croissante de la variable xi
 qi = F’i = fréquence cumulée croissante de la masse de la variable (nixi).
La courbe de concentration de Lorenz est la représentation graphique des points
(pi, qi).
 Les valeurs pi sont portées en abscisse. Elles varient entre 0 et 1.
 Les valeurs qi sont portées en ordonnée. Elles varient aussi entre 0 et 1.
 On obtient ainsi un carré qui porte le nom le carré de Gini.
 La construction de la courbe se fera point par point. Chaque point aura
pour abscisse pi et pour ordonné qi.
 On aura autant de points que de modalités.
 La courbe de Lorenz passe par les points (0,0) et (1,1).

Page 33
ISET SFAX STATISTIQUE DESCRIPTIVE

qi

A pi

 La première bissectrice [O,B] définie par pi = qi traduit une concentration


nulle donc une répartition parfaitement égalitaire de la masse totale de la
variable.
 Si la courbe de concentration est proche de la première bissectrice, alors il
s’agit d’une faible concentration et la répartition est faiblement
inégalitaire.
 Si la courbe de concentration est éloignée de la première bissectrice, alors
il s’agit d’une forte concentration et la répartition est fortement
inégalitaire.
III- INDICE DE CONCENTRATION OU INDICE DE GINI :
On appelle surface de concentration, qu’on note S, la surface comprise entre la
première bissectrice et la courbe de concentration.

Page 34
ISET SFAX STATISTIQUE DESCRIPTIVE

L’indice de Gini est le rapport entre la surface de concentration et la surface du


triangle OAB

Indice de Gini = (surface de concentration / surface du triangle OAB)

Or la surface du triangle OAB est ½ alors indice de Gini = 2 surfaces de


concentration.
 L’indice de Gini (IG) est compris entre 0 et 1.
 Lorsque IG est proche de 0, il y a faible concentration et la répartition est
faiblement inégalitaire.
 Lorsque IG est proche de 1, il y a forte concentration et la répartition est
fortement inégalitaire.
 L’indice de Gini est un nombre sans unité. Il permet donc de comparer la
concentration de deux ou plusieurs distributions n’ayant pas la même
unité de mesure.
En utilisant la méthode des trapèzes :
IG = 1 - fi (qi-1 + qi)

Exemple : répartition des employés d’une entreprise selon le salaire mensuel :


Xi ni fi pi= F qi= F’ qi+qi-1 fi (qi+qi-1)
[150, 200[ 50 0,2 0,2 0,1306
[200, 250[ 25 0,1 0,3 0,2146
[250, 300[ 100 0,4 0,7 0,625
[300, 350[ 60 0,24 0,94 0,916
[350, 400[ 15 0,06 1 1
 250 1

Page 35
ISET SFAX STATISTIQUE DESCRIPTIVE

CHAPITRE 6 : LA REGRESSION LINEAIRE

INTRODUCTION :
Lorsque l’on veut étudier la liaison statistique entre deux caractères
quantitatifs, la méthode la plus appropriée est celle des moindres carrés
ordinaires (MCO), dite « régression linéaire ».

I- EXEMPLE
Soit une entreprise qui veut savoir s'il existe une liaison entre ses dépenses
mensuelles de publicité et son chiffre d'affaires mensuel. Elle étudie donc les
chiffres mensuels sur un an qui sont les suivants :
Mois Dépenses publicitaires Chiffre d’affaires
En milliers de dinars En milliers de dinars
Janvier 7,04 210
Février 10,4 240
Mars 8,75 205
Avril 2,1 140
Mai 4,5 180
Juin 6 180
Juillet 3 120
Août 0,5 100
Septembre 0,84 120
Octobre 1,3 130
Novembre 7,82 230
Décembre 9,88 260

Page 36
ISET SFAX STATISTIQUE DESCRIPTIVE

1- Analyse graphique :
Le chargé d'étude fait un graphique en forme de nuage de points et remarque
alors qu'il existe une liaison positive entre les dépenses publicitaires et le chiffre
d'affaires.

Il décide alors de faire une régression linéaire c'est-à-dire de déterminer par la


méthode des moindres carrés ordinaires (MCO) l'équation de la droite qui
représente le mieux cette liaison. Il obtient :

On note que certaines observations sont au-dessus de la droite issue de la


régression et d'autres sont en-dessous.

Page 37
ISET SFAX STATISTIQUE DESCRIPTIVE

Par exemple, la première observation, qui correspond à des dépenses


publicitaires x1 = 7,04 milliers de dinars et à un chiffre d'affaires y1 = 210
milliers de dinars, est au-dessus de la valeur correspondante sur la droite de
régression, puisque pour x1= 7,04, la droite à pour valeur ŷ1 = 14,26 x (7,06) +
102,4 = 202,8. Il y a donc un écart négatif de 7,2 milliers de dinars entre la vraie
valeur et la valeur trouvée par l’équation de la droite de régression.

Inversement, la septième valeur, qui correspond à des dépenses


publicitaires x7 = 3 milliers de dinars et à un chiffre d'affaires y7= 120 milliers
de dinars, est en dessous de la valeur trouvée par la droite de régression, soit
145,2. Il y a cette fois un écart positif de 25,2 milliers de dinars.

Sauf cas particulier, il y a toujours un écart positif ou négatif entre la


valeur réelle de Y qui correspond à X et la valeur de Y donnée par la droite de
régression. Il peut arriver que certains points tombent sur la droite de régression,
mais ce n'est pas le cas dans notre exemple. Ce n'est que si tous les points sont
alignés que tous les écarts sont nuls. Dans ce cas la droite issue de la régression
épouserait parfaitement l’ensemble des points.
2- La méthode des moindres carrés ordinaires :
L'objectif de la méthode des Moindres Carrés Ordinaires (MCO) ou
"régression linéaire" est de minimiser la somme des écarts (ou "erreurs" ou
"résidus"). Le problème, déjà rencontré dans l'étude de la dispersion, est que
certains écarts sont positifs tandis que d'autres écarts sont négatifs. Il faut donc
élever tous les écarts au carré. Ensuite on fait la somme des ces écarts au carré.

Page 38
ISET SFAX STATISTIQUE DESCRIPTIVE

Puis on minimise cette somme. Le résultat de cette procédure mathématique


complexe est la formule de calcul des coefficients a et b de la droite d'équation y
= ax +b :

cov ( x, y) 1
Ou bien a 
V ( x)
avec cov ( x, y) 
N
 xi yi  X Y
Pour calculer a et b, on suivra la procédure indiquée ci-après :

Page 39
ISET SFAX STATISTIQUE DESCRIPTIVE

Page 40
ISET SFAX STATISTIQUE DESCRIPTIVE

II- COEFFICIENT DE CORRELATION ET COEFFICIENT


DE DETERMINATION

Le coefficient de corrélation linéaire noté R est défini par :


Cov ( x, y)
R
xy

Ce coefficient permet de mesurer l’intensité de la corrélation linéaire entre les


deux variables X et Y.
Remarque : -1≤R≤1
- Plus R est proche de -1, plus la corrélation linéaire négative entre x et y est
forte.
- Plus R est proche de 1, plus la corrélation linéaire positive entre x et y est
forte.
- Plus R est proche de 0, plus la corrélation linéaire est faible. L’ajustement
linéaire n’est pas justifié.

Le coefficient de détermination noté R2 est défini par :


Cov 2 ( x, y )
R2 
VxVy

Remarque : 0≤R2≤1
Plus ce coefficient est proche de 1, plus la qualité globale de la régression est
bonne.

Page 41

Vous aimerez peut-être aussi