Vous êtes sur la page 1sur 18

1.

1 – DEFINITION
La statistique est une branche des sciences mathématiques basée sur l'observation des faits. Elle se
compose d'un ensemble de méthodes, de techniques et d'outils mathématique utilisés pour collecter,
décrire et analyser des données concernant des ensembles nombreux appelés population constitués
d'objets matériels ou immatériels appelés individus et cela dans le but de résumer l'information, ou
généraliser l'information contenue dans ces données afin de faciliter la prise de décision malgré la
présence d'incertitude (ou erreur).
La statistique emploie le terme " les paramètres" pour désigner les caractéristiques de la population
et le terme "les statistiques" pour désigner les caractéristiques de l'échantillon
 Les paramètres se rapportant à la population, sont généralement inconnus, mais considérés comme
des valeurs fixes au sein de la population.
 Les statistiques se rapportant à l'échantillon, sont généralement connues, mais considérés comme
des valeurs variables au sein de l'échantillon.

1.2 – DIVISION DE LA STATISTIQUE


La partie de la statistique qui résume l'information est appelée statistique descriptive (ou
exploratoire) et la partie qui généralise l'information est appelée statistique inductive ( ou inférentielle)

La statistique

La statistique descriptive La statistique inductive

1.2.1 – La statistique descriptive

Elle permet de traiter méthodiquement les données pour condenser l'information qu'elles
contiennent, car en calculant les pourcentages, les moyennes, les écarts et les coefficients de corrélation,
on arrive à une vision globale des données. Cependant, il faut savoir qu'en résumant les données, on laisse
de coté une partie de l'information qu'elles contiennent. Cet état de fait peut induire des erreurs.

La statistique descriptive (ou exploratoire) est une manière scientifique de passer du général
(population) au particulier (Echantillon)

2
1.2.2 – La statistique inductive
Elle permet de dégager des conclusions générales quant aux diverses caractéristiques de la
population et cela à partir de faits observés sur un échantillon tiré de cette population, Elle se base sur
des méthodes d'induction qui sont une expression mathématique de principes épistémologiques en vertu
desquels, à partir de l'information contenue dans un ensemble de données particulier, on arrive à des
propositions de portées plus générales.

La statistique inductive (ou inférentielle) est une manière scientifique de passer du particulier
(Echantillon) au général (population)

1.3 – LA STATISTIQUE INDUCTIVE ET LA THEORIE DES PROBABILITES


Lors de la constitution d'un échantillon, on ne sait pas à quel point un échantillon est représentatif de
la population, ni dans quelle mesure une statistique calculée sur cet échantillon se rapproche du paramètre
inconnu correspondant de la population.
Avec la statistique inductive, on quitte le domaine de la certitude (échantillon) qui n'est qu'un
échantillon possible tiré de la population étudiée. C'est-à-dire si l'on tire d'une population donnée un
échantillon d'une taille donnée en suivant une procédure donnée et si on recommence le tirage,
l'échantillon obtenu au second tirage sera probablement différent du premier.
Donc pour une population donnée il y a un grand nombre d'échantillons possibles. L'ensemble des
échantillons possibles forme aussi une population au sens statistique: les individus de cette population
sont les échantillons. Parmi les échantillons possibles, certains sont représentatifs de la population
étudiée, tandis que d'autres le sont moins.
Puisqu'on ne connaît pas la population qu'à travers l'échantillon, on ne peut jamais savoir avec
certitude à quel point l'échantillon particulier tiré est représentatif de la population générale. Le lien entre
échantillon et population est essentiellement aléatoire (c'est à dire influencé par le hasard).

Problématique On ne peut pas savoir avec certitude dans quelle mesure une statistique calculée à partir des données
d'un échantillon peut se rapprocher du paramètre inconnu correspondant dans la population.

Formulation de la Evaluer quelle sera la probabilité pour que l'écart (ou l'erreur estimée) entre une statistique et un
problématique paramètre puisse se situer à l'intérieur d'une marge.

Voie de solution La théorie des probabilités donne et fournit les méthodes, les outils et les techniques nécessaires pour
pouvoir évaluer la probabilité du rapprochement d'une statistique et d'un paramètre

Conclusion: Les règles de la statistique inductive se fondent sur la théorie des probabilités.

3
1.4 – TERMIMOLOGIE
1° - Population:
 C'est une collection complète (dans le sens où elle inclut tous les individus à étudier)
d'individus sur laquelle porte l'étude.
 C'est un ensemble que l'on observe et qui sera soumis à une analyse statistique. Chaque élément
de cet ensemble est appelé individus ou unité statistique.
 C'est un ensemble d'objets ou de personnes d'une étude statistique. un élément de cet ensemble est
appelé individus.
 C'est un ensemble de sujets (objets, éléments) qui ont au moins une propriété en commun
2° - Echantillon:
 C'est un sous ensemble d'individus obtenu à partir de la population (méthode de sondage)
 C'est un sous ensemble de la population considérée. Le nombre d'individus dans l'échantillon
représente la taille de l'échantillon.
 C'est un sous ensemble représentatif de la population.
3° - Le caractère:
Le caractère, c'est la propriété ou l'aspect singulier que l'on se propose d'observer dans la population
ou dans l'échantillon. Un caractère qui fait le sujet d'une étude statistique s'appelle "variable statistique":
Caractère = variable statistique
4° - La variable:
 La variable est une grandeur caractéristique à laquelle on s'intéresse.
- Si on s'intéresse à une seule variable, on parle de statistique univariée
- Si on s'intéresse à deux ou plusieurs variables, on parle de statistique multivariée
 La variable est une caractéristique dont la valeur change d'un individu à un autre dans la
population.
On distingue les types suivants:

Variable statistique

Variable quantitative Variable qualitative Variable dichotomique

Discrète Continue Nominale Ordinale Quantitative Qualitative


Valeur prise: Valeur prise: Valeur prise: Valeur prise: Valeur prise: Valeur prise:
"Numérique" "Numérique" "Modalité" "Modalité" "Numérique" "Modalité"
+ + +
"Ordre" "Binaire" "Binaire"

4
5° - Le Paramètre:
Un paramètre est une mesure numérique qui décrit une caractéristique de la population
6° - Une Statistique:
Une statistique est une mesure numérique qui décrit une caractéristique de l'échantillon
7° - La Donnée:
 C'est un fait numérique ou non porteur d'informations
 C'est une réalisation de variables (aléatoire) mesurées (ou récoltées) sur des sujets, on suppose la
mesure correcte et le choix des sujets aléatoire.

8° - Le Sujet:
C'est une entité matérielle ou immatérielle sur les quelles on mesure les différentes variables
- pour les sciences sociales les sujets sont : les êtres humains ou groupe de personne
- pour les sciences naturelles les sujets sont : les animaux, les plantes, les insectes,
- pour les sciences de l'ingénieur les sujets sont: les matériaux, les pièces mécaniques, ..
- pour les sciences économiques: les sujets sont: les pays, les entreprises, etc..
9° - L'Effectif:
 L'effectif, c'est le nombre d'éléments qui présente un caractère commun.
 C'est le nombre total d'individus d'une population.
 C'est le nombre d'observation de la modalité

1.5 – LA DEMARCHE STATISTIQUE


R.A. Fisher a défini la statistique comme une discipline qui étudié les méthodes de réduction de
données, la variabilité et les populations. Telles que:
 les méthodes de réduction des données font partie de la statistique descriptive, elle consiste à
essayer de résumer un échantillon de données via des tableaux, des graphiques ou des
caractéristiques numériques.
 l'étude de la variabilité cherche à expliquer. Elle fait partie de la théorie de l'échantillonnage.
 l'étude des populations fait partie de la statistique inductive qui prend un échantillon et en tire des
conclusions pour toutes les populations. Elle part de l'expérience pour arriver à l'hypothèse.
L'étude d'un problème statistique peut se décomposer en 04 étapes:
Etape 01: Recueil et collecte des données
Etape 02: Classement des données
Etape 03: Réduction des données
Etape 04: Analyse des données

5
Suite à cela, on pourra:
1° - évaluer une grandeur statistique comme la moyenne ou la variance (estimateurs, intervalle de
confiance).
2° - Savoir si deux populations sont comparables (test d'hypothèse).
3° - Déterminer si deux grandeurs sont liées et de quelle façon (corrélation, ajustement analytique)
Les conclusions qui permettent de prendre une décision seront toujours entachées d'un certain
pourcentage ou d'un taux d'incertitude.

1.6 - OBSERVATION DES FAITS


La population à étudier ainsi que les caractères auxquels on s'intéresse étant définie, il convient de
passer à l'observation des faits. Pour cela un certain nombre de méthode et d'instrument sont utilisés.

1.6.1 – Classification des méthodes d'observation


Les méthodes d'observation peuvent être classés selon:
1°. La destination de l'observation (Statistique/ Non statistique):
Dans ce cas l'observation des faits peut être effectuée dans un but spécifiquement statistique ou non
statistique (administratif, comptable, technique,…)
2° - la difficulté de l'observation (Directe / Indirecte)
Dans ce cas les faits étudiés sont difficiles à observer, mais en relation avec d'autres faits faciles à
observer et à saisir. Donc l'étude portera sur les faits faciles qui vont permettre de tirer des
renseignements sur les faits difficiles
3° - le zoom de l'observation (Partielle / Totale)
Dans ce cas, lors de l'étude d'un ensemble d'individus, l'observation peut porter sur tous les éléments
de l'ensemble ou bien porter sur une partie représentative de la totalité de l'ensemble.
 Dans le 1er cas, l'observation est dite exhaustive ou en 100% , dans ce cas on parle de
recensement.
 Dans le 2ième cas, on dit que l'observation est faite sur échantillon et que la population est étudiée
par sondage
Remarque:
 Dans le cas, par exemple d'un recensement de la population pour connaître son nombre et ses
caractéristiques une étude exhaustive s'impose.
 Dans le cas des enquêtes d'opinion qui doivent être réalisées dans un temps très court ou dans le
cas de l'étude de la qualité des produits industriels, une étude sur échantillon s'impose et elle doit
être réalisée par un personnel enquêteur qualifié.

6
1.6.2 – Constitution d'un échantillon
Dans le cas d'une étude par sondage, l'échantillon n'est pas observé pour lui-même, mais en vue
d'extrapoler, c'est-à-dire d'étendre les caractères qui auront été observés à l'ensemble dont il est issu.

1.6.3 – Questionnaire et enquêteurs


L'observation statistique d'un ensemble est le fait d'une équipe, la réalisation des observations est
confiée à certains membres de l'équipe appelés enquêteurs.
Les caractères à relever sur chaque unité statistique observée sont indiqués à l'enquêteur par le
questionnaire; celui-ci est un document écrit dont la forme varie avec le sujet traité. A coté de chaque fait
à noter ou question à poser, il existe un emplacement pour inscrire la réponse. A cet effet, il faut que:
 les questions doivent être posées en termes clairs et précis, afin d'âtre comprises par toutes les
personnes interrogées.
 éviter les mots abstraits ou techniques sinon, on sera dans l'obligation de les expliquer.
 éviter que l'énoncé de la question oriente la réponse.

1.7 – DEPOUILLEMENT DES OBSERVATIONS


1.7.1 – Examen des réponses
Les documents recueillis au cours de la phase d'observation ne sont pas parfait (ils peuvent
comporter des lacunes, des insuffisances,…). A cet effet un examen critique des réponses, préalable à leur
dépouillement, permet d'en améliorer la qualité. Les différentes anomalies qui peuvent apparaître sur les
réponses recueillies sont:
 manque de lisibilité de la réponse
 réponse donnée sous une forme inconvenable
 manque de réponse
 réponses incohérentes ou contradictoire les unes par rapport aux autres.
 réponses erronées.

1.7.2 - Dépouillement
Le dépouillement peut être manuel ou automatique. Si les observations sont peu nombreuses, on peut
procéder au tri, au dénombrement et à leur totalisation à la main. Si par contre les observations sont
nombreuses on procède au tri, au dénombrement et à la totalisation en utilisant des machines telles que les
ordinateurs, les mini-ordinateurs ou les micro-ordinateur (PC)

7
Statistique Descriptives
2.1 – INTRODUCTION

L'objectif de la statistique descriptive est de résumer un échantillon de données.


 Au départ, on a l'échantillon et une variable statistique "X" supposée quantitative ou qualitative.
 On désigne par "p" l'effectif, qui est le nombre d'individus dans l'échantillon et qui représente au
même temps la taille de l'échantillon.
 On représente l'échantillon des données dans un tableau brut de données.

x , x , x ,.... x ........, x 
1 2 3 i p i=1àp

Exemple:
Supposons que l'on veut faire une étude statistique sur les 50 notes attribuées par un jury à un
examen. On dispose pour cette étude de la liste des notes obtenues :

Echantillon de données
représentatif de lui même

 Population = Ensemble des 50 notes


 Individus = La note
 Caractère = variable statistique observée = Note attribuée = X
 Type de la variable: Quantitative discrète
 Nombre total des observation = p = 50
 Valeur de la iième observation de la variable statistique observée = xi (i variant de 1 jusqu'à p)
(Exemple : x16  3 représente la valeur de la 16ième observation)

Etant donné que la statistique descriptive ne fait de distinction entre échantillon et population
Pour résumer les données des observations, la statistique descriptive dispose de deux approches:
1 – Approche graphique
2 – Approche numérique

2.2 – APPROCHE GRAPHIQUE DE LA STATISTIQUE DESCRIPTIVE

La collecte des 50 notes, nous permet de former deux types de séries, tel que les résultats seront
inscrits dans trois types de tableaux

2.2.1 – Tableau brut


Il ne contient que les données brutes des observations recueillies. Si on dénombre cet échantillon on
obtient une série statistique:

2,14,10,16,20,19,7,5,13,14,6,9,16,13,12,3,7,8,18,12,4,8,15,10,8,11,13,9,9,13,5,8,14,5,11,12,2,1,7,1,6,12,
3,11,19,17,18,3,0,4.

Cours de statistique 2
2.2.2 – Tableau ordonné
Il ne contient que les données brutes triées par ordre croissant des observations recueillies. Si on trie
cet échantillon, on obtient une série ordonnée:

0,1,1,2,2,3,3,3,4,4,5,5,5,6,6,7,7,7,8,8,8,8,9,9,9,10,10,11,11,11,12,12,12,12,13,13,13,13,14,14,14,15,16,
16,17,18,18,19,19,20

 Cas N°01 : Si le nombre des valeurs distinctes est petit


On peut regrouper ces notes par ordre croissant, et construire le tableau suivant : (dans ce cas la
distribution est discrète)

Variable observée X : Note attribuée


Rang de l'obs p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Valeur de l'obs xi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Nb répétition / obs ni 1 2 2 3 2 3 2 3 4 3 2 3 4 4 3 1 2 1 2 2 1

 Cas N°2 : Si le nombre des valeurs distinctes est grand


On peut regrouper ces notes par intervalle (classe) en ordre croissant et construire le tableau suivant :
(dans ce cas la distribution est continue)

Variable observée X : Note attribuée


Rang de l'observation P 1 2 3 4 5
Valeur de l'observation xi [0 – 5[ [5 – 8[ [8 – 12[ [12 – 15[ [15 – 20[
Nb répétition / observation ni 10 8 12 11 9

2.2.3 – Tableau recensé


Il reprend les valeurs brutes ordonnées, telles que:
 la 1ère colonne reprend les valeurs xi de la variable statistique observée X
 la 2ème colonne donne le nombre ni de répétition des valeurs xi
 la 3ème colonne affiche les effectifs cumulés Ni
 la 4ème colonne affiche les fréquences simples fi
 la 5ème colonne affiche les fréquences cumulées Fi

2.2.3.1 - Effectif

1°- Effectif simple [ni]:


L'effectif d'une classe ou d'une modalité est le nombre d'individu de cette classe ou de cette
modalité. Généralement on note ni est l'effectif de la classe n° i (ou de la modalité xi).

2° -Effectif total [N]:


L'effectif total est la somme des effectifs de toutes les classes. On le note souvent N, on a alors :
N = n1 + n2 + n3 + n4 + n5 = 50. En utilisant la notation sigma :

3° - Effectif cumulé [Ni]:


Cours de statistique 3
Effectif Cumulé [Ni]: L'effectif cumulé d'une modalité est la somme des effectifs des modalités
qui lui sont inférieures ou égales :
Ni  ni  N i 1
2.2.3.2 - Fréquence

1° - Fréquence simple [fi]:


La fréquence fi de la classes i ou de la modalité xi est le rapport fi/N, la fréquence d'une classe est
un nombre de l'intervalle [0 ; 1]:
Fi  f i  Fi 1
2° - Fréquence cumulée [Fi]:
La fréquence cumulée d'une modalité est la somme des fréquences des modalités qui lui sont
inférieures ou égales

Note attribuée [Xi] Effectif [ni] Effectif cumulée [Ni] Fréquence [fi] Fréquence cumulée [Fi]
0 1 1 0,02 0,02
1 2 3 0,04 0,06
2 2 5 0,04 0,1
3 3 8 0,06 0,16
4 2 10 0,04 0,2
5 3 13 0,06 0,26
6 2 15 0,04 0,3
7 3 18 0,06 0,36
8 4 22 0,08 0,44
9 3 25 0,06 0,5
10 2 27 0,04 0,54
11 3 30 0,06 0,6
12 4 34 0,08 0,68
13 4 38 0,08 0,76
14 3 41 0,06 0,82
15 1 42 0,02 0,84
16 2 44 0,04 0,88
17 1 45 0,02 0,9
18 2 47 0,04 0,94
19 2 49 0,04 0,98
20 1 50 0,02 1
50 567 1

2.2.3.3 – Classification des tableaux recensés


 un tableau est une forme de représentation des données. Il doit comporter au minimum deux
colonnes:
- la première pour le caractère étudié;
- la deuxième pour les effectifs correspondants.
 les données d'un tableau peuvent être des variables qualitatives d'une part ou des variables
quantitatives ( discrètes ou continues) d'autre part.
 suivant que le tableau permet d'étudier la répartition d'une population statistique selon 01, 02 ou
03 caractères; le tableau est dit à 01, 02 ou 03 dimensions.

Cours de statistique 4
TABLEAU

Tableau à 1D Tableau à 2D Tableau à 3D

Variables Variables qualitatives Variables


qualitatives qualitatives

Variables Variables Variables


quantitatives quantitatives quantitatives

Discrète Discrètes Discrètes

Continue Continue Continue

1° - Tableau à 1D à variables qualitatives


Exp: Etude portant sur la situation familiale des employés d'une entreprise

Situation familiale Effectif (n)


Mariés 132
Variables Célibataires 96
qualitatives Veufs 28
Divorcés 49
TOTAL 331

2° - Tableau à 1D à variables quantitatives discrètes


exp: Etude sur le nombre d'enfant des employés d'une entreprise.

Variables Nombre d'enfants Effectif (n)


quantitatives 0 49
1 97
discrètes
2 106
3 42
4 13
5 3
6 et + 1
TOTAL 331

3° - Tableau à 1D à variables quantitatives continues


Pour les variables continues, il faut regrouper les données dans différentes classes de grandeurs
comparables afin de faciliter le choix d'une échelle appropriée pour la représentation graphique.
exp : répartition de l'échelle des salaires
Variables
quantitatives Salaires (Xi) Effectif (n)
continues (5000 – 6000) 63
(6000 – 7000) 107
(7000 – 8000) 81
(8000 – 10 000) 41

Cours de statistique 5
(10 000 – 15 000) 15
15 000 et + 4
TOTAL 311

4° - Tableau à 2D

Exp: répartition des employés selon leur "situation familiale" et leur" nombre d'enfants".
Nombre Situation familiale
d'enfants Mariés Célibataires Veufs Divorcés TOTAL
0 7 15 10 17 49
1 44 42 2 9 97
2 64 37 3 12 106
3 20 2 10 10 42
4 10 0 2 1 13
5 2 0 1 0 3
6 et + 1 0 0 0 1
TOTAL 138 96 28 49 311

5° - Tableau 3D
Exp: répartition des employés d'une entreprise selon leur " situation familiale", leur "nombre
d'enfant" et leur "sexe".

Nombre Situation familiale TOTAL


d'enfants Mariés Célibataires Veufs Divorcés
H F H F H F H F
0 4 3 10 5 2 8 0 7 49
1 30 14 22 20 0 2 6 3 97
2 41 13 23 14 1 2 7 5 106
3 15 5 2 0 3 7 6 4 42
4 7 3 0 0 0 2 1 0 13
5 2 0 0 0 0 1 0 0 3
6 et + 1 0 0 0 0 0 0 0 1
TOTAL 100 38 57 39 6 22 30 19 311

2.2.4 – les représentations graphiques des informations

Les représentations graphiques (ou graphiques), sont des outils de représentation et de


communication visuelle des données, utilisés dans le but de pouvoir les interpréter d'une manière aisée.
On distingue:
1. les courbes (figure 1)
2. les histogrammes (figure 2)
3. les spectres (figure 3)
4. graphique à bâton (figure 3)
5. les diagrammes en bandes (figure 5)
6. les diagrammes à secteurs circulaires (figure 6)

Cours de statistique 6
Fig 1 : Courbe Fig 2 : Histogramme

Fig 3 : Diagramme à spectre Fig 4 : Diagramme à bâton

28 % 11 %

5%
28%
24 %
9%

13 %

10 % 10 %
24 %
9%
5%
11 % 13 %

Cours de statistique 7
Fig 5 : Diagramme à bande Fig 6 : Diagramme à secteur
2.3 – APPROCHE NUMERIQUE DE LA STATISTIQUE DESCRIPTIVE

Dans l'approche numérique de réduction des données, les traitements statistiques d'une population et
des échantillons, se fera à travers deux types de caractéristiques :
 Les caractéristiques de tendance centrale (position): moyenne, mode, médiane, quantiles,……
 les caractéristiques de variabilité, dispersion, risque: écart-type, variance, étendue,…..

2.3.1 – Caractéristique de tendance centrale

2.3.1.1 – La moyenne arithmétique

 Soit X une variable à observer.


 Soit xi Valeur de la iième observation effectuée sur la variable X

sur la variable . 1 2 3 i
Soit p le nombre total des observations distinctes x , x , x ,..... x ,....... x
X p
effectuées 
 Soit ni le nombre de répétition ou effectif de la iième l'observation xi
 Soit N le nombre total des répétitions
La moyenne arithmétique d’une série statistique est égale au rapport de la somme des valeurs
observées par l’effectif total. On la note ( X : lire x barre).On distingue:

a - La moyenne arithmétique simple

Si à chaque valeur x i ne correspond qu’une seule observation ni dans ce cas, on calcule la moyenne
arithmétique simple:
p

 xi
p

ou bien
x i
x  i 1
p x  i 1

n i
i
N

b -La moyenne arithmétique pondérée

Si à chaque valeurx peuvent correspondre plusieurs observations ni dans ce cas, on calcule la


i
moyenne arithmétique pondérée p

n x
p

 n .x i i i i
x  i 1
p
ou bien x  i 1

n i
i
N

2.3.1.2 – La moyenne géométrique

La moyenne géométrique doit être utilisée lorsqu’on désire calculer une moyenne de taux de
variations observés au cours de périodes de temps successives. Elle peut être ainsi interprétée comme le
taux de variation constant au cours de ces périodes équivalant aux divers taux observés en réalité.

Cours de statistique 8
a - Moyenne géométrique simple :

G  p
x1  x2  ....... xi ........ x p
ou, en utilisant les logarithmes: p

 log x i
G  i 1

N
Exemple:
Une entreprise exportatrice a vu son chiffre d’affaires vers l'étranger progresser pendant les quatre
dernières années de 25%,18% ,28%,13%. .La moyenne géométrique des taux de croissance est:

G  4 (1.25)(1.18)(1.28)(1.13)  [(1.25)(1.16)(1.18)(1.13)]1 / 4  1.2085


Donc, le taux moyen est donc égal à 20,85 %

b - Moyenne géométrique pondérée

G  x1n1  x2n2  .......... .....  xini  ..........  x pp


p n

 n log x i i
Pour le calcul, il est préférable d’utiliser les logarithmes: log G  11
p N
avec: N  n
i 1
i

2.3.1.3 – Le mode [ Mo ]
On appelle le mode Mo d’une distribution statistique, la valeur de la variable correspondant au
plus grand effectif. C’est donc aussi la valeur que l’on rencontre le plus souvent et la plus probable. la
série 1,2,2,3,4,4,4,5,5,6,7,7, le mode est 4 puisque c’est cette valeur qui apparaît le plus souvent

a - Variables discrètes 120


2
1
100
Le mode est facilement identifiable sur
80
le diagramme, c’est la valeur
correspondant à l'histogramme le plus 60 0
3 Série1
élevé, donc ici 2. De même dans le 40
tableau, c’est la valeur correspondant à 4
20
l’effectif le plus élevé. 5 6 et +
0
0 1 2 3 4 5 6 et +
Série1 49 97 106 42 13 3 1

b - Variables continues Histogramme Salaire/effectif

Dans le cas des variables continues, on 120 107


parle de "classe modale". 100 81
C'est la classe correspondant à la 80 63
Effectif

60 Série1
fréquence maximale. Dans l'exemple, la 41
40
classe modale est l’intervalle [6 000 - 20
15
7000]. 0
Cours de statistique (5000 - (6000 - (7000 - (8000 - 10 (10 000 - 9
6000) 7000) 8000) 000) 15 000)
Salaires
2.3.1.4 – La médiane [Me]
1°- Définition
On appelle la médiane Me, la valeur du caractère qui partage la distribution d’une série statistique
en deux parties égales. C’est donc la valeur de la variable pour laquelle la distribution des valeurs qui lui
sont supérieures est égale à la distribution des valeurs qui lui sont inférieures.
Du point de vue géométrique, la médiane est l'abscisse du point divisant en deux parties égales la
surface limitée par la courbe F(x) et l'axe des abscisses.
F(x) F(x)

Surface S1 à gauche Surface S2 à droite de


de la médiane Me la médiane Me

S1 S2

x
0 Me
2° - Calcul de la médiane
a - Variable discrète
La médiane se calcule à partir des fréquences cumulées. Nombre d’enfants Fréquences cumulées

Nombre d'enfants Effectif (ni) Fréquence (fi) Effectif cumulé (Ni) Fréquence cumulée (Fi)
0 49 0.16 49 0.16
1 97 0.31 146 0.47
2 106 0.34 252 0.81
3 42 0.14 294 0.95
4 13 0.04 307 0.99
5 3 0.01 310 1.00
6 et + 1 0 311 1.00
TOTAL 311 1.00
La fréquence cumulée 0,5 qui correspond au taux de 50%, apparaît entre deux lignes du tableau
ligne. La médiane correspond à la ligne du bas. Ici, la médiane est donc égale à 2.

Salaires (Xi) Effectif (ni) Fréquence (fi) Effectif cumulé (Ni) Fréquence cumulée (Fi)
[5000 – 6000[ 63 0.21 63 156 0.21 0.5
[6000 – 7000[ 107 0.34 170 0.55
[7000 – 8000[ 81 0.26 251 0.81
[8000 – 10 000[ 41 0.13 292 0.94
[10 000 – 15 000[ 15 0.05 307 0.09
15 000 et + 4 0.01 311 1.00
TOTAL 311 1.00

Le calcul de la médiane se fait en deux étapes:


1ere étape: Détermination de la classe médiane
 Détermination de la classe médiane à partir des effectifs cumulés (ou des fréquences cumulées).
Cours de statistique 10
 Le total de l’effectif est impair : 311.
 Le rang de la médiane est (311+1)/2 = 156.
 La valeur du 156e rang appartient à l’intervalle [6 000 - 7 000[. C’est donc la classe médiane.

2e étape:Détermination de la médiane Rang de la médiane

A1 C1 B1
Ni
63 156 170
0

A2 C2 B2
Xi
6000 ? 7000
0
Classe médiane

Valeur de la médiane Me

On sait que: Me  OA2  Xet que (OA2 = 6000, X= A2C2)

En utilisant la relation des proportions égales, on a: A1C1 


A2C2
A1 B1 A2 B2
avec: A1 C1 = 156 – 63 = 93
A1 B1 =170 – 63 = 107
A2 C2 =X
A2 B2 =7000 – 6000=1000
93 X
Donc:   X  869.95 Et Me = 6000 + 869.95 = 6869.95
107 1000
3° - Détermination graphique

Cette détermination graphique s’effectue à partir des fréquences ou des effectifs cumulés.
Lorsque, comme ici, c’est la solution des fréquences cumulées qui est choisie, il suffit de repérer les 50%
sur l’axe des ordonnées et d’effectuer une projection sur l’axe des abscisses. On confirme ainsi les
résultats de l’interpolation linéaire.

120 6800
Fréquences cumulées

100 99 100
94
80 81

60 55
50%
40
20 20
0 0
5 000 - 6000 - 7000 - 8000 - 10 000 - 15 000 -
0 -5000
6000 7000 8000 10000 15000 20000
Cours de statistique Série1 0 20 55 81 94 99 100 11
Salaires
2.3.2 – Caractéristiques de dispersion

2.3.2.1 - Etendue (ou écart de variations)

Soient données deux séries statistiques:


Sériel : 5, 5, 5, 5, 10, 15, 15, 15, 15
Série2 :9, 9, 9, 9, 10, 11, 11, 11,11
Si on examine les deux séries suivantes, elles ont toutes les deux la même moyenne et la même médiane.
La question qui se pose est ce qu'elles sont identiques ?. La réponse est non.

Car ce qui différencié ces deux séries, c’est leur dispersion. On peut mesurer cette dispersion par
des écarts (à la moyenne, par exemple).
" Etendue ou écart de variation d’une série statistique mesure la différence entre la plus petite et la
plus grande valeur de la variable étudiée. C’est donc une manière très simple de mesurer la dispersion
d’une série".

Dans la première série ci-dessus, l’écart de variation est égal à 10, dans la deuxième, il est égal à 2.

2.3.2.2 - l’écart absolu moyen [ e ]

L’écart absolu moyen est la moyenne arithmétique des écarts à la moyenne. Ces écarts doivent
être pris pour leur valeur absolue : xi  x , sinon le résultat serait systématiquement nul.
p

n
p

n i xi  x Avec: N
i 1
i

e  i 1
N
1° - Variables discrètes :

ni Xi X Xi  X ni X i  X e
1 8 7.75 62
2 10 5.75 57.5
3 11 4.75 52.25
4 15 0.75 11.25
5 18 15.75 2.25 40.5 73.18
6 20 4.25 85
7 21 5.25 110.25
8 23 7.25 166.75
n i 8 X i  126 n i X i  X  585.5

p
x  x
i 1
i N  126 / 8  15.75

Cours de statistique 12
2° - variables continues
Calculer l’écart absolu moyen  de la série suivante: 5500, 6500, 7500, 9000,12 500, 17 500

Classes Centre classes Effectif Effectif Xi  X ni X i  X


Xi ni ni Xi
[5000 – 6000[ 5500 63 346 500 1 818 114 534
[6000-7000[ 6500 107 695 500 818 87 525
[7000-8000[ 7500 81 607 500 182 14 742
[8000 –10 000[ 9000 41 369 000 1 682 68 962
[10000-15000[ 12 500 15 187 500 5 182 77 730
[150000-20000[ 17 500 4 70 000 10 182 40 728
311 2 276 000 404 222

Dans le cas des séries statistiques à variables continues, on passe par deux étapes:

Etape 1: Calcul de la moyenne arithmétique pondérée:


X  ( ni X i ) / N  2276000/ 311  7318
Etape 2: Calcul l'écart absolu moyen e
k
e  1 / N  ni X i  X  404222/ 311  1299.75
i 1

2.3.2.3 – la variance [ v(x)] et écart-type [x ]

L’écart type, comme l’écart absolu moyen, est une moyenne d’écarts. Mais pour éviter les valeurs
négatives, on utilise cette fois les élévations au carré et non plus les valeurs absolues.
p

 n (x i i  x)2
La variance: V ( X )  i 1
L'écart type:  X  V (x)
N
Classes Centre classes xi Effectif ni Effectif ni Xi Xi  X ni ( X i  X ) 2
[5000 – 6000[ 5500 63 346 500 -1 818 208 297 947
[6000-7000[ 6500 107 695 500 -818.3 71 653 692
[7000-8000[ 7500 81 607 500 181.6 2 673 382
[8000 –10 000[ 9000 41 369 000 1 661.6 115 948 852
[10000-15000[ 12 500 15 187 500 5 181.6 402 745 874
[150000-20000[ 17 500 4 70 000 10 181.6 414 665 780
311 2 2726 000 1 215 985 530

X  2276000/ 311  7318 et V ( x)  1215985530/ 311  3909921

Cours de statistique 13