Académique Documents
Professionnel Documents
Culture Documents
Statistique descriptive
Préambule
o Bases de la statistique descriptive
o Eléments du vocabulaire statistique
o Procédés d'observation de données
Chapitre 2. Eléments caractéristiques des séries statistiques: les caractéristiques de valeur centrale
o Mode
o Médiane et les quantiles
o Médiale
o Moyennes
Chapitre 4. Eléments caractéristiques des séries statistiques: les caractéristiques de forme et de concentration
o Paramètres de forme
Asymétrie
Aplatissement
o Paramètres de concentration
Ecart médial
Courbe de concentration / Indice de Gini
Définition: La statistique englobe les techniques au moyen desquelles les données se trouvent rassemblées, organisées,
présentées et analysées.
Les statistiques: désignent des collections de chiffes présentées souvent sous forme de tableaux, parfois sous forme
de graphiques, et qui regroupent toutes les observations effectuées sur des faits nombreux, relatifs à un même
phénomène.
La statistique: englobe les techniques visant le rassemblement, l’organisation, la présentation et l’analyse des
données. Ces techniques nous permettent aussi de tirer des conclusions et de faciliter la prise de décision dans des
situations d’incertitude.
Collecter l’ensemble des données (des recensement ou des sondages non exhaustifs) ;
Classer et présenter l’ensemble des données collectées (tableaux statistiques et représentations graphiques) ;
Résumer l’ensemble des données en quelques valeurs numériques( paramètres de position, de dispersion, de
Eléments du vocabulaire
Population;
Individu;
Caractère statistique;
o Caractère qualitatif;
o Caractère quantitatif.
Modalité;
Echantillon;
Effectif;
Fréquence (relative);
Série statistique/ distribution statistique.
Comme le mathématicien, le statisticien doit d’abord définir avec précision l’ensemble de référence sur lequel vont porter les
observations ; cet ensemble est appelé ensemble statistique ou population statistique.
Population: regroupe tous les objets ou les personnes sur lesquelles porte l’étude.
Exemple
1. L’ensemble des étudiants de la section A / E option sciences économiques et gestion.
2. L’ensemble de la population de la ville de Rabat.
Individu: chaque élément de la population est un individu (élément) ou une unité statistique.
Exemple
1. Un étudiant de la section A/E.
2. Un habitat de la ville de Rabat.
Echantillon : sous ensemble ou groupe restreint d’une population statistique.
Exemple
1. 15 étudiants de la section A/E.
2. 1000 habitants de la ville de Rabat.
Echantillon
Population
Individu
Dans une étude statistique, nous pouvons s’intéresser à certaines propriétés des unités statistiques. Ces propriétés que nous appelons
caractères seront également celles de la population statistique et chacun des individus de la population peut être caractérisé du point de
vue d’un ou plusieurs caractères.
Caractère : Un caractère statistique est l’aspect commun à tous les individus statistiques. A titre d’illustration, nous pouvons
classer les étudiants de la faculté en fonction du caractère : âge, sexe, taille, spécialité, …
Exemple
1. Si l’on dresse une statistique des étudiants d’une faculté selon leurs spécialités, l’ensemble des étudiants constitue la population, chaque
étudiant de cette faculté est un individu statistique, et le caractère statistique est la spécialité des étudiants.
2. Si l’on dresse une statistique du parc automobile d’une administration publique d’après la marque des voitures, la population est ce parc
automobile, l’unité statistique, chacune des voitures, et le caractère statistique la marque de chaque voiture.
Modalité: Chacun des caractères statistiques étudiés, peut avoir deux ou plusieurs modalités. Les modalités sont les
différents états du caractère (ou valeur) statistique.
Exemple
1. L’étude du caractère « Situation matrimoniale » comporte 4 situations possibles : Célibataire, Marié (e), Veuf (ve) ou Divorcé
(e). chacune de ces situations est appelée modalité.
2. Si l’étude porte dur le caractère nationalité, les modalités possibles sont à titre d’exemple : Marocaine, Sénégalaise,
Canadienne,…
3. L’étude de l’âge des étudiants comporte plusieurs modalités possibles : 18ans, 18,5ans, 19ans etc.
Remarque: Les modalités d’une variable statistique doivent être définies de telle sorte que tout individu statistique
appartient à une seule modalité. Dit autrement, chaque unité statistique ne peut pas appartenir à deux modalités
différentes.
Quantitatif discret
Quantitatif Lorsque les modalités sont des nombres entiers: discontinus (0,1, 2,…)
un caractère est dit quantitatif si ses Exemple
différentes modalités sont mesurables ou
repérables par des valeurs chiffrées, 1. Nombre d’enfant par ménage;
autrement dit si à chacune de ces modalités 2. Nombre de pièces par appartement.
correspond un nombre.
Exemple: Quantitatif continu
1. Nombre d’enfant par ménage; Si les modalités sont des nombres infinis (des intervalles).
2. La taille des étudiants de la section A/E. Exemple:
1. Poids des étudiants de la section A/E;
Caractère 2. Structure d'âge de la population marocaine.
Effectif (fréquence absolue): C’est le nombre d’individus pouvant être rattachés à une variable statistique. Autrement
dit, c’est le nombre d’individus présentant une modalité xi. On le note ni. A chaque modalité xi correspond un nombre
k k
d’individus ni. La somme n est l’effectif total de la population notée N. ni
i 1
i n1 n2 n3 nk N
i 1
Fréquence relative: La fréquence relative (ou fréquence) notée fi est la fraction (proportion) d’individus présentant la
modalité xi dans la population totale.
ni effectif attaché à la modalité x i n
fi ou fi ( en %) i 100
N effectif total N
k
Remarque: La somme des fréquences est égale à l’unité ou à 100% si fi s’exprime en pourcentage. f i 1
i 1
Série statistique : Une série statistique est l’ensemble des données d’une variable statistique (ordonnée ou désordonnée).
Distribution statistique: Une distribution statistique est une série statistique ordonnée.
Pour collecter des informations sur une population statistique, il existe deux méthodes.
Recensement ou sondage exhaustif
Le recensement est une opération qui consiste à observer et à traiter toutes les unités statistiques (population). A titre d’exemple nous
pouvons citer le recensement général de la population et de l’habitat, le recensement industriel, etc.
Enquête ou sondage non exhaustif
Est une opération qui conduit à examiner une fraction (échantillon) de la population. A titre d’illustration, il y a ce qu’on appelle les
sondages d’opinion, les sondages de l’étude de qualité etc.
Deux types d’enquêtes à considérer :
1. Sondage aléatoire : opération qui consiste à donner la même probabilité à tous les éléments de la population pour faire
le sondage.
2. Sondage par choix raisonné :
Sondage par quota : chaque groupe de la population est représenté par échantillon en même proportion.
Sondage par unité type : chaque groupe sera représenté par un seul individu moyen qui a les mêmes caractéristiques moyennes de
toute la population.
1. Tableaux statistiques
Un tableau statistique décrivant une population P suivant un caractère X se présente en général comme suit :
n1
x1 n1 f1 *100
N
n2
x2 n2 f2 *100
N
… … … …
nk
fk
xk nK N *100
Ouvriers 40
Employés 35
Cadres 20
Cadres supérieurs 5
Total 100
2. Représentations graphiques
Permet une représentation de la distribution d’une variable statistique selon des rectangles horizontaux ou verticaux ayant
toutes une même base de longueur arbitraire( constante) et une hauteur proportionnelle à l’effectif ( ou à la fréquence).
Exemple:
2. Représentations graphiques
Consiste en cercle dont l’aire est décomposée en secteurs représentant respectivement la proportion de chacune des composantes. Chaque
secteur correspond à une modalité, que l’on peut différencier par des couleurs ou des nuances différentes. Pour utiliser cette configuration,
il faut déterminer l’angle au centre de chaque secteur circulaire, angle qui est proportionnel aux fréquences. L’angle au centre étant égal
au produit des fréquences fi par 360°. i 360 f i
A chaque valeur xi de la variable, on fait correspondre un segment vertical de longueur proportionnelle à ni ou à fi selon que l’on veut faire
apparaître respectivement des effectifs ou des fréquences relatives.
Exemple:
Soit un échantillon de 75 ménages, on s’intéresse au nombre d’enfants par ménage.
2 25 0,33 33% 20
15
3 10 0,13 13%
10
4 5 0,07 7% 5
0
Total 75 1,00 100% 0 1 2 3 4
Pour tracer les courbes cumulatives, on utilise l’effectif cumulé croissant/décroissant ou la fréquence cumulé croissante/décroissante.
L’effectif (fréquence) cumulé (e) croissant d’une valeur (ou classe) est la somme des effectifs (fréquences) de cette valeur (ou de
cette classe) et les effectifs (fréquences) des valeurs (classes) précédentes.
n1c n1
n2 c n1 n2
avec
...
n n n ... n
ic 1 2 i
nkc n1 n2 ... nk
L’effectif (fréquence) cumulé (e) décroissant d’une valeur (classe) s’obtient en ajoutant à chaque ni (fi) de cette valeur (ou de cette
classe) les effectifs (fréquences) des valeurs (classes) qui la suive. Avec
n1c n1 n2 ... nk
n2 c n2 n3 ... nk
...
n n n ... n
ic i i 1 k
nk nk
2. Représentations graphiques
L’histogramme est un digramme en surface. Il se présente comme la juxtaposition de tuyaux d’orgue dont la base est égale à l’amplitude.
A chaque classe (intervalle ou strate) de la variable, on fait correspondre la surface d’un rectangle ayant pour base l’amplitude de classe et
une hauteur proportionnelle à l’effectif (ou à l’effectif corrigé) ou à la fréquence (ou à la fréquence corrigée). Deux cas peuvent se
présenter :
Lorsque les amplitudes sont égales : la hauteur pour une classe, est égale à l’effectif (à la fréquence) observé (e).
Lorsque les amplitudes de classes sont inégales : la hauteur pour une strate, est égale à l’effectif corrigé (à la fréquence corrigée).
L’amplitude d’une classe, est égale à la différence entre la borne supérieure et la borne inférieure de cette classe.
ai bsup binf
Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 21
Chapitre 1. Tableaux statistiques et représentations graphiques (10)
2. Représentations graphiques
La répartition de 1175 ménages selon le niveau de dépenses est donnée par le tableau suivant :
2. Représentations graphiques
Conditions de Yule:
1. Etre définie de manière objective ;
2. Dépendre de toutes les observations et non de certaines d’entre elles seulement ;
3. Avoir une signification concrète et facile à concevoir ;
4. Etre simple à calculer ;
5. Se prête aisément au calcul algébrique ;
6. Etre peu sensible aux fluctuations d’échantillonnage.
1. Mode
Le mode d’une variable statistique est la valeur qui correspond au maximum du diagramme différentiel (diagramme en tuyaux
d’orgue, diagramme en bâtons et histogramme). Dit autrement, C’est la valeur de la variable statistique qui présente l’effectif
le plus élevé (ou la fréquence la plus élevée). Le mode est noté Mo.
Une distribution peut ne pas avoir aucun mode, comme elle peut être unimodale, bimodale ou multimodale.
Détermination du mode:
Elle varie selon la nature de la variable statistique considérée.
1.1. Cas d’une variable statistique qualitative ou quantitative discrète
Lorsque la variable est qualitative ou quantitative discrète, le mode est facilement repérable sur le tableau statistique. C’est la modalité (xi)
pour laquelle la fréquence est la plus élevée (ou l’effectif le plus élevé).
Exemple 1
Considérons la distribution des couleurs des voitures dans un parking
L’effectif maximal vaut13, donc le mode est la couleur noire. Cette distribution est unimodale.
Exemple 2
Considérons la distribution des notes d’un groupe d’étudiants.
L’effectif maximal vaut 10. Ici on a deux modes 10/20 et 14/20. Cette distribution est bimodale.
Détermination algébrique
Première étape : détermination de la classe modale, c’est-à-dire la classe qui a l’effectif (effectif corrigé) ou la fréquence (fréquence
corrigée) la plus élevée.
Deuxième étape : détermination de la classe modale. Une fois la classe modale est déterminée, l’approximation de la valeur modale se fait
à l’aide d’une interpolation proportionnelle.
On pose :
M o Mode
binf borne inférieure de la classe modale
bsup borne supérieure de la classe modale
a i l ' amplitude de la classe modale (a i bsup binf )
ni l ' effectif de la classe modale
ni 1 l ' effectif précedent de celui de la classe modale
ni 1 l ' effectif de la classe post modale (c'est à dire situé juste après la classe modale
Cas 1 : les amplitudes (ai) sont égales Cas 2: les amplitudes sont inégales
ni ni 1 nic nic 1
M o binf ai M o binf ai
2ni ni 1 ni 1 2 nic nic 1 nic 1
ou ou
fi fi 1 fic fic 1
M o binf ai M o binf ai
2 fi fi 1 f i 1 2 fic fic 1 fic 1
Exemple 1
La distribution se rapportant à la répartition des salaires journaliers au sein d’une entreprise est donnée par le tableau suivant :
Tranches de salaires en dhs 150-160 160-170 170-180 180-190
Effectif 20 25 30 20
30 25
M o 170 10
2 * 30 25 20
173,33 dhs
2. Médiane
La médiane d’une variable statistique est la valeur qui divise les individus, supposés rangés par ordre de valeur croissante (ou décroissante) de
la variable, en deux parties égales. La médiane est notée Me
On détermine k
Exemple: Soient les notes de 11 étudiants suivantes: 11; 10; 8; 9; 13; 6; 14; 8; 8; 10; 10.
La médiane est égal à 10.
Commentaire: 50% des étudiants ayant une note inférieure ou égale à 10 et 50% des étudiants ayant une note supérieure ou égale à 10.
1 15 15
2 17 32
3 22 54
4 22 76
5 17 93
6 15 108
Total 108 /////
La médiane se situe entre la 54ème et la 55ème observation, or la 54ème appartient à la modalité 3, tandis que la 55ème se situe parmi les
3 4
observations rangées au titre de la modalité 4. Donc on parle d’un intervalle médian [3-4[. Me
2
3,5
Commentaire: la moitié de logements contient 3 pièces au moins et l’autre moitié contient 4 pièces ou plus. ( on ne peut pas interpréter 3,5 pièces)
2. Médiane
2.2. Détermination de la médiane : cas continu
Comme le mode, la médiane peut être déterminée algébriquement ou graphiquement.
2.2.1. Détermination algébrique
Pour déterminer la médiane, on fait une interpolation linéaire à l’intérieur de la classe médiane.
Première étape : Repérage de la calasse médiane en se basant sur le rang de la médiane (N/2 ou 0,5 en terme de fréquence).
A l’intérieur de la classe médiane on procède à une interpolation linéaire pour déterminer la valeur de la médiane proprement dite.
N
binf borne inférieure de la classe médiane ni 1c
M e binf ai 2
bsup brone supérieure de la classe médiane nic ni 1c
ni c l ' effectif dela classe médiane donc n
ni 1c l ' effectif dela classe situé immédiatement avant la classe médiane 0,5 fi 1c f i
a
binf ai (avec i 1
0,5)
i l ' amplitude dela classe médiane fic fi 1c 2
2. Médiane
2.2.1. Détermination algébrique
Exemple: La répartition d’un ensemble d’entreprise selon le montant des exportations (en 1000 DHs) est donnée comme suit :
Commentaire: 2040 entreprises (50%) ont un montant des exportations inférieur ou égal à 76290 DHs et 2040 entreprises ont
3. Quantiles ( fractiles)
Définition: La définition des quantiles (quartiles, déciles et percentiles) est fondée sur le même principe que celui de la médiane, car il s’agit
toujours de ranger toutes les valeurs données selon l’ordre croissant (ou décroissant) et de partager ensuite l’intervalle total en quatre (
quartiles) , dix ( déciles) ou cent ( percentiles) sous intervalle équidistants, alors que pour la médiane, le partage se fait seulement en deux
sous intervalles.
3.1. Quartiles
N
Les quartiles partagent la population en quatre parties égales, chaque groupe contient soit 25% des observations. On définit trois quartiles
4
N 3N
ni 1c Q2 M e ni 1c
4 Q3 binf ai 4
Q1 binf ai
nic ni 1c nic ni 1c
Exemple: La répartition de 350 ménages selon le coût du loyer du logement, a donné les résultats consignés dans le tableau ci-dessous
3. Quantiles ( fractiles)
3.2. Déciles
Les déciles partagent la population en dix parties égales, chaque partie contient 10% des observations. On définit neuf déciles :
N 9N
ni 1c ni 1c
D1 binf ai 10 ... D5 M e ... D9 binf ai 10
nic ni 1c nic ni 1c
3.3. Percentiles
Les percentiles partagent la population en cent parties égales, chaque partie contient 1% des observations. On définit 99 percentiles :
N 99 N
ni 1c ni 1c
C1 binf ai 100 ... C50 M e ... C99 binf ai 100
nic ni 1c nic ni 1c
Remarque: M e Q2 D5 C99
4. Médiale
k k
Définition: La médiale est la valeur du caractère X qui partage la masse globale des observations ni xi (ou n c )
en deux fractions de même i i
i 1 i 1
poids. Sa détermination se fonde sur les nixi (nici) cumulés croissants (décroissants). Sa détermination pourrait aussi -comme la médiane- être
faite algébriquement ou graphiquement.
Désignons par: b borne inférieure de la classe médiale
inf k
ni ci
bsup brone supérieure de la classe médiale
i 1 2
ni 1ci 1 c
M l binf ai
ni xi c l ' effectif dela classe médiale ni ci c ni 1ci 1 c
ni 1 xi 1 c l ' effectif dela classe médiale situé immédiatement avant la classe médiale
a l ' amplitude de la classe médiale
i
Exemple: La distribution des salaires horaires en Dhs des 250 salariés d’une entreprise est donnée par le tableau suivant :
Salaire horaire Effectifs ni Centres des classes ci nici
k
n500
i ci c ni xi 15544
[47,50 - 52,50[ 10 50 500
rang de la médiale: 7772
[52,50 – 57,50[ 30 55 1650 2150 i 1 2 2
[57,50 – 60,50[ 60 59 3540 5690 classe médiale: [60,50 – 63,50[.
[60,50 – 63,50[ 72 62 4464 10154
[63,50 – 67,50[ 40 65,50 2620 12774 7772 5690
M l 60,50 3 61,90 Dhs
[67,50 – 73,50[ 24 70,50 1692 14466 10154 5690
[73,50 – 80,50[ 14 77 1078 15544
Total 250 ////// 15544 ////////
5. Moyennes
5.1. Moyenne arithmétique
Définition: La moyenne arithmétique, notée X , d’une série statistique est la somme de toutes les valeurs observées devisées par le nombre
de ces observations. Une moyenne arithmétique peut être simple ou pondérée
5.1.1. Moyenne arithmétique simple
Soient x1 , x2 ,..., xn les « N » observations de la variable statistique X ; on appelle moyenne arithmétique simple des « N » valeurs x1 , x2 ,..., xn
notée X , le rapport défini par :
x1 x2 ... xn 1 n
X xi
N N i 1
5.1.2. Moyenne arithmétique pondérée
On appelle moyenne arithmétique pondérée des « K » valeurs x1 , x2 ,..., xi ,..., xk affectées des « K » coefficients n1 , n2 ,..., ni ,..., nk et on note ,
le rapport défini par :
Cas discret Cas continu
n1 x1 n2 x2 ... ni xi ... nk xk n1c1 n2 c2 ... ni ci ... nk ck
X X
n1 n2 ... ni ... nk n1 n2 ... ni ... nk
k k
1 1
N
n x
i 1
i i
N
n c
i 1
i i
k k
f i xi f i ci
i 1 i 1
5. Moyennes
5.1. Moyennes arithmétique
Exemple 1
On donne à titre d’exemple les notes obtenues par 300 étudiants en statistique descriptive, lors d’un test :
Notes ni nixi
1 6 6
3 8 24
5 20 100
6 25 150
1 k 2936
7 32 224 X
N i 1
ni xi
300
10 40 400
11 70 770 9, 79
12 45 540
13 38 494
14 12 168
15 4 60
Total 300 2936
5. Moyennes
5.1. Moyennes arithmétique
Exemple 2
Commentaire: Le chiffre d’affaires moyen de l’ensemble des entreprises est égal à 13825,5208 DHs.
Relation empirique de Karl Pearson: pour les distributions unimodales, modérément asymétriques, il existe entre X , M e et le M o , la
relation empirique suivante:
( X M o ) 3( X M e )
Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 38
Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (16)
5. Moyennes
5.1. Moyennes arithmétique
Propriétés de la moyenne arithmétique
ni xi ni xi 0
Deuxième propriété : La somme des carrés des écarts à la moyenne X est minimale, c’est-à-dire n (x a) est minimale pour a =X , a
i i
2
quelconque
1 On dérive par rapport à « a »: g '(a) 2a 2 X 0 Si X a
soit g (a )
N
ni (x i a ) 2 f i (x i a) 2
Ce qui signifie que la moyenne arithmétique est le point le plus proche de l’ensemble des observations.
fi ( xi 2axi a )
2 2
f xi
2
i a 2 2a X
Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 39
Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (17)
5. Moyennes
La moyenne arithmétique n’est pas applicable dans tous les cas. En effet, pour calculer la moyenne de certaines variables statistiques décrivant
quelques phénomènes particuliers (taux d’accroissement, vitesse moyenne, surface moyenne, moyenne des écarts à une valeur centrale, …), on
doit recourir à d’autres types de moyennes.
5.2. Moyenne géométrique
La moyenne géométrique notée « G » peut être définie comme la racine nième du produit des n valeurs positives de la variable statistique. Tout
comme la moyenne arithmétique, la moyenne géométrique peut être simple ou pondérée.
5.2.1. Moyenne géométrique simple
Soit une série statistique prenant les valeurs x1 ,..., xk la moyenne géométrique de cette série est :
G N x1 . x2 . x3 .... xk N
x
i
1 k
x1 . x2 . x3 .... xk N avec N ni
i 1
1
xi N
5. Moyennes
5.2. Moyenne géométrique
5.2.1. Moyenne géométrique pondérée
Soit une série statistique prenant les valeurs x1 , ..., xk auxquelles correspondent respectivement les effectifs n1 , ..., nk , avec n n1 ... . nk .
La moyenne géométrique de cette série est :
Cas discret Cas continu
k
x
k
G
i
N n1 n2 ni nk ni
x . x ..... x .... x
1 2 i x
N
i G N n1 n2 ni
c . c ..... c .... c nk
N c ni
1 2 i x
i 1 i 1
1
k
avec N ni
1
x . x ..... x .... x
n1 n2 ni nk
c1n1 . c2n2 ..... cini .... cxnk
N N
1 2 i x
i 1
1
1
k ni
ci
k N
xini
N
i 1 i 1
N.B: La moyenne géométrique est réservée pour le calcul des taux d’accroissement moyens.
5. Moyennes
5.2. Moyenne géométrique
Exemple:
Le chiffre d’affaire d’une entreprise a connu les taux d’accroissement suivants : 5% au cours des trois premières années, 9% au cours des deux
années suivantes et 10% au cours de la dernière année. Quel est le taux moyen annuel d’accroissement du chiffre d’affaire de l’entreprise ?
5. Moyennes
5.3. Moyenne harmonique
définition: La moyenne harmonique notée H, est la valeur de la variable, dont l’inverse est égal à la moyenne arithmétique des inverses de la
variable statistique
Un automobiliste a parcouru le trajet entre Meknès et Agadir selon les vitesses indiquées dans le tableau qui suit :
Tronçons Distances (ni) Vitesses en Km/h (xi)
Meknès-Rabat 138 100
N 748
Rabat- Casablanca 90 110 H k
124 Km / h
ni
6, 01
Casablanca- Essaouira 350 140
i 1 xi
Essaouira-Agadir 170 130
5. Moyennes
5.4. Moyenne quadratique
Définition:
La moyenne quadratique est notée Q. Elle correspond à la racine carrée de la moyenne arithmétique des carrés des valeurs de la variable
statistique. Elle est utilisée pour le calcul de la moyenne des écarts à une valeur centrale.
1
1 k
1 k
n
2
Q i x 2
i N ni x 2
i
N i 1 i 1
Exercice de synthèse:
Etant donné un groupe de 15 copies d’examen en statistique, cotées de 0 à 20: { 19, 16, 15, 15, 12, 11, 11, 8, 7, 7, 7, 5, 3, 3, 1}.
Question: Calculer les moyennes arithmétiques, géométriques, quadratiques et harmoniques:
X
n x i i
140
9,3 , G (19 *16 *15 *12 *11 *8 *7 *5 *3 *1 ) 7,5
1 1 2 1 2 1 3 1 2
1
1 15
N 15
1 1
1 n
1708 N 15
Q ni xi2
2 2
5,1
i 1
10,6 , H
n Remarque: H G X Q
N 15
xi 2,933854
i
La connaissance de la tendance d’une distribution statistique est insuffisante pour résumer toutes les caractéristiques. Deux séries statistiques
peuvent avoir les mêmes caractéristiques de position, et correspondant cependant à des observations qui se distribuent très différemment. Il
semble indispensable de recourir aux paramètres de dispersion pour compléter l’étude d’une série. Il s’agit des indicateurs qui mesurent les
fluctuations (variabilité) des valeurs observées autour d’une valeur de tendance centrale.
Il semble qu’il est intéressent de définir et de calculer des caractéristiques de la dispersion qui permettront de mesurer cette dispersion, et ainsi
de pouvoir comparer les distributions comme les deux cas susmentionnés pour lesquelles les paramètres de tendance centrale se sont avérés être
des instruments insuffisants.
1. Etendue (range)
L’étendue est la différence entre la valeur maximale et la valeur minimale de la variable statistique. Si les modalités x1, x2, . . . xk d’un caractère
sont en ordre de valeur croissante, l’étendue est : E= xk - x1.
2. Ecart absolu moyen ( Ecart arithmétique)
Il s’agit d’une moyenne arithmétique des écarts par rapport à une valeur centrale.
Suivant que les écarts soient pris par rapport à la moyenne ou par rapport à la médiane, nous définissons l’écart absolu moyen par rapport à la
moyenne arithmétique et l’écart absolu moyen par rapport à la médiane.
2.1. Ecart absolu moyen par rapport à la moyenne arithmétique
1
C’est la moyenne des écarts à la moyenne arithmétique. Il est noté : eX
N
n i xi x f i xi x
i 1
i i
2
N i 1
k k k
1 1 1
n
2
n x 2 2
x
i i n x
i i x i
N i 1 N i 1 N i 1
k
1
ni xi2 x
2
N i 1
2
x2 x
f ( x x)
2
x ni ( xi x)
2
ni ( xi x)
2
i i
2
N i 1 N i 1 i 1
L’écart type permet de dire que les données sont situées en général dans l’intervalle [ X x , X x ]
5. Moments
n
5.1. Moments non centrés 1
m
'
r
N
x
i 1
r
i (données non groupées )
Le moment non centré d’ordre r d’une variable statistique est la quantité : k k
1
N
n x f x
i 1
i
r
i
i 1
i
r
i ( données groupées ( pondérées ))
k k
1
N
n c f c
i 1
i
r
i
i 1
i
r
i ( caractère continu )
Pr. D. OUAHID
Pr. D. OUAHID Statistique descriptive Année
Statistique universitaire 2022-2023
descriptive 47 50
Chapitre 3. Eléments caractéristiques des séries statistiques : les caractéristiques de dispersion (7)
r 0, m0' 1
r 1, m1' X
Pour 2
r 2, m2' V ( x ) X Q 2
r 2, m 2 V ( x) 1 k k
N i 1
n (
i ic x ) r
i 1
fi (ci x) r ( caractère continu )
Remarque: Les moments centrés d’ordre 3 et 4 sont réservés pour l’asymétrie et l’aplatissement.
6. Boîte à moustaches
Cette boite est aussi appelée diagramme en boîte (boîte à pattes, la boite de Tykey, boxplot). Elle permet de figurer le profil essentiel d’une
distribution statistique en se basant sur les informations fournies par les trois quartiles et l’étendue.
Le diagramme est formé d’un rectangle ayant pour extrémité inférieure le Q1 et pour extrémité supérieure Q3. A l’intérieur de ce rectangle, on
trace un segment représentant la médiane. A gauche et à droite de ce rectangle, on trace deux segments appelés « moustaches » inférieur et
supérieur et qui ont pour extrémité respectivement les deux valeurs pivots :
Pour atténuer l’effet des données aberrantes (atypiques) sur la construction de la boîte à moustaches, on calcule les valeurs adjacentes :
X min X g Pg
X max X d Pd
Remarque: Une valeur est atypique si elle dépasse de 1,5 fois l’écart interquartile au dessous du premier quartile ou au dessus du troisième
quartile.
Pour compléter l’étude des séries statistiques on va décrire, d’une part, leurs représentations graphiques au moyen de deux caractéristiques
essentielles à savoir l’asymétrie et l’aplatissement et d’autre part, d’examiner la concentration de leurs observations autour d’une valeur centrale
(généralement la moyenne arithmétique).
1. Paramètres de forme
1.1. Asymétrie
Une distribution est dite symétrique, si les valeurs observées se répartissent dans les mêmes proportions de part et d’autre des trois valeurs de
position : la moyenne arithmétique, la médiane et le mode.
1.1.1. Coefficients d’asymétrie
Comparaison des paramètres de tendance centrale (Mo, Me et X )
M o M e X Distribution asymétrique à droite
M o M e X Distribution symétrique
X M M Ditribution dissymétrique à gauche
e o
(Q3 M e ) (M e Q1 )
Cy
(Q3 M e ) (M e Q1 ) C y 0, série dissymétrique à droite
(Q3 M e ) (Q1 M e )
C y 0, série symétrique
(Q3 Q1 )
Q3 Q1 2 M e C y 0, série asymétrique à gauche
Q3 Q1
Coefficient de Pearson
Ce coefficient analyse la position de deux valeurs centrales (le mode et la moyenne arithmétique), relativisé par l’écart type de série :
as
m3
as 0, série symétrique
avec m3
N
n ( x X )
i 1
i i
3
1.2. Aplatissement
L’aplatissement d’une distribution est lié à la dispersion plus ou moins importante des observations autour des valeurs centrales.
Le coefficient de Fisher d’aplatissement
Le coefficient d’aplatissement mesure le degré d’aplatissement d’une distribution. On l’obtient à partir du moment centré d’ordre 4.
ap 0, Distribution leptokurtique
m4 1 N
ap
4
3, ap 0, Distribution mesokurtique
avec m4
N
n ( x X )
i i
4
ap 0, Distribution platykurtique
X i 1
1.2. Aplatissement
1.2.1. Ecart médial
Cet écart est déterminé par l’écart (Médiale – Médiane) rapporté à l’étendue.
Indice de Gini
On appelle indice de concentration ou indice de Gini le rapport entre la surface de concentration (surface comprise entre la droite
d’équirépartition (1ère bissectrice) et la courbe de Lorenz et celle du triangle OAB. L’indice de Gini noté IG :
k
surface de concentration
IG 1 ( qi 1 qi ) f i
surface du triangle OAB i 1
Ce rapport est un nombre sans dimension indépendant de l’unité dans laquelle sont exprimées les valeurs de la variable. Il est compris entre zéro
(concentration nulle = égalité parfaite) et un (concentration maximale = inégalité parfaite). Il peut également être exprimé en pourcentage.
Remarque :
IG 0 La courbe de Lorenz se confond avec la droite OB : égalité parfaite.
La masse totale est uniformèment répartie sur chaque individu.
0 IG 1 La courbe de Lorenz partage le triangle OAB en deuxsurface.
Plus cette droite se déplace vers le bas, plus la concentration est plus forte
IG 1 la courbe de Lorenz est donnée par les segments OA et AB.
C ' est le cas d ' un seul individu concentre toute la masse
Exemple
Dans une entreprise les 670 factures établies durant un trimestre, ont été classées selon leur montant. Les résultats sont présentés dans le tableau
suivant :
ML Me 1750 135
L’écart entre la médiale et la médiane : E M 100 100
Etendue 10000
Montant des factures en DH Nombre de factures
et donc cet écart est égal à 16,5%.
0-50 160
50-100 140
k
100-200 100
L’indice de Gini IG 1 (qi 1 qi ) fi 1 0, 2710 0, 7290. La concentration
200-300 80 i 1
300-500 70 (72,9%) est très forte. Ce qui signifie qu’une proportion très élevée de la
500-1000 50
1000-2000 40 masse totale du chiffre d’affaires est réalisée par un petit nombre de factures
2000-5000 20
5000-10000 10 (en l’occurrence celles appartenant aux deux dernières classes).
Dans le domaine de la science économique et sociale, les grandeurs représentatives de phénomènes varient dans le temps et dans l’espace. Il est
souvent très difficile de procéder à la comparaison de ces grandeurs à partir du tableau statistique. Lorsque les séries statistiques sont
importantes, il est plus commode pour bien les lire et pour en effectuer les comparaisons nécessaires d’utiliser les indices statistiques.
Un nombre indice est une abstraction, construite d’une manière synthétique, à partir des éléments d’un ensemble. Par définition, lorsqu’une
grandeur est susceptible de varier, le rapport entre deux états de cette grandeur constitue un indice. Donc l’indice statistique est le rapport
exprimé en pourcentage, d’une mesure portant sur une période donnée, dite période courante, à la mesure analogue pour une période de
comparaison, dite période de base. Les mesures peuvent concerner soit des quantités, des prix ou des valeurs.
Lorsque la grandeur étudiée ne prend qu’une seule valeur à différentes dates ou sur différents espaces elle est appelée grandeur simple. Les
indices que l’on calcule sur les grandeurs simples sont appelés indices statistiques élémentaires.
Il existe des grandeurs complexes composées des grandeurs simples. Les rapports obtenus sur les grandeurs complexes sont des indices
synthétiques.
1. Indices élémentaires
On appelle indice élémentaire le nombre sans dimension résultant du rapport de deux valeurs prises par une même grandeur simple à deux dates
différentes, soit sur deux espace différents.
Soit Gt la valeur de la variable au temps t appelé aussi date courante. G0 la valeur de la variable au temps t=0 appelé aussi date de base ou date de
référence. L’indice « I » s’écrit :
I à 100% il y a une augmentation entre les périodes t et t 0
t0
G
I t (G ) t 100 I t 100% l ' indice est resté constant entre les périodes t et t 0
0 G0 0
I t à 100% il y a une dim unition entre les périodes t et t 0
0
Pour les indices spatiaux, on conserve toujours la même spécification, seulement pout t=0 on parle de situation de base(ou état de référence). La
situation « t » est dite situation courante.
1.1. Propriétés des indices élémentaires
Transitivité ou circularité: I t 0 (G) I t t ' (G) I t ' 0 (G) (t, t')
Proportionnalité: Si entre la période de base et la période courante la grandeur simple et multipliée par une constante k, l’indice élémentaire
est multiplié par k. Gt k G0
Gt k G0 I t (G ) 100 100 k 100
0 G0 G0
2. Indices synthétiques
Si l’étude porte sur plusieurs grandeurs étudiées simultanément o utilise les indices synthétiques. L’objet est de traduire les variations d’une
grandeur G complexe composée de sous-ensembles G1, G2, … Gn.
Les formules d’indices synthétiques sont extrêmement nombreuses. Dans la pratique elles se réduisent à un petit nombre de types dont les
principaux sont ceux de Laspeyres, de Paasche et de Fisher.
D’une manière générale, ces indices synthétiques sont des moyennes pondérées d’indices élémentaires. C’est-à-dire de rapports entre deux états
de la grandeur G mesurée à la date de base et à la date courante Git
Git Gi 0
Du point de vue économique, les rapports sont généralement:
Gi 0
Soit des rapports de prix ;
Soit des rapports de quantité ;
Soit des rapports de valeur (valeur c’est le prix multiplié par la quantité).
2.1. Indice de Laspeyres
L’indice synthétique proposé par Laspeyres est la moyenne arithmétique pondérée des indices élémentaires par les coefficients de pondération
de la période de base « 0 ». L’indice de Laspeyres qu’on désigne par L se définit de la façon suivante :
Pour le prix on a : pit
(p q ) p
i0 i0
p q
Lt ( p) i0
100 it i 0
100
0
p q
i0 i0 p q
i0 i0
pq p q 100
Pour les prix :
Pt ( p ) t t
100 t t
0
( p q )
t t
p 0 (p q ) 0 t
p t
0
( p q )
t t
q 0 (p q ) t 0
q t
Pt (V )
pq t t
100
p q 10
t t
0
(p q ) p q
t t
p0 q0 (p q )
0 0
t t
Remarque: On a Pt (V ) L t (V )
0 0
2.3. Indice de Fischer
L’indice de Fisher est la moyenne géométrique des deux indices synthétiques de Laspeyres et de Paasche. Cet indice est donc compris entre les
1
indices de Laspeyres et de Paasche. F L P ( L P) 2
Exemple:
Le tableau suivant récapitule pour deux périodes 2017 et 2018 les prix et les quantités de quatre produits.
13
I18 17 p (A) 100 130% augmentation de 30% entre 2017 et 2018.
10
2017 (période t=0) 2018 (période t)
Produit
Prix quantité prix quantité L18 (p)
p q
18 17
100 112, 5% augmentation de12, 5% entre 2017 et 2018.
A 10 10 8 13
17
p 17 q17
B 8 20 10 15
P18 (q)
p q
18 18
100 124,12% augmentation de 24,12% entre 2017 et 2018.
C 4 50 6 60 17
p 18 q17
D 20 5 24 7
L18 (v) P18 (v) Fv
p q
18 18
100 139, 64 augmentation de 39, 64% entre 2017 et 2018.
17 17
p q
17 17
Au cours des chapitres précédents (1, 2, 3, 4), l’étude a porté sur les méthodes permettant le traitement de l’information relative à une seule
variable statistique (ou à un seul caractère). Toutefois, lorsqu’il s’agit de variables économiques et sociales, il est intéressant que l’étude porte
simultanément sur deux variables d’une même population.
L’étude statistique peut donc se porter sur deux caractères présents dans tous les membres de la population. Ces deux caractères sont représentés
par deux variables X et Y. On peut utiliser l’information dont on dispose pour étudier la liaison qui existe éventuellement entre ces deux
caractères.
L’intérêt de ce chapitre est outre l’approfondissement de l’information par rapport aux chapitres susmentionnés, de déceler l’existence d’une
éventuelle liaison entre deux variables, de déterminer le sens de cette liaison et de mesurer son intensité. Etudier la liaison entre deux variables
X et Y revient à examiner leur plus ou moins grande dépendance.
1. Représentation graphique du nuage de points
On cherche à étudier la liaison pouvant exister entre les variables X et Y. pour ce, on représente dans un repère orthogonal les points (Xi, Yi).
L’ensemble de ces points s’appelle « nuage de points ». La forme de ce nuage de point nous renseigne sur la nature de la liaison entre X et Y et le
type de courbe qui ajustera le mieux, ce nuage. On s’intéresse au cas où cette courbe est une droite.
Le coefficient de corrélation linéaire associé à X et Y, que l’on note r est donné par :
cov(X i , Yi )
r
V ( X )V (Y )
r 0, la liaison linéaire est positive (croissante)
( X i X )(Yi Y ) avec 1 r 1 . Si
r 0, indépendance totale entre X et Y (absence de relation linéaire)
( X X ) (Y Y )
i
2
i
2
r 0, la relation est négative (décroissante)
X Y N XY
i i
X N X Y NY
2 2 2 2
i i
4. Ajustement linéaire
L’ajustement du nuage de points obtenu consiste à déterminer la fonction de liaison entre X et Y sous la forme Yi aX i b . Il s’agit de
déterminer parmi toutes les droites celle qui est la plus proche de tous les points.
4.1. Méthode de moindres carrés ordinaires (MCO)
Cette méthode consiste à déterminer l’équation d’une droite telle que la somme des carrés des distances entre les points du nuage et cette droite
soit minimale.
Le problème se ramène à l’estimation des paramètres a et b de la droite en minimisant la somme des carrés des écarts entre les Yi (les valeurs
observées) et les Y données par la droite d’ajustement D (les valeurs ajustées).
i
On a Yi b aX i t
Y: s’appelle variable expliquée ou variable endogène ou encore variable dépendante. C’est variable aléatoire observable.
X: s’appelle variable explicative ou variable exogène ou encore variable indépendante. C’est une variable déterministe observable.
t : s’appelle la perturbation ou encore le bruit. C’est une variable aléatoire non observable.
a et b sont les paramètres de la droite ; ils sont non aléatoires mais ils sont inconnus : il faudra donc les estimer.
Le programme de minimisation s’écrit comme suit :
La solution de ce système est donnée par les conditions du premier ordre et de deuxième ordre :
S S S S
1. 0 2 (Yi aX i b) 0 2. 0 (Yi aX i Yi a X )
b b a a
Yi a X i nb 0 (Yi Yi ) a ( X i X )) 2
Yi a X i b 2 ( X i X ) (Yi Y ) a ( X i X )
b Y a X
a
(X X )(Y Y ) X Y N X Y
i i i i
(X X )
i
2
X NX i
2 2
b Y a X
Par analogie on pourra obtenir l’équation de la droite de régression de X par rapport à Y: DX (Y) X i a ' Yi b '
cov(X i , Yi ) (X i X )(Yi Y ) X iYi N X Y
a'
Avec V (Y) i ( X Y ) 2
Y i
2
NY
2
b' X a' Y
Exemple
Deux variables X et Y présentées comme suit :
Le coefficient de corrélation linéaire r 72, 22% Ceci montre qu’il y a une forte
X Y dépendance (liaison = relation = corrélation) linéaire entre X et Y.
12 7
10 4
14 8 La droite de régression DY ( X ) Yi a X i b : Yi 0,5217 X i 0, 217
5 4
X i Yi 5
9 2 La droite de régression DX (Y) X i a ' Yi b ' :
[2]. Diouri, M, & El Maroum, A. (2006). « Statistique Descriptive, Cours et Exercices », Edition TOUBKAL et l’Institut
Supérieur du Génie Appliqué, IGA.
[3]. Dupont, R. & Fleury, J. (1986). « Probabilités, Statistiques- Programmation linéaire », Edition Vuibert, Mars.
[5]. LABROUSSE, C. (1972). « Statistique, Exercices corrigés avec rappels de cours », Edition DUNOD
[6]. Lazar, Ph. & Schwartz, D. (1974). « Eléments de probabilités et Statistiques », Edition Flammarion.
[7]. Léonard, J. Kakmeir. (1982). « Statistique de la gestion : Théorie et Problèmes », Edition Montréal.
[8]. Masièri, W. (1988), « Statistique et Calcul des Probabilités », Edition SIRY, 6ème édition.
[9]. Pougotchev, V. (1983). « Théorie des Probabilités et Statistique Mathématique », Edition de Moscou.