Vous êtes sur la page 1sur 69

Université Mohammed V- Rabat ‫جامعة محمد الخامس – ا لربـــــــاط‬

Faculté des Sciences Juridiques,


Economiques et Sociales ‫كلية العلوم القانونية واالقتصادية واالجتماعية‬
Agdal ‫اكدال‬

Statistique descriptive

Filière: Sciences Economiques et Gestion


Semestre: S1
Université Mohammed V de Rabat
FSJES-Agdal-Rabat

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 1


Plan du cours (1)

 Préambule
o Bases de la statistique descriptive
o Eléments du vocabulaire statistique
o Procédés d'observation de données

 Chapitre 1. Tableaux statistiques et représentations graphiques


o Tableaux statistiques
o Représentations graphiques

 Chapitre 2. Eléments caractéristiques des séries statistiques: les caractéristiques de valeur centrale
o Mode
o Médiane et les quantiles
o Médiale
o Moyennes

 Chapitre 3. Eléments caractéristiques des séries statistiques: les caractéristiques de dispersion


o Etendue
o Ecart absolu moyen
o Ecart interquantiles
o Variance, écart type et coefficient de variation
o Moments
o Boîte à moustaches

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 2


Plan du cours (2)

 Chapitre 4. Eléments caractéristiques des séries statistiques: les caractéristiques de forme et de concentration
o Paramètres de forme
 Asymétrie
 Aplatissement
o Paramètres de concentration
 Ecart médial
 Courbe de concentration / Indice de Gini

 Chapitre 5. Indices statistiques


o Indices élémentaires
o Indices synthétiques

 Chapitre 6. Etude de laissons entre deux variables statistiques


o Nuage de points
o Notion de covariance
o Coefficient de corrélation linéaire de Pearson
o Ajustement linéaire

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 3


Préambule (1)

Définition: La statistique englobe les techniques au moyen desquelles les données se trouvent rassemblées, organisées,
présentées et analysées.

La statistique ≠ les statistiques

 Les statistiques: désignent des collections de chiffes présentées souvent sous forme de tableaux, parfois sous forme
de graphiques, et qui regroupent toutes les observations effectuées sur des faits nombreux, relatifs à un même
phénomène.

 La statistique: englobe les techniques visant le rassemblement, l’organisation, la présentation et l’analyse des
données. Ces techniques nous permettent aussi de tirer des conclusions et de faciliter la prise de décision dans des
situations d’incertitude.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 4


Préambule (2)

Objet de la statistique descriptive

 Collecter l’ensemble des données (des recensement ou des sondages non exhaustifs) ;

 Classer et présenter l’ensemble des données collectées (tableaux statistiques et représentations graphiques) ;

 Résumer l’ensemble des données en quelques valeurs numériques( paramètres de position, de dispersion, de

forme,...). et interpréter les résultats obtenus;

 Faciliter la prise de décision.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 5


Préambule (3)

Eléments du vocabulaire
 Population;
 Individu;
 Caractère statistique;
o Caractère qualitatif;
o Caractère quantitatif.
 Modalité;
 Echantillon;
 Effectif;
 Fréquence (relative);
 Série statistique/ distribution statistique.

Procédés d’observation des données


 Recensement ( sondage exhaustif);
 Enquête( sondage non exhaustif ).
o Sondage aléatoire;
o Sondage par choix raisonné.
 Sondage par quota;
 Sondage par unité type.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 6


Eléments du vocabulaire (1)

Comme le mathématicien, le statisticien doit d’abord définir avec précision l’ensemble de référence sur lequel vont porter les
observations ; cet ensemble est appelé ensemble statistique ou population statistique.

 Population: regroupe tous les objets ou les personnes sur lesquelles porte l’étude.

Exemple
1. L’ensemble des étudiants de la section A / E option sciences économiques et gestion.
2. L’ensemble de la population de la ville de Rabat.
 Individu: chaque élément de la population est un individu (élément) ou une unité statistique.
Exemple
1. Un étudiant de la section A/E.
2. Un habitat de la ville de Rabat.
 Echantillon : sous ensemble ou groupe restreint d’une population statistique.
Exemple
1. 15 étudiants de la section A/E.
2. 1000 habitants de la ville de Rabat.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 7


Eléments du vocabulaire (2)

Echantillon
Population
Individu

Dans une étude statistique, nous pouvons s’intéresser à certaines propriétés des unités statistiques. Ces propriétés que nous appelons
caractères seront également celles de la population statistique et chacun des individus de la population peut être caractérisé du point de
vue d’un ou plusieurs caractères.
 Caractère : Un caractère statistique est l’aspect commun à tous les individus statistiques. A titre d’illustration, nous pouvons
classer les étudiants de la faculté en fonction du caractère : âge, sexe, taille, spécialité, …
Exemple
1. Si l’on dresse une statistique des étudiants d’une faculté selon leurs spécialités, l’ensemble des étudiants constitue la population, chaque
étudiant de cette faculté est un individu statistique, et le caractère statistique est la spécialité des étudiants.
2. Si l’on dresse une statistique du parc automobile d’une administration publique d’après la marque des voitures, la population est ce parc
automobile, l’unité statistique, chacune des voitures, et le caractère statistique la marque de chaque voiture.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 8


Eléments du vocabulaire (3)

 Modalité: Chacun des caractères statistiques étudiés, peut avoir deux ou plusieurs modalités. Les modalités sont les
différents états du caractère (ou valeur) statistique.
Exemple
1. L’étude du caractère « Situation matrimoniale » comporte 4 situations possibles : Célibataire, Marié (e), Veuf (ve) ou Divorcé
(e). chacune de ces situations est appelée modalité.
2. Si l’étude porte dur le caractère nationalité, les modalités possibles sont à titre d’exemple : Marocaine, Sénégalaise,
Canadienne,…
3. L’étude de l’âge des étudiants comporte plusieurs modalités possibles : 18ans, 18,5ans, 19ans etc.

Remarque: Les modalités d’une variable statistique doivent être définies de telle sorte que tout individu statistique
appartient à une seule modalité. Dit autrement, chaque unité statistique ne peut pas appartenir à deux modalités
différentes.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 9


Eléments du vocabulaire (4)

Quantitatif discret
Quantitatif Lorsque les modalités sont des nombres entiers: discontinus (0,1, 2,…)
un caractère est dit quantitatif si ses Exemple
différentes modalités sont mesurables ou
repérables par des valeurs chiffrées, 1. Nombre d’enfant par ménage;
autrement dit si à chacune de ces modalités 2. Nombre de pièces par appartement.
correspond un nombre.
Exemple: Quantitatif continu
1. Nombre d’enfant par ménage; Si les modalités sont des nombres infinis (des intervalles).
2. La taille des étudiants de la section A/E. Exemple:
1. Poids des étudiants de la section A/E;
Caractère 2. Structure d'âge de la population marocaine.

Qualitatif En général il n y’a, à priori, aucune hiérarchie entre les modalités.


Néanmoins pour l’énumération de certaines modalités, nous observons un
un caractère est dit qualitatif si ses modalités certain ordre découlant souvent de conventions. Une variable qualitative
ne sont pas mesurables, ni même repérables. peut être nominale ou ordinale.
En d’autres termes, un caractère est dit Exemple:
qualitatif si les valeurs prises sont des mots
ou des lettres. 1. Caractère « couleur » est une variable qualitative nominale: les modalités
ne peuvent pas être classées ( noir, vert, rouge,…);
Exemple:
2. Caractère « mention » est une variable qualitative ordinale: les
1. La profession d’une personne ; modalités peuvent être classées ( bien, assez bien, passable,…)
2. La marque d’une automobile.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 10


Eléments du vocabulaire (3)

 Effectif (fréquence absolue): C’est le nombre d’individus pouvant être rattachés à une variable statistique. Autrement
dit, c’est le nombre d’individus présentant une modalité xi. On le note ni. A chaque modalité xi correspond un nombre
k k
d’individus ni. La somme  n est l’effectif total de la population notée N.  ni 
i 1
i n1  n2  n3    nk  N
i 1

 Fréquence relative: La fréquence relative (ou fréquence) notée fi est la fraction (proportion) d’individus présentant la
modalité xi dans la population totale.
ni effectif attaché à la modalité x i n
fi   ou fi ( en %)  i 100
N effectif total N
k

Remarque: La somme des fréquences est égale à l’unité ou à 100% si fi s’exprime en pourcentage.  f i 1
i 1

 Série statistique : Une série statistique est l’ensemble des données d’une variable statistique (ordonnée ou désordonnée).

 Distribution statistique: Une distribution statistique est une série statistique ordonnée.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 11


Procédés d’observation des données

Pour collecter des informations sur une population statistique, il existe deux méthodes.
 Recensement ou sondage exhaustif
Le recensement est une opération qui consiste à observer et à traiter toutes les unités statistiques (population). A titre d’exemple nous
pouvons citer le recensement général de la population et de l’habitat, le recensement industriel, etc.
 Enquête ou sondage non exhaustif
Est une opération qui conduit à examiner une fraction (échantillon) de la population. A titre d’illustration, il y a ce qu’on appelle les
sondages d’opinion, les sondages de l’étude de qualité etc.
Deux types d’enquêtes à considérer :
1. Sondage aléatoire : opération qui consiste à donner la même probabilité à tous les éléments de la population pour faire
le sondage.
2. Sondage par choix raisonné :
 Sondage par quota : chaque groupe de la population est représenté par échantillon en même proportion.
 Sondage par unité type : chaque groupe sera représenté par un seul individu moyen qui a les mêmes caractéristiques moyennes de
toute la population.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 12


Chapitre 1. Tableaux statistiques et représentations graphiques (1)

1. Tableaux statistiques

Un tableau statistique décrivant une population P suivant un caractère X se présente en général comme suit :

Caractère X Effectif ni (fréquence absolue) Fréquence fi (relative) Pourcentage fi*100

n1
x1 n1 f1  *100
N
n2
x2 n2 f2  *100
N

… … … …
nk
fk 
xk nK N *100

Total N 1,00 100%

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 13


Chapitre 1. Tableaux statistiques et représentations graphiques (2)

Exemple : cas qualitatif


La répartition du personnel d’une entreprise selon la catégorie socioprofessionnelle est donnée par le tableau suivant :

Catégorie socioprofessionnelle Effectif Fréquence Pourcentage

Ouvriers 40

Employés 35

Cadres 20

Cadres supérieurs 5

Total 100

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 14


Chapitre 1. Tableaux statistiques et représentations graphiques (3)

2. Représentations graphiques

2.1. Caractère qualitatif :Diagramme en tuyaux d’orgue (ou à bandes)

Permet une représentation de la distribution d’une variable statistique selon des rectangles horizontaux ou verticaux ayant
toutes une même base de longueur arbitraire( constante) et une hauteur proportionnelle à l’effectif ( ou à la fréquence).
Exemple:

Répartition des employés selon CSP


45
40
35
30
25
20
15
10
5
0
Ouvriers Employés Cadres Cadres supérieurs

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 15


Chapitre 1. Tableaux statistiques et représentations graphiques (4)

Exemple : cas qualitatif


La répartition géographique de la population marocaine d’après les données du Recensement Général de la Population et de
l’Habitat de 2014 est donnée par le tableau suivant: la population marocaine est égale à 33 848 242 selon le Haut-
Commissariat au Plan
Répartition géographique Population totale Répartition de la population marocaine par régions
Casablanca-Settat 6 826 773
8 000 000
Rabat-Salé-Kénitra 4 552 585
7 000 000
Marrakech-Safi 4 504 767
6 000 000
Fès-Meknès 4 216 957 5 000 000
4 000 000
Tanger-Tétouan-Al Hoceima 3 540 012
3 000 000
Souss-Massa 2 657 906
2 000 000
Béni Mellal-Khénifra 2 512 375 1 000 000
0
Oriental 2 302 182
Drâa-Tafilalet 1 627 269
Casablanca-Settat Rabat-Salé-Kénitra Marrakech-Safi
Guelmim-Oued Noun 414 489 Fès-Meknès Tanger-Tétouan-Al Hoceima Souss-Massa

Laayoune-Sakia El Hamra 340 748 Béni Mellal-Khénifra Oriental Drâa-Tafilalet


Guelmim-Oued Noun Laayoune-Sakia El Hamra Eddakhla-Oued Eddahab
Eddakhla-Oued Eddahab 114 021

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 16


Chapitre 1. Tableaux statistiques et représentations graphiques (5)

Exemple : cas qualitatif diagramme rectangulaire

Répartition de la population marocaine par régions


Répartition géographique Population totale
Casablanca-Settat 6 826 773
Rabat-Salé-Kénitra 4 552 585
Marrakech-Safi 4 504 767
Fès-Meknès 4 216 957
Tanger-Tétouan-Al Hoceima 3 540 012
Souss-Massa 2 657 906
Béni Mellal-Khénifra 2 512 375
Oriental 2 302 182
Drâa-Tafilalet 1 627 269
Guelmim-Oued Noun 414 489
Laayoune-Sakia El Hamra 340 748 Casablanca-Settat Rabat-Salé-Kénitra Marrakech-Safi
Fès-Meknès Tanger-Tétouan-Al Hoceima Souss-Massa
Eddakhla-Oued Eddahab 114 021 Béni Mellal-Khénifra Oriental Drâa-Tafilalet
Guelmim-Oued Noun Laayoune-Sakia El Hamra Eddakhla-Oued Eddahab

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 17


Chapitre 1. Tableaux statistiques et représentations graphiques (6)

2. Représentations graphiques

2.2. Caractère qualitatif : Diagramme circulaire (en secteurs)

Consiste en cercle dont l’aire est décomposée en secteurs représentant respectivement la proportion de chacune des composantes. Chaque
secteur correspond à une modalité, que l’on peut différencier par des couleurs ou des nuances différentes. Pour utiliser cette configuration,
il faut déterminer l’angle au centre de chaque secteur circulaire, angle qui est proportionnel aux fréquences. L’angle au centre étant égal
au produit des fréquences fi par 360°. i  360 f i

Situation familiale d’un groupe de 50 personnes


Veuf (ve)
Etat matrimonial Effectif Fréquence i  360 f i 10%

Célibataire 20 0,4 144°


Divorcé (e ) Célibatire
Marié (e) 15 0,3 108° 20% 40%

Divorcé (e) 10 0,2 72°

Veuf (ve) 5 0,1 36°

Total 50 1,00 360° Marié (e )


30%

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 18


Chapitre 1. Tableaux statistiques et représentations graphiques (7)

2. Représentations graphiques ( diagramme différentiel )

2.3.1. Caractère quantitatif: Diagramme en bâtons (à barres)

A chaque valeur xi de la variable, on fait correspondre un segment vertical de longueur proportionnelle à ni ou à fi selon que l’on veut faire
apparaître respectivement des effectifs ou des fréquences relatives.
Exemple:
Soit un échantillon de 75 ménages, on s’intéresse au nombre d’enfants par ménage.

Enfants/ ménage ni fi fi(%)


Nombre d'enfants par ménage
0 15 0,2 20%
30
1 20 0,27 27% 25

2 25 0,33 33% 20
15
3 10 0,13 13%
10
4 5 0,07 7% 5
0
Total 75 1,00 100% 0 1 2 3 4

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 19


Chapitre 1. Tableaux statistiques et représentations graphiques (8)

2. Représentations graphiques ( diagramme intégral)

2.3.2. Cas quantitatif discret: Digramme en escaliers (courbes cumulatives)

Pour tracer les courbes cumulatives, on utilise l’effectif cumulé croissant/décroissant ou la fréquence cumulé croissante/décroissante.
 L’effectif (fréquence) cumulé (e) croissant d’une valeur (ou classe) est la somme des effectifs (fréquences) de cette valeur (ou de
cette classe) et les effectifs (fréquences) des valeurs (classes) précédentes.
n1c  n1

n2 c  n1  n2
avec 
 ...
n  n  n  ...  n
 ic 1 2 i

nkc  n1  n2  ...  nk
 L’effectif (fréquence) cumulé (e) décroissant d’une valeur (classe) s’obtient en ajoutant à chaque ni (fi) de cette valeur (ou de cette
classe) les effectifs (fréquences) des valeurs (classes) qui la suive. Avec
n1c  n1 n2  ...  nk

n2 c  n2  n3  ...  nk

 ...
n  n  n  ...  n
 ic i i 1 k

nk   nk

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 20


Chapitre 1. Tableaux statistiques et représentations graphiques (9)

2. Représentations graphiques

2.4. Caractère quantitatif: Histogramme

L’histogramme est un digramme en surface. Il se présente comme la juxtaposition de tuyaux d’orgue dont la base est égale à l’amplitude.

A chaque classe (intervalle ou strate) de la variable, on fait correspondre la surface d’un rectangle ayant pour base l’amplitude de classe et

une hauteur proportionnelle à l’effectif (ou à l’effectif corrigé) ou à la fréquence (ou à la fréquence corrigée). Deux cas peuvent se

présenter :

 Lorsque les amplitudes sont égales : la hauteur pour une classe, est égale à l’effectif (à la fréquence) observé (e).

 Lorsque les amplitudes de classes sont inégales : la hauteur pour une strate, est égale à l’effectif corrigé (à la fréquence corrigée).

L’amplitude d’une classe, est égale à la différence entre la borne supérieure et la borne inférieure de cette classe.

ai  bsup  binf
Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 21
Chapitre 1. Tableaux statistiques et représentations graphiques (10)

2. Représentations graphiques

2.4. Caractère quantitatif: Histogramme

Exemple 1 : les amplitudes sont égales

La répartition de 1175 ménages selon le niveau de dépenses est donnée par le tableau suivant :

Histogramme de la répartition des ménages selon leurs dépenses


Dépenses des ménages ni fi
[25, 30 [ 128 0,11
[30, 35 [ 137 0,12
[35, 40 [ 148 0,13
[40, 45 [ 162 0,14
[45, 50 [ 170 0,14
[50, 55 [ 138 0,12
[55, 60 [ 130 0,11
[60, 65 [ 112 0,10
[65, 70 [ 50 0,04
Total 1175 1,00

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 22


Chapitre 1. Tableaux statistiques et représentations graphiques (11)

2. Représentations graphiques

2.4. Caractère quantitatif: Histogramme

Exemple 2 : les amplitudes sont inégales


Lorsqu’au moins deux classes n’ont pas la même amplitude, la construction de l’histogramme ne peut être faite à partir des effectifs (ou
fréquences). En effet, d’après la définition, les classes doivent servir de base à des rectangles d’aires proportionnelles à l’effectif (ou à la
fréquence). Comme elles sont d’amplitudes inégales, les bases des rectangles ne sont pas donc constantes. Il est, de ce fait, nécessaire de
corriger les effectifs (ou les fréquences) pour tenir compte de ces différences. Pour faire cette correction, il existe deux méthodes :

 ni Poids des étudiants ni ai nic nicd


 règle générale : n ic  *
ai 40-50 20


avec  est l ' amplitude la plus fréquente et la plus petite 50-70 40
 n 70-80 25
densité : n icd  i

 ai 80-90 15
Total 100 ///// /////

Les deux dernières colonnes de ce tableau donnent les hauteurs des


rectangles à tracer sur l’histogramme non régulier.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 23


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (1)

Conditions de Yule:
1. Etre définie de manière objective ;
2. Dépendre de toutes les observations et non de certaines d’entre elles seulement ;
3. Avoir une signification concrète et facile à concevoir ;
4. Etre simple à calculer ;
5. Se prête aisément au calcul algébrique ;
6. Etre peu sensible aux fluctuations d’échantillonnage.

1. Mode
Le mode d’une variable statistique est la valeur qui correspond au maximum du diagramme différentiel (diagramme en tuyaux
d’orgue, diagramme en bâtons et histogramme). Dit autrement, C’est la valeur de la variable statistique qui présente l’effectif
le plus élevé (ou la fréquence la plus élevée). Le mode est noté Mo.

Une distribution peut ne pas avoir aucun mode, comme elle peut être unimodale, bimodale ou multimodale.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 24


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (2)

Détermination du mode:
Elle varie selon la nature de la variable statistique considérée.
1.1. Cas d’une variable statistique qualitative ou quantitative discrète
Lorsque la variable est qualitative ou quantitative discrète, le mode est facilement repérable sur le tableau statistique. C’est la modalité (xi)
pour laquelle la fréquence est la plus élevée (ou l’effectif le plus élevé).
Exemple 1
Considérons la distribution des couleurs des voitures dans un parking

Couleur des voitures Blanche Rouge Noire Grise


Effectif 10 2 13 9

L’effectif maximal vaut13, donc le mode est la couleur noire. Cette distribution est unimodale.

Exemple 2
Considérons la distribution des notes d’un groupe d’étudiants.

Notes d’étudiants 08/20 10/20 14/20 18/20


Effectif 4 10 10 2

L’effectif maximal vaut 10. Ici on a deux modes 10/20 et 14/20. Cette distribution est bimodale.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 25


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (3)

1.2. Cas d’une variable statistique quantitative continue


Dans le cas d’une variable quantitative continue, les données sont regroupées en classes (intervalles = strates). Si les classes sont toutes de
même amplitude, une classe modale est celle dont la fréquence ou l’effectif est le plus élevé.
Si les classes ne sont pas de même amplitude, on doit obligatoirement corriger les effectifs ( ou les fréquences) avant de déterminer la classe
modale.
La détermination du mode peut s’effectuer algébriquement ou graphiquement.

Détermination algébrique

Le mode est déterminé en deux étapes :

 Première étape : détermination de la classe modale, c’est-à-dire la classe qui a l’effectif (effectif corrigé) ou la fréquence (fréquence
corrigée) la plus élevée.

 Deuxième étape : détermination de la classe modale. Une fois la classe modale est déterminée, l’approximation de la valeur modale se fait
à l’aide d’une interpolation proportionnelle.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 26


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (4)

On pose :
 M o  Mode

binf  borne inférieure de la classe modale
bsup  borne supérieure de la classe modale

a i  l ' amplitude de la classe modale (a i  bsup  binf )

ni  l ' effectif de la classe modale
ni 1  l ' effectif précedent de celui de la classe modale

ni 1  l ' effectif de la classe post  modale (c'est  à  dire situé juste après la classe modale

Donc le mode égal à :

Cas 1 : les amplitudes (ai) sont égales Cas 2: les amplitudes sont inégales

ni  ni 1 nic  nic 1
M o  binf  ai M o  binf  ai
2ni  ni 1  ni 1 2 nic  nic 1  nic 1
ou ou

fi  fi 1 fic  fic 1
M o  binf  ai M o  binf  ai
2 fi  fi 1  f i 1 2 fic  fic 1  fic 1

Remarque : Le mode est toujours dans la classe modale

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 27


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (5)

Exemple 1

La distribution se rapportant à la répartition des salaires journaliers au sein d’une entreprise est donnée par le tableau suivant :
Tranches de salaires en dhs 150-160 160-170 170-180 180-190
Effectif 20 25 30 20
30  25
M o  170  10
2 * 30  25  20
 173,33 dhs

Le salaire journalier le plus distribué dans cette entreprise est de 173,33dhs.


Exemple 2
La répartition d’un groupe d’étudiants selon le poids est donnée par le tableau suivant : 25  20
M o  70  10
Poids des étudiants ni ai ni c nic d 2 * 25  20  15
40-50 20 10 20 2  73, 33 kg
50-70 40 20 20 2
70-80 25 10 25 2,5 Le poids le plus fréquent (dominant) est de 73,33kg.
80-90 15 10 15 1,5
Total 100 ///// ///// /////

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 28


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (6)

2. Médiane
La médiane d’une variable statistique est la valeur qui divise les individus, supposés rangés par ordre de valeur croissante (ou décroissante) de
la variable, en deux parties égales. La médiane est notée Me

2.1. Détermination de la médiane : cas discret


Il faut ranger les observations par ordre de grandeur croissante ou décroissante :
2.1.1: N est impair
Si le nombre d’observation est impair, la médiane est alors parfaitement déterminée, elle correspond à la (n+1)ème/2 observation de la série
ordonnée. Il y a donc (n-1)/2 observations de chaque côté de Me.

Ou bien on pose n = 2k+1

On détermine k

la Me est alors la (k+1)ème observation.

Exemple: Soient les notes de 11 étudiants suivantes: 11; 10; 8; 9; 13; 6; 14; 8; 8; 10; 10.
La médiane est égal à 10.
Commentaire: 50% des étudiants ayant une note inférieure ou égale à 10 et 50% des étudiants ayant une note supérieure ou égale à 10.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 29


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (7)

2.1.2. N est pair


Si le nombre d’observation est pair, N=2k ; la médiane est déterminée entre deux valeurs possibles consécutives, la kéme et la (k+1)ème, qu’on
appelle intervalle médian.

Exemple: Classons 108 logements en fonction du nombre de pièces d’habitation.

Nombre de pièces par logements Effectif Effectif cumulé croissant

1 15 15
2 17 32
3 22 54
4 22 76
5 17 93
6 15 108
Total 108 /////

La médiane se situe entre la 54ème et la 55ème observation, or la 54ème appartient à la modalité 3, tandis que la 55ème se situe parmi les
3 4
observations rangées au titre de la modalité 4. Donc on parle d’un intervalle médian [3-4[. Me 
2
 3,5

Commentaire: la moitié de logements contient 3 pièces au moins et l’autre moitié contient 4 pièces ou plus. ( on ne peut pas interpréter 3,5 pièces)

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 30


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (8)

2. Médiane
2.2. Détermination de la médiane : cas continu
Comme le mode, la médiane peut être déterminée algébriquement ou graphiquement.
2.2.1. Détermination algébrique

Pour déterminer la médiane, on fait une interpolation linéaire à l’intérieur de la classe médiane.
Première étape : Repérage de la calasse médiane en se basant sur le rang de la médiane (N/2 ou 0,5 en terme de fréquence).

Deuxième étape : Interpolation linéaire

A l’intérieur de la classe médiane on procède à une interpolation linéaire pour déterminer la valeur de la médiane proprement dite.

N
binf  borne inférieure de la classe médiane  ni 1c
 M e  binf  ai 2
bsup  brone supérieure de la classe médiane nic  ni 1c

ni c  l ' effectif dela classe médiane donc n

ni 1c  l ' effectif dela classe situé immédiatement avant la classe médiane 0,5  fi 1c f i

a
 binf  ai (avec i 1
 0,5)
 i  l ' amplitude dela classe médiane fic  fi 1c 2

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 31


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (9)

2. Médiane
2.2.1. Détermination algébrique

Exemple: La répartition d’un ensemble d’entreprise selon le montant des exportations (en 1000 DHs) est donnée comme suit :

Dépenses ni fi f ic f ic Rang de la médiane:  f i


 0,5
2
20-40 372 0,0912 0,0912 1,00
Classe médiane: [60-80[.
40-60 720 0,1765 0,2676 0,9988

60-80 1164 0,2853 0,5529 0,7324


 0,5  0, 2676 
80-100 1080 0,2647 0,8176 0,4471 Donc M e  60  20  
 0,5529  0, 2676 
100-120 492 0,1206 0,9382 0,1824  76, 29 *(1000) DHs
120-140 132 0,0324 0,9706 0,0618

140-150 120 0,0294 1,00 0,0294

Total 4080 1,00 ////// //////

Commentaire: 2040 entreprises (50%) ont un montant des exportations inférieur ou égal à 76290 DHs et 2040 entreprises ont

un montant des exportations supérieur ou égal à 76290 DHs.


Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 32
Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (10)

3. Quantiles ( fractiles)
Définition: La définition des quantiles (quartiles, déciles et percentiles) est fondée sur le même principe que celui de la médiane, car il s’agit
toujours de ranger toutes les valeurs données selon l’ordre croissant (ou décroissant) et de partager ensuite l’intervalle total en quatre (
quartiles) , dix ( déciles) ou cent ( percentiles) sous intervalle équidistants, alors que pour la médiane, le partage se fait seulement en deux
sous intervalles.
3.1. Quartiles
N
Les quartiles partagent la population en quatre parties égales, chaque groupe contient soit 25% des observations. On définit trois quartiles
4
N 3N
 ni 1c Q2  M e  ni 1c
4 Q3  binf  ai 4
Q1  binf  ai
nic  ni 1c  nic  ni 1c 
Exemple: La répartition de 350 ménages selon le coût du loyer du logement, a donné les résultats consignés dans le tableau ci-dessous

coût du loyer Nombre de ménages


300-360 26 Q1= 479: c’est-à-dire que 25% des ménages payent un coût de loyer inférieur ou égal à 479 et 75% des
360-420 32 ménages supportent un coût de loyer supérieur ou égal à 479.
420-480 30
480-540 72 Q2=Me=550,8: ( même commentaire de la médiane)
540-600 82
600-660 35 Q3=635,14: 479: c’est-à-dire que 75% des ménages payent un coût de loyer inférieur ou égal à 635,14
660-720 45 et 25% des ménages supportent un coût de loyer supérieur ou égal à 635,14
720-780 28

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 33


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (11)

3. Quantiles ( fractiles)
3.2. Déciles

Les déciles partagent la population en dix parties égales, chaque partie contient 10% des observations. On définit neuf déciles :

N 9N
 ni 1c  ni 1c
D1  binf  ai 10 ... D5  M e ... D9  binf  ai 10
nic  ni 1c nic  ni 1c
3.3. Percentiles
Les percentiles partagent la population en cent parties égales, chaque partie contient 1% des observations. On définit 99 percentiles :

N 99 N
 ni 1c  ni 1c
C1  binf  ai 100 ... C50  M e ... C99  binf  ai 100
nic  ni 1c nic  ni 1c

Remarque: M e  Q2  D5  C99

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 34


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (12)

4. Médiale
k k

Définition: La médiale est la valeur du caractère X qui partage la masse globale des observations  ni xi (ou n c )
en deux fractions de même i i
i 1 i 1
poids. Sa détermination se fonde sur les nixi (nici) cumulés croissants (décroissants). Sa détermination pourrait aussi -comme la médiane- être
faite algébriquement ou graphiquement.
Désignons par: b  borne inférieure de la classe médiale
inf k
ni ci
bsup  brone supérieure de la classe médiale 
i 1 2
 ni 1ci 1 c
 M l  binf  ai
ni xi c  l ' effectif dela classe médiale ni ci c  ni 1ci 1 c

ni 1 xi 1 c  l ' effectif dela classe médiale situé immédiatement avant la classe médiale
a  l ' amplitude de la classe médiale
 i

Exemple: La distribution des salaires horaires en Dhs des 250 salariés d’une entreprise est donnée par le tableau suivant :
Salaire horaire Effectifs ni Centres des classes ci nici
k
n500
i ci c ni xi 15544

[47,50 - 52,50[ 10 50 500
rang de la médiale:   7772
[52,50 – 57,50[ 30 55 1650 2150 i 1 2 2
[57,50 – 60,50[ 60 59 3540 5690 classe médiale: [60,50 – 63,50[.
[60,50 – 63,50[ 72 62 4464 10154
[63,50 – 67,50[ 40 65,50 2620 12774 7772  5690
M l  60,50  3  61,90 Dhs
[67,50 – 73,50[ 24 70,50 1692 14466 10154  5690
[73,50 – 80,50[ 14 77 1078 15544
Total 250 ////// 15544 ////////

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 35


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (13)

5. Moyennes
5.1. Moyenne arithmétique
Définition: La moyenne arithmétique, notée X , d’une série statistique est la somme de toutes les valeurs observées devisées par le nombre
de ces observations. Une moyenne arithmétique peut être simple ou pondérée
5.1.1. Moyenne arithmétique simple
Soient x1 , x2 ,..., xn les « N » observations de la variable statistique X ; on appelle moyenne arithmétique simple des « N » valeurs x1 , x2 ,..., xn
notée X , le rapport défini par :
x1  x2  ...  xn 1 n
X   xi
N N i 1
5.1.2. Moyenne arithmétique pondérée
On appelle moyenne arithmétique pondérée des « K » valeurs x1 , x2 ,..., xi ,..., xk affectées des « K » coefficients n1 , n2 ,..., ni ,..., nk et on note ,
le rapport défini par :
Cas discret Cas continu
n1 x1  n2 x2  ...  ni xi  ...  nk xk n1c1  n2 c2  ...  ni ci  ...  nk ck
X  X 
n1  n2  ...  ni  ...  nk n1  n2  ...  ni  ...  nk
k k
1 1

N
n x
i 1
i i 
N
n c
i 1
i i

k k
 f i xi  f i ci
i 1 i 1

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 36


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (14)

5. Moyennes
5.1. Moyennes arithmétique
Exemple 1

On donne à titre d’exemple les notes obtenues par 300 étudiants en statistique descriptive, lors d’un test :
Notes ni nixi
1 6 6
3 8 24
5 20 100
6 25 150
1 k 2936
7 32 224 X  
N i 1
ni xi 
300
10 40 400
11 70 770  9, 79
12 45 540
13 38 494
14 12 168
15 4 60
Total 300 2936

Commentaire: La note moyenne des étudiants est égale à 9,79.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 37


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (15)

5. Moyennes
5.1. Moyennes arithmétique
Exemple 2

Le tableau ci-dessous donne la répartition des entreprises selon le chiffre d’affaires en DH

Chiffre d’affaires ni Centre des classes ( Ci ) nici


11750-12000 125 11875 1484375
12000-12250 137 12125 1661125
1 k 16590625
12250-12500 145 12375 1794375 X   ii
N i 1
n c 
1200
12500-13000 245 12750 3123750
13000-14000 232 13500 3132000
 13825, 5208 DHs
14000-15000 160 14500 2320000
15000-20000 110 17500 1925000
20000-30000 46 25000 1150000
Total ////// ////// 16590625

Commentaire: Le chiffre d’affaires moyen de l’ensemble des entreprises est égal à 13825,5208 DHs.
Relation empirique de Karl Pearson: pour les distributions unimodales, modérément asymétriques, il existe entre X , M e et le M o , la
relation empirique suivante:
( X  M o )  3( X  M e )
Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 38
Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (16)

5. Moyennes
5.1. Moyennes arithmétique
Propriétés de la moyenne arithmétique

 Première propriété : La somme des écarts à la moyenne est nulle.


1
i i
n ( x  x )  0 ou
N
 ni ( xi  x)  0
démonstration :
 n ( x  x)   n x   n x
i i i i i où (  ni x  nx )
1
avec x 
N
 ni xi  n x n x
i i i

  ni xi   ni xi  0

Deuxième propriété : La somme des carrés des écarts à la moyenne X est minimale, c’est-à-dire  n (x  a) est minimale pour a =X , a
i i
2

quelconque
1 On dérive par rapport à « a »: g '(a)  2a  2 X  0 Si X  a
soit g (a ) 
N
 ni (x i  a ) 2   f i (x i  a) 2
Ce qui signifie que la moyenne arithmétique est le point le plus proche de l’ensemble des observations.
  fi ( xi  2axi  a )
2 2

 f xi
2
i  a 2  2a X
Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 39
Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (17)

5. Moyennes
La moyenne arithmétique n’est pas applicable dans tous les cas. En effet, pour calculer la moyenne de certaines variables statistiques décrivant
quelques phénomènes particuliers (taux d’accroissement, vitesse moyenne, surface moyenne, moyenne des écarts à une valeur centrale, …), on
doit recourir à d’autres types de moyennes.
5.2. Moyenne géométrique
La moyenne géométrique notée « G » peut être définie comme la racine nième du produit des n valeurs positives de la variable statistique. Tout
comme la moyenne arithmétique, la moyenne géométrique peut être simple ou pondérée.
5.2.1. Moyenne géométrique simple
Soit une série statistique prenant les valeurs x1 ,..., xk la moyenne géométrique de cette série est :
G N x1 . x2 . x3 .... xk  N
x
i

1 k
  x1 . x2 . x3 .... xk  N avec N   ni
i 1
1
  xi  N

Exemple: La moyenne géométrique de 3 nombres x1  5, x2  6, et x3  10 : G  3 5  6  10


 6, 694

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 40


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (18)

5. Moyennes
5.2. Moyenne géométrique
5.2.1. Moyenne géométrique pondérée
Soit une série statistique prenant les valeurs x1 , ..., xk auxquelles correspondent respectivement les effectifs n1 , ..., nk , avec n  n1  ...  . nk .
La moyenne géométrique de cette série est :
Cas discret Cas continu
k

x
k
G 
 i
N n1 n2 ni nk ni
x . x ..... x .... x
1 2 i x
N
i G N n1 n2 ni
c . c ..... c .... c nk
 N c ni
1 2 i x
i 1 i 1
1

 
k
avec N   ni
1
 x . x ..... x .... x  
n1 n2 ni nk
 c1n1 . c2n2 ..... cini .... cxnk
N N
1 2 i x
i 1
1
1
   k ni 
  ci 
k N

  xini 
N

 i 1   i 1 

N.B: La moyenne géométrique est réservée pour le calcul des taux d’accroissement moyens.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 41


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (19)

5. Moyennes
5.2. Moyenne géométrique
Exemple:
Le chiffre d’affaire d’une entreprise a connu les taux d’accroissement suivants : 5% au cours des trois premières années, 9% au cours des deux
années suivantes et 10% au cours de la dernière année. Quel est le taux moyen annuel d’accroissement du chiffre d’affaire de l’entreprise ?

G  6 (0,05)3  (0,09) 2  (0,1)1


 0,0615
Donc le taux d’accroissement recherché est de 6,15%.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 42


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (20)

5. Moyennes
5.3. Moyenne harmonique
définition: La moyenne harmonique notée H, est la valeur de la variable, dont l’inverse est égal à la moyenne arithmétique des inverses de la
variable statistique

5.3.1 Moyenne harmonique simple


N n
Soit une série statistique prenant les valeurs x1, ..., xk, la moyenne harmonique de cette série est : H  n
1
avec N   ni
x
i 1
i 1
i
5.3.2 Moyenne harmonique pondérée
Soit une série statistique prenant les valeurs x1, ..., xk auxquelles correspondent respectivement les effectifs n1, ..., nk, et n = n1 + ... + nk. La
k
N
moyenne harmonique de cette série est : H  k avec N   ni
ni
Exemple

i 1 xi
i 1

Un automobiliste a parcouru le trajet entre Meknès et Agadir selon les vitesses indiquées dans le tableau qui suit :
Tronçons Distances (ni) Vitesses en Km/h (xi)
Meknès-Rabat 138 100
N 748
Rabat- Casablanca 90 110 H  k
  124 Km / h
ni

6, 01
Casablanca- Essaouira 350 140
i 1 xi
Essaouira-Agadir 170 130

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 43


Chapitre 2. Eléments caractéristiques des séries statistiques : les caractéristiques de valeurs centrales (21)

5. Moyennes
5.4. Moyenne quadratique
Définition:

La moyenne quadratique est notée Q. Elle correspond à la racine carrée de la moyenne arithmétique des carrés des valeurs de la variable
statistique. Elle est utilisée pour le calcul de la moyenne des écarts à une valeur centrale.
1
1 k
 1 k

n 
2
Q  i x 2
i  N ni x  2
i
N i 1  i 1 
Exercice de synthèse:
Etant donné un groupe de 15 copies d’examen en statistique, cotées de 0 à 20: { 19, 16, 15, 15, 12, 11, 11, 8, 7, 7, 7, 5, 3, 3, 1}.
Question: Calculer les moyennes arithmétiques, géométriques, quadratiques et harmoniques:

X
n x i i

140
 9,3 , G  (19 *16 *15 *12 *11 *8 *7 *5 *3 *1 )  7,5
1 1 2 1 2 1 3 1 2
1
1 15

N 15
1 1
1 n
  1708  N 15
Q    ni xi2   
2 2
    5,1
 i 1  


10,6 , H
n Remarque: H G X Q
N 15
 xi 2,933854
i

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 44


Chapitre 3. Eléments caractéristiques des séries statistiques : les caractéristiques de dispersion (variabilité) (1)

La connaissance de la tendance d’une distribution statistique est insuffisante pour résumer toutes les caractéristiques. Deux séries statistiques
peuvent avoir les mêmes caractéristiques de position, et correspondant cependant à des observations qui se distribuent très différemment. Il
semble indispensable de recourir aux paramètres de dispersion pour compléter l’étude d’une série. Il s’agit des indicateurs qui mesurent les
fluctuations (variabilité) des valeurs observées autour d’une valeur de tendance centrale.

Pourquoi des caractéristiques de dispersion ?


Imaginons que nous ayons à comparer les salaires horaires accordés à leurs ouvriers par deux entreprises différentes, qui comptent chacune 5
salariés. Les salaires sont exprimés en DH et sont rangés dans l’ordre croissant :
Entreprise 1 : 52 52,80 54,80 56 57,20
Entreprise 2 : 48,80 49,20 54,80 55,60 64,40
Notre comparaison nous conduit d’abord à la détermination des caractéristiques de tendance centrale des deux séries proposées.

52  52,80  54,80  56  57, 20 48,80  49, 20 54,80 55, 60 64, 40


X1   54, 56 Dhs X2   54,56 Dhs
5 5
En plus, Les deux distributions ont même médiane : 54,80Dhs.
Nous constatons que les deux entreprises accordent des salaires dont les distributions ont les mêmes caractéristiques de position. Cependant, on
ne peut pas conclure que les deux entreprises accordent des salaires horaires comparables. Dans l’entreprise B, les mesures sont plus étalées,
plus dispersées que dans l’entreprise A.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 45


Chapitre 3. Eléments caractéristiques des séries statistiques : les caractéristiques de dispersion (2)

Il semble qu’il est intéressent de définir et de calculer des caractéristiques de la dispersion qui permettront de mesurer cette dispersion, et ainsi
de pouvoir comparer les distributions comme les deux cas susmentionnés pour lesquelles les paramètres de tendance centrale se sont avérés être
des instruments insuffisants.

1. Etendue (range)
L’étendue est la différence entre la valeur maximale et la valeur minimale de la variable statistique. Si les modalités x1, x2, . . . xk d’un caractère
sont en ordre de valeur croissante, l’étendue est : E= xk - x1.
2. Ecart absolu moyen ( Ecart arithmétique)
Il s’agit d’une moyenne arithmétique des écarts par rapport à une valeur centrale.
Suivant que les écarts soient pris par rapport à la moyenne ou par rapport à la médiane, nous définissons l’écart absolu moyen par rapport à la
moyenne arithmétique et l’écart absolu moyen par rapport à la médiane.
2.1. Ecart absolu moyen par rapport à la moyenne arithmétique

1
C’est la moyenne des écarts à la moyenne arithmétique. Il est noté : eX 
N
n i xi  x  f i xi  x

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 46


Chapitre 3. Eléments caractéristiques des séries statistiques : les caractéristiques de dispersion (3)

2.2. Ecart absolu moyen par rapport à la médiane


1
C’est la moyenne des écarts à la médiane, on le note eM e   ni xi  M e  f i xi  M e
N
3. Ecarts interquantiles
La définition des intervalles interquantiles suppose la connaissance préalable de la notion des quantiles (chapitre précédent).
3.1. Ecart interquartile
L’intervalle interquartile est la différence du troisième quartile Q3 et du premier quartile Q1. L’intervalle interquartile = Q3-Q1. Ceci dit, que 50%
de la population est répartie sur intervalle de longueur de Q3-Q1.
3.2. Ecart interdécile
L’intervalle interdécile est la différence du neuvième décile D9 et du premier décile D1. L’intervalle interdécile = D9-D1. Ceci dit, que 90% de la
population est répartie sur intervalle de distance de D9-D1.
3.3. Ecart interpercentile
L’intervalle intepercentile est la différence dernier percentile C99 et du premier percentile C1. L’intervalle interdécile = C99-C1. Ceci dit, que 98%
de la population est répartie sur intervalle de distance de C99-C1.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 47


Chapitre 3. Eléments caractéristiques des séries statistiques : les caractéristiques de dispersion (4)

2.2. Ecart absolu moyen par rapport à la médiane


Exemple : Distribution des salaires horaires de 250 salariés.
 L’étendue : E = 80,50- 47,50= 33
Salaire horaire Effectifs ni Ci
ni c ni xi  x  l’écart absolu moyen par rapport à la moyenne :
1 1080,544
[47,50 - 52,50[ 10 50 10 121,760
eX   ni xi  x   4,322176 Dhs
[52,50 – 57,50[ 30 55 40 215,280 N 255
[57,50 – 60,50[ 60 59 100 190,560
Donc en moyenne, les salaires horaires s’écartent d’environ 4,32 Dhs du
[60,50 – 63,50[ 72 62 172 12,672
salaire moyen.
[63,50 – 67,50[ 40 65,50 212 132,960
 L’intervalle interquartile Q3-Q1 est donc 65,05 – 58,625= 6,425Dhs. Ceci dit,
[67,50 – 73,50[ 24 70,50 236 199,776 que la moitié de salaires est répartie sur intervalle de longueur de 6,425.
[73,50 – 80,50[ 14 77 250 207,536  L’intervalle interdécile D9-D1 est donc 70,75 – 55 = 15,75Dhs. Ceci dit, que
Total 250 ///// ///// 1080,544 90% de salaires est répartie sur intervalle de longueur de 15,75.
4. Variance, écart type et coefficient de variation
4.1. Variance
La variance est la moyenne arithmétique des carrés des écarts des valeurs de la variable à leur moyenne arithmétique. Autrement dit, est la
moyenne du carré moins le carré de la moyenne. On la désigne par .
k k
1
V ( x) 
N
 n ( x  x)   f ( x  x)
i 1
i i
2

i 1
i i
2

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 48


Chapitre 3. Eléments caractéristiques des séries statistiques : les caractéristiques de dispersion (5)
Formule développée de la variance
Théorème de Koenig : k
1
V ( x)   ni ( xi  x) 2
N i 1
1 k
  ni  xi2  2 xi x  x 
2

N i 1  
k k k
1 1 1
  n
2
 n x  2 2
x
i i n x
i i  x i
N i 1 N i 1 N i 1
k
1
 ni xi2  x
2

N i 1
2
 x2  x

4.2. Ecart type ( écart quadratique moyen)


C’est la moyenne quadratique des différences à la moyenne arithmétique. Dit autrement, c’est la racine carrée de la variance. On le note  x
1
1 k
1 k
 k

   f ( x  x)
2
x  ni ( xi  x)  
2
ni ( xi  x)  
2
i i
2

N i 1 N i 1  i 1

L’écart type permet de dire que les données sont situées en général dans l’intervalle [ X   x , X   x ]

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 49


Chapitre 3. Eléments caractéristiques des séries statistiques : les caractéristiques de dispersion (6)
4.3. Coefficient de variation
x
C’est le rapport de l’écart type à la moyenne arithmétique. On le note Cv. Cv  100
x
Ce coefficient est un nombre sans dimension, qui neutralise l’unité et permet de comparer deux ou plusieurs séries statistiques.
Exemple : distributions des salaires horaires de 250 salariés.
k
Salaire horaire Effectifs ni Ci ci  x (ci  x) 2
n i (ci  x) 2
 La variance V: ( x)  1  n (c  x )
i i
2

8816, 2560
 35, 2650
N i 1 250
[47,50 - 52,50[ 10 50 -12,176 148,2549 1482,5497
[52,50 – 57,50[ 30 55 -7,176 51,4949 1544,8492  L’écart type  35, 2650   5,94
[57,50 – 60,50[ 60 59 -3,176 10,0869 505,2185
[60,50 – 63,50[ 72 62 -0,176 0,0309 2,2302 Les salaires horaires s’écartent en général de 35,2650 du
[63,50 – 67,50[ 40 65,50 +3,324 11,0489 441,9520 salaire moyen.
[67,50 – 73,50[ 24 70,50 +8,324 69,2889 1662,9354
[73,50 – 80,50[ 14 77 +14,824 219,7509 3076,5136
Total 250 ///// 8816,2560

5. Moments
n
5.1. Moments non centrés 1
m 
'
r
N
x
i 1
r
i (données non groupées )
Le moment non centré d’ordre r d’une variable statistique est la quantité : k k
1

N
n x  f x
i 1
i
r
i
i 1
i
r
i ( données groupées ( pondérées ))
k k
1

N
n c   f c
i 1
i
r
i
i 1
i
r
i ( caractère continu )

Pr. D. OUAHID
Pr. D. OUAHID Statistique descriptive Année
Statistique universitaire 2022-2023
descriptive 47 50
Chapitre 3. Eléments caractéristiques des séries statistiques : les caractéristiques de dispersion (7)
r  0, m0'  1
r  1, m1'  X
Pour 2
r  2, m2'  V ( x )  X  Q 2

5.2. Moments centrés


1 n
On appelle moment centré d’ordre r du caractère X, la quantité : mr   ( xi  x) r ( données non groupées )
N i 1
r  0, m0  1 1 k k
  n i ( xi  x)   fi ( xi  x) r ( données groupées)
r

Pour r  1, m1  0 (cas d ' une distribution symétrique) N i 1 i 1

r  2, m 2  V ( x) 1 k k
 
N i 1
n (
i ic  x ) r
 
i 1
fi (ci  x) r ( caractère continu )

Remarque: Les moments centrés d’ordre 3 et 4 sont réservés pour l’asymétrie et l’aplatissement.
6. Boîte à moustaches
Cette boite est aussi appelée diagramme en boîte (boîte à pattes, la boite de Tykey, boxplot). Elle permet de figurer le profil essentiel d’une
distribution statistique en se basant sur les informations fournies par les trois quartiles et l’étendue.
Le diagramme est formé d’un rectangle ayant pour extrémité inférieure le Q1 et pour extrémité supérieure Q3. A l’intérieur de ce rectangle, on
trace un segment représentant la médiane. A gauche et à droite de ce rectangle, on trace deux segments appelés « moustaches » inférieur et
supérieur et qui ont pour extrémité respectivement les deux valeurs pivots :

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 51


Chapitre 3. Eléments caractéristiques des séries statistiques : les caractéristiques de dispersion (8)
3
Pg  Q1  (Q3  Q1 )
2
3
Pd  Q3  (Q3  Q1 )
2

Pour atténuer l’effet des données aberrantes (atypiques) sur la construction de la boîte à moustaches, on calcule les valeurs adjacentes :

X min  X g  Pg
X max  X d  Pd

Xmin Q1 Q2=Me Q3 Xmax


Cette boîte permet de comparer la dispersion des observations ayant une valeur supérieure à la médiane avec celle des observations ayant une
valeur supérieure à la médiane.

Remarque: Une valeur est atypique si elle dépasse de 1,5 fois l’écart interquartile au dessous du premier quartile ou au dessus du troisième
quartile.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 52


Chapitre 4. Eléments caractéristiques des séries statistiques : les caractéristiques de forme et de concentration (1)

Pour compléter l’étude des séries statistiques on va décrire, d’une part, leurs représentations graphiques au moyen de deux caractéristiques
essentielles à savoir l’asymétrie et l’aplatissement et d’autre part, d’examiner la concentration de leurs observations autour d’une valeur centrale
(généralement la moyenne arithmétique).
1. Paramètres de forme
1.1. Asymétrie
Une distribution est dite symétrique, si les valeurs observées se répartissent dans les mêmes proportions de part et d’autre des trois valeurs de
position : la moyenne arithmétique, la médiane et le mode.
1.1.1. Coefficients d’asymétrie
 Comparaison des paramètres de tendance centrale (Mo, Me et X )
M o  M e  X Distribution asymétrique à droite

 M o  M e  X Distribution symétrique
 X  M M Ditribution dissymétrique à gauche
 e o

 Dissymétrie à droite = asymétrie à droite = étalée à droite = oblique à gauche


 Dissymétrie à gauche = asymétrie à gauche = étalée à gauche = oblique à droite
 Coefficient de Yule
Le coefficient d’asymétrie de Yule est basé sur les positions des trois quartiles et est normalisé par l’écart interquartile. Il est calculé à partir de
la formule suivante :

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 53


Chapitre 4. Eléments caractéristiques des séries statistiques : les caractéristiques de forme et de concentration (2)

(Q3  M e )  (M e  Q1 )
Cy 
(Q3  M e )  (M e  Q1 ) C y  0, série dissymétrique à droite
(Q3  M e )  (Q1  M e ) 
  C y  0, série symétrique
(Q3  Q1 )

Q3  Q1  2 M e C y  0, série asymétrique à gauche

Q3  Q1
 Coefficient de Pearson
Ce coefficient analyse la position de deux valeurs centrales (le mode et la moyenne arithmétique), relativisé par l’écart type de série :

C p  0 , série dissymétrique à droite


X  Mo 
Cp   C p  0, série symétrique
X 
C p  0, série asymétrique à gauche
 Coefficient de Fisher
Le coefficient d’asymétrie de Fisher est basé sur le moment d’ordre 3 et est normalisé par le cube de l’écart-type. Il est calculé à partir de la
formule suivante :
 as  0 , série dissymétrique à droite 1 N

 as 
m3 
  as  0, série symétrique
avec m3 
N
 n ( x X )
i 1
i i
3

 X3   0, série asymétrique à gauche


 as

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 54


Chapitre 4. Eléments caractéristiques des séries statistiques : les caractéristiques de forme et de concentration (3)

1.2. Aplatissement
L’aplatissement d’une distribution est lié à la dispersion plus ou moins importante des observations autour des valeurs centrales.
 Le coefficient de Fisher d’aplatissement
Le coefficient d’aplatissement mesure le degré d’aplatissement d’une distribution. On l’obtient à partir du moment centré d’ordre 4.
 ap  0, Distribution leptokurtique
m4  1 N
 ap 
 4
 3,    ap  0, Distribution mesokurtique

avec m4 
N
 n ( x X )
i i
4

 ap  0, Distribution platykurtique
X i 1

 D. Leptokurtique ( ou distribution pointue)


 D. mesokurtique ( distribution normale)
 D. platykurtique ( distribution aplatie)
2. Paramètres de concentration
L’étude de la concentration a pour objet de mettre en évidence et de mesurer les inégalités de répartition. Dit autrement, ces paramètres nous
renseignent sur qui détient quoi en calculant la densité des variables autour d’une valeur centrale. Il existe deux méthodes de détermination de la
concentration :
1. Détermination algébrique par le calcul de l’écart médial ;
2. Détermination graphique à l’aide de la courbe de concentration.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 55


Chapitre 4. Eléments caractéristiques des séries statistiques : les caractéristiques de forme et de concentration (4)

1.2. Aplatissement
1.2.1. Ecart médial
Cet écart est déterminé par l’écart (Médiale – Médiane) rapporté à l’étendue.

 si cet écart tend vers 100%, la concentration est forte


 si cet écart tend vers 50%, la concentration est moyenne
Ml  Me 
EM  100 
Etendue  si cet écart tend vers 0%, la concentration est alors faible
 si EM  0%, on setrouve alors dans situation d 'égalité parfaite

1.2.2. Détermination algébrique


Il s’agit de la construction d’une courbe dite de concentration et de la détermination d’un ratio : l’indice de Gini (indice de concentration).
 Courbe de concentration et indice de Gini
 Courbe de concentration
Elle se construit sur un repère orthonormé à partir des fréquences cumulées relatives :
1. En abscisse : les fréquences cumulées relatives croissantes des effectifs ( fic ) ;
ni xi
2. En ordonnées : les qic cumulées croissantes avec qi 
 ni xi
On construit la courbe de concentration appelée aussi courbe de Lorenz point par point. Chaque point de la courbe a pour abscisse une valeur de
fic et pour ordonnée la valeur de qic
Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 56
Chapitre 4. Eléments caractéristiques des séries statistiques : les caractéristiques de forme et de concentration (5)

 Indice de Gini
On appelle indice de concentration ou indice de Gini le rapport entre la surface de concentration (surface comprise entre la droite
d’équirépartition (1ère bissectrice) et la courbe de Lorenz et celle du triangle OAB. L’indice de Gini noté IG :
k
surface de concentration
IG   1   ( qi 1  qi ) f i
surface du triangle OAB i 1

Ce rapport est un nombre sans dimension indépendant de l’unité dans laquelle sont exprimées les valeurs de la variable. Il est compris entre zéro
(concentration nulle = égalité parfaite) et un (concentration maximale = inégalité parfaite). Il peut également être exprimé en pourcentage.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 57


Chapitre 4. Eléments caractéristiques des séries statistiques : les caractéristiques de forme et de concentration (6)

Remarque :
 IG  0  La courbe de Lorenz se confond avec la droite OB : égalité parfaite.
 La masse totale est uniformèment répartie sur chaque individu.

0  IG  1  La courbe de Lorenz partage le triangle OAB en deuxsurface.

 Plus cette droite se déplace vers le bas, plus la concentration est plus forte
 IG  1  la courbe de Lorenz est donnée par les segments OA et AB.

 C ' est le cas d ' un seul individu concentre toute la masse

Exemple
Dans une entreprise les 670 factures établies durant un trimestre, ont été classées selon leur montant. Les résultats sont présentés dans le tableau
suivant :
ML  Me 1750  135
 L’écart entre la médiale et la médiane : E M   100   100
Etendue 10000
Montant des factures en DH Nombre de factures
et donc cet écart est égal à 16,5%.
0-50 160
50-100 140
k
100-200 100
 L’indice de Gini IG  1   (qi 1  qi ) fi  1  0, 2710  0, 7290. La concentration
200-300 80 i 1
300-500 70 (72,9%) est très forte. Ce qui signifie qu’une proportion très élevée de la
500-1000 50
1000-2000 40 masse totale du chiffre d’affaires est réalisée par un petit nombre de factures
2000-5000 20
5000-10000 10 (en l’occurrence celles appartenant aux deux dernières classes).

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 58


Chapitre 5. Indices statistiques (1)

Dans le domaine de la science économique et sociale, les grandeurs représentatives de phénomènes varient dans le temps et dans l’espace. Il est
souvent très difficile de procéder à la comparaison de ces grandeurs à partir du tableau statistique. Lorsque les séries statistiques sont
importantes, il est plus commode pour bien les lire et pour en effectuer les comparaisons nécessaires d’utiliser les indices statistiques.

Un nombre indice est une abstraction, construite d’une manière synthétique, à partir des éléments d’un ensemble. Par définition, lorsqu’une
grandeur est susceptible de varier, le rapport entre deux états de cette grandeur constitue un indice. Donc l’indice statistique est le rapport
exprimé en pourcentage, d’une mesure portant sur une période donnée, dite période courante, à la mesure analogue pour une période de
comparaison, dite période de base. Les mesures peuvent concerner soit des quantités, des prix ou des valeurs.
Lorsque la grandeur étudiée ne prend qu’une seule valeur à différentes dates ou sur différents espaces elle est appelée grandeur simple. Les
indices que l’on calcule sur les grandeurs simples sont appelés indices statistiques élémentaires.
Il existe des grandeurs complexes composées des grandeurs simples. Les rapports obtenus sur les grandeurs complexes sont des indices
synthétiques.
1. Indices élémentaires
On appelle indice élémentaire le nombre sans dimension résultant du rapport de deux valeurs prises par une même grandeur simple à deux dates
différentes, soit sur deux espace différents.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 59


Chapitre 5. Indices statistiques (2)

Soit Gt la valeur de la variable au temps t appelé aussi date courante. G0 la valeur de la variable au temps t=0 appelé aussi date de base ou date de
référence. L’indice « I » s’écrit :
 I  à 100% il y a une augmentation entre les périodes t et t  0
 t0
G 
I t (G )  t 100   I t  100% l ' indice est resté constant entre les périodes t et t  0
0 G0  0
 I t  à 100% il y a une dim unition entre les périodes t et t  0
 0

Pour les indices spatiaux, on conserve toujours la même spécification, seulement pout t=0 on parle de situation de base(ou état de référence). La
situation « t » est dite situation courante.
1.1. Propriétés des indices élémentaires
 Transitivité ou circularité: I t 0 (G)  I t t ' (G)  I t ' 0 (G) (t, t')

 Enchaînement (généralisation de la transitivité) : I t 0 (G)  I1 0 (G)  I 2 1 (G)  ...  I t (G )


t 1
1
 Réversibilité : I t 0 (G) 
I 0 t (G)
 Factorité : Soit I  X  Y si on a X t (G ) et Y t (G )  I t (G )  X t (G )  Y t (G )
0 0 0 0 0

 Proportionnalité: Si entre la période de base et la période courante la grandeur simple et multipliée par une constante k, l’indice élémentaire
est multiplié par k. Gt k  G0
Gt  k  G0  I t (G )   100   100  k  100
0 G0 G0

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 60


Chapitre 5. Indices statistiques (3)

2. Indices synthétiques
 Si l’étude porte sur plusieurs grandeurs étudiées simultanément o utilise les indices synthétiques. L’objet est de traduire les variations d’une
grandeur G complexe composée de sous-ensembles G1, G2, … Gn.
Les formules d’indices synthétiques sont extrêmement nombreuses. Dans la pratique elles se réduisent à un petit nombre de types dont les
principaux sont ceux de Laspeyres, de Paasche et de Fisher.
D’une manière générale, ces indices synthétiques sont des moyennes pondérées d’indices élémentaires. C’est-à-dire de rapports entre deux états
de la grandeur G mesurée à la date de base et à la date courante Git
Git Gi 0
Du point de vue économique, les rapports sont généralement:
Gi 0
 Soit des rapports de prix ;
 Soit des rapports de quantité ;
 Soit des rapports de valeur (valeur c’est le prix multiplié par la quantité).
2.1. Indice de Laspeyres
L’indice synthétique proposé par Laspeyres est la moyenne arithmétique pondérée des indices élémentaires par les coefficients de pondération
de la période de base « 0 ». L’indice de Laspeyres qu’on désigne par L se définit de la façon suivante :
 Pour le prix on a : pit
(p q ) p
i0 i0
p q
Lt ( p)  i0
100  it i 0
 100
0
p q
i0 i0 p q
i0 i0

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 61


Chapitre 5. Indices statistiques (4)

 Pour les quantités on a :


qt
 ( p0 q0 ) q0 pq
L t (q)  100  0 t
100
0
 p0 q0 pq0 0

 Pour les valeurs on a:


qt pt
(p q ) q
0 0
pq
0 p0
Lt (V )  100  t t
100
0
pq 0 0 pq 0 0

2.2. Indice de Paache


L’indice synthétique proposé par Paasche est la moyenne harmonique pondérée des indices élémentaires par les coefficients de pondération de
période courante (ou actuelle). L’indice de Paasche qu’on désigne par P, se définit de la façon suivante :

pq  p q 100
Pour les prix :
Pt ( p )  t t
100  t t

0
 ( p q )
t t
p 0 (p q ) 0 t
p t

Pour les quantités:


Pt (q) 
pq t t
100 
 p q 100
t t

0
 ( p q )
t t
q 0 (p q ) t 0
q t

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 62


Chapitre 5. Indices statistiques (5)

 Pour les valeurs on a:

Pt (V ) 
pq t t
100 
 p q 10
t t

0
(p q ) p q
t t
p0 q0 (p q )
0 0

t t

Remarque: On a Pt (V )  L t (V )
0 0
2.3. Indice de Fischer
L’indice de Fisher est la moyenne géométrique des deux indices synthétiques de Laspeyres et de Paasche. Cet indice est donc compris entre les
1
indices de Laspeyres et de Paasche. F  L  P  ( L  P) 2

Exemple:
Le tableau suivant récapitule pour deux périodes 2017 et 2018 les prix et les quantités de quatre produits.
13
I18 17 p (A)   100  130%  augmentation de 30% entre 2017 et 2018.
10
2017 (période t=0) 2018 (période t)
Produit
Prix quantité prix quantité L18 (p) 
p q
18 17
 100  112, 5%  augmentation de12, 5% entre 2017 et 2018.
A 10 10 8 13
17
p 17 q17

B 8 20 10 15
P18 (q) 
p q
18 18
 100  124,12%  augmentation de 24,12% entre 2017 et 2018.
C 4 50 6 60 17
p 18 q17
D 20 5 24 7
L18 (v)  P18 (v)  Fv 
p q
18 18
 100  139, 64  augmentation de 39, 64% entre 2017 et 2018.
17 17
p q
17 17

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 63


Chapitre 6. Etude des liaisons entre deux variables statistiques (1)

Au cours des chapitres précédents (1, 2, 3, 4), l’étude a porté sur les méthodes permettant le traitement de l’information relative à une seule
variable statistique (ou à un seul caractère). Toutefois, lorsqu’il s’agit de variables économiques et sociales, il est intéressant que l’étude porte
simultanément sur deux variables d’une même population.
L’étude statistique peut donc se porter sur deux caractères présents dans tous les membres de la population. Ces deux caractères sont représentés
par deux variables X et Y. On peut utiliser l’information dont on dispose pour étudier la liaison qui existe éventuellement entre ces deux
caractères.
L’intérêt de ce chapitre est outre l’approfondissement de l’information par rapport aux chapitres susmentionnés, de déceler l’existence d’une
éventuelle liaison entre deux variables, de déterminer le sens de cette liaison et de mesurer son intensité. Etudier la liaison entre deux variables
X et Y revient à examiner leur plus ou moins grande dépendance.
1. Représentation graphique du nuage de points
On cherche à étudier la liaison pouvant exister entre les variables X et Y. pour ce, on représente dans un repère orthogonal les points (Xi, Yi).
L’ensemble de ces points s’appelle « nuage de points ». La forme de ce nuage de point nous renseigne sur la nature de la liaison entre X et Y et le
type de courbe qui ajustera le mieux, ce nuage. On s’intéresse au cas où cette courbe est une droite.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 64


Chapitre 6. Etude des liaisons entre deux variables statistiques (2)

Exemples de représentations graphiques du nuage de points


L’analyse visuelle de ce nuage de points nous permet de dire qu’il existe une relation positive entre X et Y. Pour cette relation l’ajustement
linéaire peut sembler légitime.
2. Notion de covariance
La covariance est un indicateur qui nous renseigne sur le sens de liaison entre les deux variables X et Y. La covariance (X, Y) est donnée par la
formule suivante :
cov( X i , Yi ) 
1
N
 i
( X  X )(Yi  Y ) 
1
N
 
 X iYi  N X Y si
cov( X , Y ) est positive, les deux variables X et Y varient dans le même sens

cov( X , Y ) est négative, les deux var iables Xet Y varient en sens inverse.

3. coefficient de corrélation linéaire de Pearson


Ce coefficient sert à mesurer la relation (la dépendance linéaire, l’intensité ou l’évolution commune) entre les deux variables X et Y.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 65


Chapitre 6. Etude des liaisons entre deux variables statistiques (3)

Le coefficient de corrélation linéaire associé à X et Y, que l’on note r est donné par :

cov(X i , Yi )
r
V ( X )V (Y )
r  0, la liaison linéaire est positive (croissante)

 ( X i  X )(Yi  Y ) avec 1  r  1 . Si

r  0, indépendance totale entre X et Y (absence de relation linéaire)
 ( X  X )  (Y  Y )
i
2
i
2
r  0, la relation est négative (décroissante)


 X Y  N XY
i i

 X  N X  Y  NY
2 2 2 2
i i

4. Ajustement linéaire
L’ajustement du nuage de points obtenu consiste à déterminer la fonction de liaison entre X et Y sous la forme Yi  aX i  b . Il s’agit de
déterminer parmi toutes les droites celle qui est la plus proche de tous les points.
4.1. Méthode de moindres carrés ordinaires (MCO)
Cette méthode consiste à déterminer l’équation d’une droite telle que la somme des carrés des distances entre les points du nuage et cette droite
soit minimale.
Le problème se ramène à l’estimation des paramètres a et b de la droite en minimisant la somme des carrés des écarts entre les Yi (les valeurs

observées) et les Y données par la droite d’ajustement D (les valeurs ajustées).
i

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 66


Chapitre 6. Etude des liaisons entre deux variables statistiques (4)

On a Yi  b  aX i   t
 Y: s’appelle variable expliquée ou variable endogène ou encore variable dépendante. C’est variable aléatoire observable.
 X: s’appelle variable explicative ou variable exogène ou encore variable indépendante. C’est une variable déterministe observable.
  t : s’appelle la perturbation ou encore le bruit. C’est une variable aléatoire non observable.
 a et b sont les paramètres de la droite ; ils sont non aléatoires mais ils sont inconnus : il faudra donc les estimer.
Le programme de minimisation s’écrit comme suit :

min b,a S  min b,a   t2  min b,a  Yi  (aX i  b)


2

La solution de ce système est donnée par les conditions du premier ordre et de deuxième ordre :
S S S S
1. 0   2 (Yi  aX i  b)  0 2. 0   (Yi  aX i  Yi  a X )
b b a a
  Yi  a  X i  nb  0   (Yi  Yi )  a ( X i  X )) 2

 Yi  a X i  b   2  ( X i  X ) (Yi  Y )  a ( X i  X ) 

b Y a X
 
 a
 (X  X )(Y  Y )   X Y  N X Y
i i i i

 (X  X )
i
2
X NX i
2 2

Suivant la valeur estimée « a », la courbe aura une pente ascendante ou descendante.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 67


Chapitre 6. Etude des liaisons entre deux variables statistiques (5)

4.2. Droite d’ajustement linéaire


C’est une droite qui ajuste au mieux un nuage de points. C’est-à-dire la droite la plus proche de tous les points (Xi, Yi).
 
La droite de régression (de droite d’estimation) de Y à partir de X est donnée par la relation suivante :DY ( X )  Yi  a X i  b
 cov(X i , Yi )  (X i  X )(Yi  Y )  X iYi  N X Y
a  
Avec V (X )  i( X  X ) 2
 X 2

i N X
2

 
b Y  a X

 
Par analogie on pourra obtenir l’équation de la droite de régression de X par rapport à Y: DX (Y) X i  a ' Yi  b '
 cov(X i , Yi )  (X i  X )(Yi  Y )  X iYi  N X Y
a'   
Avec V (Y)  i ( X  Y ) 2
 Y i
2
 NY
2

 
b'  X  a' Y
Exemple
Deux variables X et Y présentées comme suit :
 Le coefficient de corrélation linéaire r  72, 22% Ceci montre qu’il y a une forte
X Y dépendance (liaison = relation = corrélation) linéaire entre X et Y.
12 7
10 4  
14 8  La droite de régression DY ( X )  Yi  a X i  b : Yi  0,5217 X i  0, 217
5 4
 X i  Yi  5
 
9 2  La droite de régression DX (Y) X i  a ' Yi  b ' :

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 68


Références bibliographiques

[1]. Cluzel, R. & Vissio, P. (1970). « Statistique et Probabilités », Edition Delagrave.

[2]. Diouri, M, & El Maroum, A. (2006). « Statistique Descriptive, Cours et Exercices », Edition TOUBKAL et l’Institut
Supérieur du Génie Appliqué, IGA.

[3]. Dupont, R. & Fleury, J. (1986). « Probabilités, Statistiques- Programmation linéaire », Edition Vuibert, Mars.

[4]. Grais, B. (1991). « Statistique Descriptive », Edition DUNOD, 3ème édition.

[5]. LABROUSSE, C. (1972). « Statistique, Exercices corrigés avec rappels de cours », Edition DUNOD

[6]. Lazar, Ph. & Schwartz, D. (1974). « Eléments de probabilités et Statistiques », Edition Flammarion.

[7]. Léonard, J. Kakmeir. (1982). « Statistique de la gestion : Théorie et Problèmes », Edition Montréal.

[8]. Masièri, W. (1988), « Statistique et Calcul des Probabilités », Edition SIRY, 6ème édition.

[9]. Pougotchev, V. (1983). « Théorie des Probabilités et Statistique Mathématique », Edition de Moscou.

Pr. D. OUAHID Statistique descriptive Année universitaire 2022-2023 69

Vous aimerez peut-être aussi