Académique Documents
Professionnel Documents
Culture Documents
Cours de statistique
descriptive
L1 LMD
INTRODUCTION
OBJECTIF DU COURS
L’objectif de la statistique réside dans le fait que La statistique est un outil mathématique qui s’impose
c’est une science qui permet d’initié les étudiants aux dans toutes les disciplines.
techniques et méthodes utilisées en statistique pour D’abord développer dans les affaires publiques, son
récolter les données fiables sur une population influence se maintenant étendu à l’agriculture, à la
restreinte et traiter des données quantitatives envie de biologie, à la chimie, l’économie, la médecine etc.
faciliter la prise de décision C’est par une étude statistique que l’économiste établit
ces prévisions, le médecin évalue l’efficacité de
nouveaux produits et identifié les maladies
caractéristiques d’une région
En d’autre terme, c’est la statistique qui nous permet
d’organiser les données d’observations, de dégager les
tendances cacher ou de régulariser là ou apparemment
règne un désordre ou une confusion et de tirer les
conclusions rigoureuses
On s’intéresse à des unités statistiques ou unités
d’observation, par exemple : des individus, des
entreprises, des ménages. En sciences humaines, on
s’intéresse dans la plupart des cas à un nombre fini
d’unités, Sur ces unités, on mesure un caractère ou une
variable, le chiffre d’affaire de l’entreprise, le
revenu du ménage, l’âge de la personne, la catégorie
socioprofessionnelle d’une personne. On suppose que la
variable prend toujours une seule valeur sur chaque unit
CHAPITRE 1 : GENERALITES ´. Les variables sont désignés par simplicité par une
lettre (X, Y, Z).
Les valeurs possibles de la variable, sont appelées
1. Définition des termes
modalités. L’ensemble des valeurs possibles ou des
modalités est appelé le domaine de la variable. On
A. Statistique distingue :
– Variable qualitative : La variable est dite
Le mot statistique a deux sens : qualitative quand les modalités sont des
catégories.
Statistiques : qui désignent des collections des
– Variable qualitative nominale : La variable est
chiffres ou des données numériques présenté
dite qualitative nominale quand les modalités ne
parfois sous forme des tableaux relatifs à un même
peuvent pas être ordonnées.
phénomène.
– Variable qualitative ordinale : La variable est
Exemple : statistique de naissance de la ville de
Matadi pour une période de 10 ans dite qualitative ordinale quand les modalités
peuvent être ordonnées. Le fait de pouvoir ou non
Statistique qui est une science au sujet de cette ordonner les modalités est parfois discutable. Par
dernière beaucoup de définition peuvent être exemple : dans les catégories
proposées mais nous retenons celle qui englobe le socioprofessionnelles, on admet d’ordonner les
tout et qui est claire : la statistique est un modalités : ouvriers, employés, cadres. Si on
ensemble des méthodes scientifiques à partir de ajoute les modalités sans profession, enseignant,
quel on organise, on résume, on présente et on artisan, l’ordre devient beaucoup plus discutable.
analyse de donner et qui permet d’en tirer les – Variable quantitative : Une variable est dite
conclusions et de prendre les décisions quantitative si toutes ses valeurs possibles sont
judicieuses. numériques.
– Variable quantitative discrète : Une variable est
B. Variables dite discrète, si l’ensemble des valeurs possibles
est dénombrable.
2019 2
C. Population et échantillon 2020 5
2021 6
1. Population 2022 8
On appelle population, tout ensemble soumis à une étude Les séries statistiques simples : elles indiquent
statistique. Lorsqu’on veut connaitre par exemple la tout simplement la distribution des effectifs pour
taille moyenne des étudiants d’une classe ; l’ensemble
chaque valeur de caractère ou variable
des étudiants de cette classe constitue la population
2. Echantillon Exemple : 2, 5, 6, 7, 19
Est un groupe représentatif de la population soumise à Les séries statistiques à terme groupe : il s’agit
une étude. Nous pouvons chercher à connaitre la taille de données groupées en classe
moyenne des étudiants de l’ISC Matadi ; mais il nous
sera difficile de mesurer la taille de chaque étudiant F. Paramètre statistique
et ensuite calculer la taille moyenne. On va se
contenter d’examiner un petit groupe, ce petit groupe On appelle un paramètre la caractéristique d’un
qui est un sous-ensemble de la population s’appelle phénomène mathématique moyenne médian par exemple obtenu
« échantillon » à partir d’une population
Une statistique est une caractéristique d’un phénomène
D. Cas observation, fréquence, effectif mathématique moyenne médian par exemple obtenu à partir
d’un échantillon
En considérant chaque valeur que prend une variable, on
peut chercher à saisir combien d’individus ont cette 2. Division de la statistique
valeur. Le nombre d’individus qu’on cette valeur est
appelée fréquence, nombre de cas d’observation ou Le champ de la statistique que nous avons décrit ci-
effectif dessus comprend des données qui peuvent être réparties
en deux catégories. Il y a des données de la statistique
E. Série ou distribution statistique descriptive et celle de la statistique inductive.
Une série ou une distribution statistique c’est a. La statistique descriptive : elle se limite à
l’ensemble des données numériques relatives à un décrire ou à analyser une population donnée, mais
phénomène. On peut distinguer : sans tirer de conclusion sur une population plus
Les séries chronologiques : permettent de suivre grande. Elle est aussi appelée statistique
l’évolution d’un phénomène dans le temps déductive
Exemple : production du riz en tonne
Années Tonnes
b. La statistique inductive ou mathématique : elle se - Observation directe et observation indirecte :
base sur des probabilités pour établir des implique observer les phénomènes et les conditions
conclusions. Elle nous dira comment les valeurs qui l’entourent unité par unité. Nous effectuerons
(moyenne médian ; écart-type …) obtenu à partir une observation indirecte lorsqu’à partir des
d’un petit groupe d’individu (échantillon) données statistiques déjà connues pour un certain
représenter avec une certaine probabilité seul du fait ou phénomène, nous déduisons des données
grand groupe (population) d’où est tiré ce groupe statistiques relatives à un autre fait
restreint
- Observation exhaustive ou partielle : lorsqu’elle
porte sur la totalité des éléments de la
population. Si l’observation porte seulement sur
une partie de la population, partie appelée
CHAPITRE 2 : COLLECTE DES DONNEES ET échantillon, l’observation est dite partielle
PRESENTATION DE DISTRIBUTION STATISTIQUE - Obtention des données moyennant un questionnaire :
très utilisé pour l’obtention des données
2.1 Collecte de données
statistiques.
Toute analyse qui nécessite l’utilisation de données
La rédaction du questionnaire doit être soigneusement
commence par la collecte. Il y’a à cette effet deux
élaborée. Ainsi, un bon questionnaire doit remplir
sources :
certaines normes telles que : adéquation au niveau
culturel des interrogés ; clarté dans les questions ;
2.1.1 Sources des données
le questionnaire doit être complet ; discrétion ;
Les services de l’Etat, les entreprises et les vérification
organismes spécialisés, forment ensembles les sources
administratives 2.1.3 Elément constitutif d’un tableau
Les sources non administratives : il s’agit des enquêtes statistique
qu’il faut réaliser parce que les données n’existent pas
auprès des sources administratives Un tableau statistique qui est bien présenter doit
Il y’a lieu de relever que recueillir des données contenir les éléments suivants :
statistiques présente des difficultés et source 1. Le numéro et le titre du tableau
d’erreurs 2. Les unités de mesures utilisées
3. Les titres des lignes et des colonnes
2.1.2 Méthodes d’observation 4. Les notes : symbole pour expliquer certains
éléments du tableau
L’observation d’un phénomène à étudier peut s’effectuer
de plusieurs manières :
5. Les sources de données qui indiquent les Dans une classe i il y a deux limites : la limite
références de documents d’où proviennent les inferieure L1i et la limite supérieure L2i si la variable
données est discontinue ou discrète la limite supérieure de la
classe i est différente de la limite inférieure de la
Exemple : classe i+1 si la variable est continue la limite
Tableau 1 : présentation annuelle de ciment en RDC de inférieur de la classe i est égale à la limite supérieur
2016-2021(en tonnes métrique) de la classe 2
ANNEE CIMENT CIMENT TOTAL
S PORTLAND METALIRGIQUE Frontière d’une classe
(gris) (blanc) (1)
2026 192 122 9 304 201 426 Dans une classe il y’a deux frontière : inférieur et
2017 233 943 15 766 249 709 supérieur
2018 315 427 15 367 330 794 F1i = L1i+L2i-1/2
2019 395 309 15 984 411 293 F2i = L2i+Li(+1)/2
2020 521 368 2 631 523 999
2021 519 233 2 020 521 253 Centre d’une classe ou milieu d’une classe
(1) y compris production de cimenterie de KATANGA (CIMENKAT)
mi = F1i+F2i/2
Source : banque centrale du Congo, rapport annuel 2021, Kinshasa, page 65
Intervalle d’une classe
2.1.4 Concept relatifs aux tableaux classifié
ai = F2i-F1i
L’intervalle de classe peut être constant ou variable.
Valeur extrême de la distribution.
Si toutes les classes ont les mêmes intervalles, ont dit
Dans une distribution extrême il y a deux valeurs que las classes sont égales, si l’intervalle de classe
extrêmes, la plus petite valeur n et la plus grande sont variables on dit que les classes sont inégales
valeur N
L’étendu Classe fermée et semi fermée ou semi ouvertes
Elle est donnée par la différence entre la note (la Une classe est fermée lorsque les deux limites sont
valeur) la plus élevée et la plus petite de la série é= données
L-l
Nombre d’unité entière comprise entre la plus Intervalle d’une classe semi-fermée
petite valeur et la plus grande Pour déterminer l’intervalle d’une classe semi-fermé, il
faut observer les intervalles de classes fermés. Si les
U = é+1
intervalles de classes fermées sont constants on
attribue à la classe semi-ouverte l’intervalle des
Limite d’une classe
autres classes. Si l’intervalle de classe fermée est
variable, on attribue à la première classe qui est
ouverte à gauche l’intervalle de la deuxième classe et
on attribue à la dernière classe qui est ouvert à droit Les différentes situations de familles possibles se
l’intervalle de l’avant dernière classe verront affecter des indices ou des numéros : Ainsi, les
2.1.4 Séries statistiques 20 personnes interrogées ont fourni les réponses
suivantes :
On appelle série statistique la suite des valeurs prises
par une variable X sur les unités d’observation. On
distingue entre les sériés statistiques les séries Le dépouillement va consister à compter le nombre de cas
suivantes : correspondant au caractère
Le dépouillement pourra se présenter de la manière
a. Séries temporelles : les résultats obtenues suivante :
de l’observation d’un phénomène quantifiable
au cours de différentes périodes de temps Situation familiale X Nombre de cas ni
M 7
Exemple : production de riz des années suivantes en D 2
tonnes C 9
Années Tonnes V 1
2015 70
2016 60
2017 80
2018 87
d. Série des fréquences quantitatives
b. Séries de coupe transversale (cross-section)
Cas de variable, quantitative discontinue. Il y a deux
possibilités qui nous sont offertes ici dans ce cas.
Lorsque les observations d’un phénomène ou d’un
caractère se font durant un instant ou bien une période
- Premier procédé : on fait seulement correspondre à
déterminée, nous nous référons à une série temporelle
c’est-à-dire une série de coupe transversale. chaque valeur entière le nombre de cas qui s’y
rapporte
c. Les séries des fréquences qualitatives
Exemple : en vue d’organiser rationnellement le service
Supposons qu’on ait dressé un tableau statistique d’aide, une paroisse veut connaitre le nombre d’enfants
portant sur la situation familiale de 20 personnes de dont se composent les familles de ses fidèles. Les
sexe masculin : la variable qualitative peut prendre les résultats suivants ont été enregistrés :
aspects suivants : célibataire, mariés, veufs, divorcés. 2,1,1,6,4,8,1,5,4,7,3,2,2,2,3,12,13,3,2,1,5,1,7,4,10,2,1
Pour faciliter le dépouillement, on a choisi un code. 2,12,15
X Ni
1 5
2 6
3 3
4 3 4. Découper les classes de telle sorte que la limite
5 2 inférieure de la première classe soit égale à la
6 1 plus petite valeur observé
7 2 5. Déterminer les effectifs de chaque classe
8 1
10 1 Exemple : reprenons les résultats de l’exemple ci-
12 3 dessus :
13 1 2,1,1,6,4,8,1,5,4,7,3,2,2,2,3,12,13,3,2,1,5,1,7,4,10,2,1
15 1 2,12,15
Ces résultats peuvent se lire : Calculons l’étendue : 15-1= 14
5 familles ont 1 enfant chacune - S’il faut constituer cinq classe, I= 14+1/5= 3
6 familles ont 2 enfants chacune - La constitution de classes : en suivant la
3 familles ont 3 enfants chacune etc. procédure décrite ci-dessus on obtient les classes
suivantes ainsi que les effectifs s’y rapportent :
Mais lorsque les données sont nombreuses par exemple 100
chiffres différents, cette procédure devient classes Ni
désagréable, d’où un procédé ; 1 - 3 14
4 - 6 6
- Deuxième procédé : le groupement en classe lorsque 7 - 9 3
les données deviennent très nombreuses 100 par 10 - 12 4
exemple, le procédé ci-dessus devient incommode. 13 - 15 2
D’où la nécessité de grouper les données en
classe. NB : si le nombre de classes sont trop élevées
l’effectif et l’information sera trop dispersé et
lorsque le nombre de classes sont trop petits par
2.1.5 Elaboration d’un tableau classifié
rapport au nombre des données, on obtient suffisamment
l’information
Premier cas : si l’intervalle à utiliser est constant
Deuxième cas : si l’intervalle est variable il n’y a pas
c’est-à-dire ai = constant
de formule à appliquer pour déterminer le nombre de
1. Déterminer le nombre d’unité entière comprise
classe, généralement le nombre de classe varie de 5 à 10
entre la plus petite et la plus grande U =é+1 dans les régions ou les effectifs sont élevés.
é =L-l On a un intervalle de 3 (on l’appel intervalle étroit)
2. Choisir l’intervalle ai a utilisé et large dans les régions ou les effectifs sont faible
3. Déterminer le nombre de classe U/ai. Le nombre de
classe doit être de chiffre entier, par conséquent 2.1.7 Effectif, fréquences et tableau statistique
si U/ai donne le nombre de classe en décimal, il
Une variable qualitative nominale a des valeurs
faut impérativement arrondir à l’unité supérieur distinctes qui ne peuvent pas être ordonnées. On note J
le nombre de valeurs distinctes ou modalités.
Les valeurs distinctes sont notées x 1 , . . . ,
xJ , . . . , xJ. On appelle effectif d’une modalité ou
d’une valeur distincte, le nombre de fois que cette
modalité (ou valeur distincte) apparait. On note n J
l’effectif de la modalité x j . La fréquence d’une Exemple : On interroge 50 personnes sur leur dernier
modalité est l’effectif divisé par le nombre d’unités diplôme obtenu (variable Y). La codification a été faite
d’observation. selon le Tableau ci-dessous. On a obtenu la série :
Codification de la variable Y
2.2.3 Histogramme
Cette valeur centrale doit avoir une bonne
caractéristique qui doit se traduire à travers les
normes suivantes :
3.2 Le mode
3.1 Généralités
3.3 La moyenne
Mé =
3.5 Quantiles
1. L’étendue
2. La distance interquartile
3. La variance
ou
Les moments généralisent la plupart des paramètres. On a 4.3.3 Coefficient d’asymétrie de Pearson
en particulier
Le coefficient d’asymétrie de Pearson est basé sur une
comparaison de la moyenne et du mode, et est standardisé
par l’écart-type :
Nous verrons plus loin que des moments d’ordres Tous les coefficients d’asymétrie ont les mêmes
supérieurs (r=3,4) sont utilisés pour mesurer la propriétés, ils sont nuls si la distribution est
symétrie et l’aplatissement. symétrique, négatifs si la distribution est allongé à
gauche (left asymmetry), et positifs si la distribution
4.3 Paramètres de forme est allongée à droite (right asymmetry) comme montré ci-
dessous :
4.3.1 Coefficient d’asymétrie de Fisher (skewness)
4.3.4 Paramètre d’aplatissement (kurtosis)
Les variables x et y peuvent être analysés séparément. Le coefficient de corrélation est la covariance divisée
On peut calculer tous les paramètres dont les moyennes par les deux écart-types marginaux :
et les variances :
Le prix d’un litre d’huile est passé de 250 F à 400 F Elle s’exprime de la manière suivante :
entre 2005 et 2008. L’indice du prix d’huile de l’année
courante par rapport à l’année 2005 : Remarque :
Il est possible de calculer les indices élémentaires de
prix, de quantité, de valeur et de pouvoir d’achat :
On dit alors qu’il y a une augmentation de 60% (160% -
100%) du prix entre 2005 et 2008, ou encore le prix a
été multiplié par 1,6.
2.2 L’indice Laspeyres des quantités :
Section II : Les indices synthétiques :
On reprenant la définition précédente, l’indice
1. Définition : Laspeyres des quantités s’écrit :
Un indice synthétique se définit comme un rapport Pour obtenir la formule simplifiée, il suffit
de grandeurs complexes. Il est utilisé pour comparer d’intervertir les termes p et q dans la formule
des grandeurs complexes. Une grandeur complexe est une de Laspeyres de prix.
somme ou une agrégation de grandeurs simples. Par
exemple le blé et le mais sont des grandeurs
simples. La production agricole est une grandeur 3. L’indice de Paasche :
complexe.
On distingue les indices synthétiques de valeur, les L’indice de Paasche est la moyenne harmonique des
indices synthétiques de prix et les indices synthétiques indices élémentaires pondérés par les coefficients
de quantité. budgétaires de la date courante.
Il existe aussi trois formules de calcul de ces Le choix de la date de référence traduit la spécificité
indices : la formule de Laspeyres, la formule de de l’indice, l’indice de Paasche est défini en prenant
Paasche et la formule de Fischer. comme date de référence la date actuelle « t » et
non plus la date de départ « 0 ».
2. L’indice de Laspeyres (Economiste allemand) :
On appelle cette formule la formule de définition ou Par la formule simplifiée, on élimine l’influence
pondérée. des quantités en les considérant comme fixes à la
Après simplification, la date de référence étant date de référence « t ». Ainsi :
la date « 0 », l’indice des prix de Laspeyres
s’écrit :
3.2 L’indice des quantités de Paasche :
Par définition, l’indice Paasche des quantités s’écrit centrale et ceux de la dispersion et tracez le
comme suit: diagramme en bâtons de cette distribution
b. Faire l’étude du caractère « Loisir » dresser le
tableau statistique, déterminer le mode et tracez
Pour obtenir la formule simplifiée, il suffit le diagramme en bâtons et le diagramme à secteurs.
d’intervertir les termes p et q dans la formule
du Pasche de prix : 2. On observe 100 fois le nombre d’arrivées (variable
X) de clients à un bureau de poste pendant un
intervalle de temps (10 minutes) et on obtient les
4. L’indice de Fischer : valeurs suivantes :
C’est la moyenne géométrique des indices de Laspeyres
et de Paasche.
a. Calculer la covariance,
b. Déterminer l’équation de la droite de régression Y
= aX + b
c. Le coefficient de corrélation linéaire,
d. Le coefficient de détermination
SECTION ni
Scientifique 8
Pédagogie 2
Commerciale 27
Autres 3
TOTAL 40
TD : calculer la fréquence et présentez le diagramme
circulaire, en bâtons ainsi que l’histogramme de la dite
distribution ?
Bonne chance !