Vous êtes sur la page 1sur 82

1

REPUBLIQUE DEMOCRATIQUE DU CONGO


MINISTERE DE L’ENSEIGNEMENT SUPERIEUR ET UNIVERSITAIRE
HAUTE ECOLE DE COMMERCE DE KINSHASA
HEC Kinshasa

Notes de cours de
Statistique Descriptive
Avec exercices

Par

Prof. Docteur J.H LOKOKA Isekolo

Année académique 2023-2024


2

PLAN DU COURS

CHAPITRE I: GENERALITES

1. DEFINITIONS, OBJET ET METHODES DE LA STATISTIQUE


2. DIFFERENCE FONDAMENTAIE ENTRE METHODES
QUANTITATIVE (ou STATISTIQUE) ET QUALITATIVE.
3. SORTES D’ANALYSES STATISTIQUES
4. LES APPICATIONS DE LA STATISTIQUE POUR UN
GESTIONNAIRE.

CHAPITRE II CONCEPTS DE BASE EN STATISTIQUE DESCRIPTIVE

1. NOTIONS DE VARIABLES

II.1.1. DEFINITIONS DU TERME VARIABLE

II.1.2. SORTES DE VARIABLES

2. NOTIONS DE POPULATION ET ECHANTILLON

II.2.1. DEFINITION DE POPULATION

II.2.2. DEFINITION D'ECHANTILLON

II.2.3. TECHNIQUES D'ECHANTILLONNAGE

3. NOTIONS D' ECHELLES DE MESURE

CHAPITRE III : ELABORATION, PRESENTATION ET TRAITEMENT DES


DONNEES STATISTIQUES

III.1. Elaboration des données statistiques: traitement des données statistiques

1. ARRONDIR DES NOMBRES


2. EFFECTIFS SIMPLES – EFFECTIFS CUMULES
3. EFFECTIFS ABSOLUS – EFFECTIFS RELATIFS
4. PROPORTIONS ET POURCENTAGES
5. EFFECTIFS MARGINAUX
3

III. 2. Présentation des données statistiques

III.3.2. DONNEES NON GROUPEES

III.3.3. DONNEES GROUPEES

III.3.4. DONNEES GROUPEES NON CLASSIFIEES

III.3.5. DONNEES GROUPEES CLASSIFIEES

III.4. PRESENTATION DES DONNEES EN TABLEAUX STATISTIQUES

1. TABLEAUX A UNE ENTREE


2. TABLEAUX A DEUX OU PLUSIEURS ENTREES

III. 5. PRESENTATION GRAPHIQUE

III.5.1. DEFINITION DE GRAPHIQUE

III.5.2. SORTES DE GRAPHIQUE

A. GRAPHES A COORDONNEES ORTHOGONALES

B. GRAPHES A COORDONNEES NON ORTHOGONALES

CHAPITRE IV. LES CARATERISTIQUES STATISTIQUES

IV.1. NOTIONS

IV.2. CARACTERISTIQUES DE POSITION OU DE TENDANCE CENTRALE

IV.2.1. DEFINITIONS

IV.2.2. LES MOYENNES

A. GENERALITES

B. SORTES ET CALCULS DES MOYENNES

C. RELATIONS ENTRE MOYENNES

IV.2.3. LA MEDIANE

A. GENERALITES
4

B. CALCULS DE MEDIANE

C. DETERMINATION GRAPHIQUE DE MEDIANE

IV.2.4. LE MODE

A. GENERALITES

B. CALCULS DU MODE

IV.3. LES CARACTERISTIQUES DE DISPERSION

IV.3.1. NOTIONS

IV.3.2. CARACTERISTIQUES DE DISPERSION ABSOLUE

A. ETENDUE DE VARIATION

B. ECART MOYEN ARITHMETIQUE

C. ECART-TYPE ET VARIANCE

IV.3.3. CARACTERISTIQUES DE DISPERSION RELATIVE

A. COEFFICIENT DE VARIATION OU COVARIANCE

B. ECART REDUIT

C. INDICE DE DISPERSION

IV.3.4. AUTRES CARACTERISTIQUES DE DISPERSION: LES QUANTILES.

IV.3.5. NOTIONS DE PARAMETRES DE SYMETRIE ET DISSYMETRIQUES

A. DISTRIBUTION NORMALE

B. DISTRIBUTIONS DISSYMETRIQUES

CHAPITRE VI : LES INDICES ECONOMIQUES

VI.1. GENERALITES SUR LES INDICES ECONOMIQUES

VI.2. SORTES DES INDICES ECONOMIQUES


5

VI.2.1. LES INDICES SIMPLES

2. LES INDICES SYNTHETIQUES OU COMPOSES


3. LES INDICES COMPOSITES

VI.3. LES VARIABLES ECONOMIQUES DES INDICES

A. LES PRIX

B. LES QUANTITES

C. LES VALEURS

VI.4. QUELQUES METHODES DE CALCULS DES INDICES

VI.4.1. LA METHODE DES MOYENNES DES INDICES

VI.4.2. LA METHODE DES SOMMES DES INDICES


6

INTRODUCTION

QU’ENTEND-ON PAR STATISTIQUE ?

Le terme statistique tire son origine du mot allemand statistik, utilisé pour décrire les
données numériques (chiffrées) portant notamment sur les caractéristiques
économiques, sociales, politique ou culturelles d’un lieu précis.

On emploi aussi le mot statistique pour résumer une grande quantité de données à
l’aide des mesures récapitulatives appelées statistiques descriptives.

Exemple le revenu moyen des fonctionnaires en RDC

LES OBJECTIFS DU COURS

A. Objectif Général:

Le contenu de ce cours de Statistique descriptive vise l'initiation de l'étudiant à la


réalisation correcte d'une analyse statistique, allant de la collecte des données
chiffrées, de leur traitement jusqu'a leur représentation sous des formes beaucoup
plus simples et compréhensibles.

B. Objetifs specifiques:

L'étudiant qui aura suivi et participé activement aux séances de ces cours de
Statistique descriptive, devrait être en mesure de:

1. Apprendre les concepts clefs utilisés en Statistique descriptive;


2. Réaliser une analyse statistique des données issues d'une collecte et
dépouillement corrects, puis leur traitement en effectifs en vue de calculer les
caractéristiques statistiques et les présenter en tableaux ou graphiques;
3. Identifier, calculer et interpréter correctement les paramètres statistiques de
position et de dispersion;
4. Savoir calculer et apprécier des indices élémentaires économiques, en
s'appuyant sur leur interprétation.
7

CHAPITRE I : GENERALITES

I.1. DEFINITIONS, OBJET ET METHODE DE LA STATISTIQUE

I.1.1. Définitions de la Statistique

La statistique a eu pour origine le besoin des États ou des institutions ou


organisations pour gérer rationnellement leurs ressources. Il s'agissait au départ de
l'étude méthodique des faits sociaux par des procédés numériques: classements,
dénombrements, inventaires chiffrés, recensements, destinés à renseigner et à aider
les gouvernements dans leurs prises de décisions.

La statistique désigne l'ensemble de techniques d'interprétation mathématique


appliquées à des phénomènes pour lesquels une étude exhaustive de tous les facteurs
est impossible, à cause de leur grand nombre ou de leur complexité.

Il existe plusieurs définitions de la statistique dont on peut ressortir quelques points


communs ci-après:

1. La statistique est une branche des mathématiques. Elle utilise donc des
nombres, les mesures et les graphiques;
2. la statistique concerne l'étude de grands ensembles de faits, d'objets, de
personnes; elle néglige les cas particuliers et les individus pris isolement. Elle
dispose de techniques de collecte, de classification, de présentation et de
traitement de données;
3. La statistique nous permet d'effectuer des mesures. A cette fin, la population
étudiée et les indicateurs employés doivent être définis avec rigueur et sans
ambigüité;
4. La statistique nous permet de généraliser des résultats provenant d'un petit
ensemble (l'échantillon) à un ensemble plus vaste (la population).

C'est fort de tout ceci que certains auteurs (Lind et al., 2007) considèrent la statistique
comme un art et une science ayant pour objet de collecter, d’organiser et d’analyser
des données, de tirer des conclusions pour une population à partir de données
provenant d’un échantillon, de formuler des prévisions et d’analyser des politiques.

On distingue Statistique au singulier et statistique au pluriel.

Le terme “Statistique” est utilisé au singulier pour désigner le domaine scientifique,


la discipline universitaire. Il est compris comme l’art ou la science (l'Analyse
Statistique) qui a comme but de collecter, de traiter, de présenter et d’interpréter un
ensemble des données. Elle peut aussi désigner une fonction des résultats d’une
8

variable (statistique) recueillis sur un échantillon : (exemple, la moyenne des ventes


dans un magasin.

- Le terme “Statistique” est utilisé au pluriel (les statistiques) pour désigner des
collections de chiffres sous forme de tableaux, parfois sous forme de graphiques, et
qui regroupent toutes les observations effectuées sur les faits nombreux, relatifs à un
même phénomène. Dans ce cas, il s'agit des valeurs numériques relatives à un
phénomène social, physique, professionnel, économique, éducationnel, etc.

I.1.2. Objet de la Statistique

La statistique a pour objet l’étude, à l’aide de traitements mathématiques, de


nombreux faits correspondant à l’observation d’un phénomène, dans le but de rendre
compte de la réalité, d’essayer de l’expliquer et d’aider à la prise de décision.

La statistique traite des chiffres, des nombres issus d’une collecte et dépouillement,
de manière à aboutir à des rapports numériques qui ne couvrent pas assez d’
imperfections dues au facteur du hasard ou peu scientifique, et qui confirment le
rapport cause-à-effet des observations régulières. L'Analyse Statistique s'occupe donc
uniquement des chiffres ou valeurs quantitatives, lesquelles sont supposées être
objectivement collectées, et dénuées de tous sentiments.

I.1.3. Méthode de la Statistique

En tant que science, la Statistique est un ensemble des procédés, des méthodes
scientifiques, des techniques ayant pour but l’étude mathématique à partir de laquelle
on recueille, organise, résume, présente et analyse des données numériques relatives
à un phénomène aléatoire et qui permet d’établir des relations de causalité et de
prendre des décisions judicieuses. Voici donc les opérations principales d'un
processus d’analyse statistique :

1- Récolter les données ;

2- Ordonner les données ;

3- Grouper les données (tableau de fréquence) ;

4- Représenter les données sous forme des tableaux et/ou graphiques ;

5-Réduire les données à quelques valeurs caractéristiques (études de paramètre) ;

6- Interpréter les données.


9

I.2. Différence fondamentale entre méthode quantitative (ou statistique) et


méthode qualitative

Plusieurs discussions scientifiques ont concerné des rapports à établir entre la


méthode quantitative ou statistique et la méthode qualitative. En gros, la notion
d’objectivité avait souvent été le socle de la différence entre les deux méthodes.

En effet, le scientifique ne se contente plus d’opinions subjectives (simple description


qualitative ou simple impression). Il essaie plutôt de pénétrer à fond les faits en les
traduisant en termes opérationnels afin d’aboutir à une vérification scientifique.

Les méthodes de nature quantitative permettent donc de designer, de quantifier, de


distinguer, de comparer et de vérifier plusieurs observations ou plusieurs faits.

Les méthodes de nature qualitative ont pour objet d'expliquer le pourquoi des choses
et les interactions entre les phénomènes, de donner un sens aux liens, aux similarités
ou aux différences qui ont été établies par la quantification.

Cependant, l'utilisation des chiffres n'est pas réservée aux seules sciences
quantitatives ; les sciences qualitatives aussi y font recours, même si dans ce cas, les
chiffres n'ont pas de valeurs quantitatives; ils sont nécessaires pour codifier les faits,
ou autres opérations.

Aujourd'hui, plusieurs scientifiques recommandent l'utilisation mutuelle de deux


méthodes dans une même enquête, afin d'en tirer tous les profits. Il y a donc une sorte
de complémentarité des méthodes quantitatives et qualitatives;

I.3. TYPES DE STATISTIQUE

Dans de nombreuses situations, les données sont un vaste ensemble d’éléments


(individus, ménages, produits, clients etc.) appelé population. A cause des impératifs
liés aux coûts et à d’autres considérations, les données sont collectées uniquement
auprès d’une petite partie du groupe concerné appelée échantillon. La statistique a la
possibilité d’effectuer des estimations sur les caractéristiques d’une population à
partir des données de l’échantillon.

En général, les statisticiens distinguent deux principaux types de Statistique: la


Statistique Descriptive, laquelle constitue la première étape de l'analyse statistique,
et la statistique inductive ou inférentielle, qui en est la seconde et dernière phase.

- La statistique descriptive a pour but de collecter, organiser, présenter et analyser


des données. On peut aussi présenter de grandes quantités de renseignements sous
10

forme de tableau ou sous forme des graphiques ou des diagrammes pour décrire les
structures qui se cachent dans les données.

- La statistique inductive ou inférentielle a pour but de tirer des conclusions sur une
population à partir des faits quantitatifs étudiés d’un échantillon des données.

Exemple : on veut connaitre le poids moyen de tous les étudiants de l’ISC

1. Population
Elle correspond aux 2. Echantillon
différents poids de
sgffr
tous les étudiants de Un échantillon de 200 étudiants est tiré
l’ISC. La moyenne est
inconnue.

4. Inférence 3. Résultat de l’étude sur l’échantillon


La valeur de la moyenne de l’échantillon est . Les données de l’échantillon
utilisé comme estimation de la moyenne de fournissent un poids moyen de 60 Kg..
la population. Peut-on dire que la Moyenne
de l’échantillon est aussi celle de la
population ?

Ainsi donc, selon la nature des données et les résultats attendus, on fait appel à des
approches statistiques : la statistique descriptive qui permet de décrire ou d'étudier
un échantillon à partir des données collectées. Cette description se fait à travers la
présentation des données (la plus synthétique possible), leur représentation graphique
et le calcul des résumés numériques. La statistique inductive ou inférentielle qui
utilise les données d'un sous-ensemble pour en induire les caractéristiques de
l'ensemble global (un sondage).

I.4. LES APPLICATIONS DE LA STATISTIQUE

Actuellement la statistique est bien plus qu'une science ou art; elle s’est développée
comme une méthode scientifique d’analyse s’appliquant très largement à l’économie
et à toutes les sciences sociales et de la nature. Concernant les domaines, les
statistiques restent transversales, elles intéressent tous les domaines y compris
ceux qui sont restés méfiants vis-vis d'elles.
11

I.4.1 la statistique, l’économie et la gestion

De nos jours, le scientifique et autres gouvernants ne se contentent plus d’opinions


subjectives (simple description qualitative ou simple impression). Il essaie plutôt de
pénétrer à fond les faits en les traduisant en termes opérationnels afin d’aboutir à une
vérification scientifique.
C’est pourquoi les entreprises et les administrations ne peuvent pas se passer de la
statistique. En analysant des données chiffrées, elles obtiennent des informations
stratégiques.
Dans le monde d’aujourd’hui, l’apparition croissante de nouvelles sources
d’informations (recensement, réseaux sociaux, sondages, etc.) produit des masses de
données importantes. La place de la statistique en entreprise ne cesse de se
développer tout autant dans les domaines où elle était déjà présente que dans des
champs nouveaux d’application. Ainsi, des questions inédites apparaissent et la place
de cette discipline pour la recherche académique ou industrielle est désormais en
forte croissance (recherche médicale, imagerie, prévision, etc.).
Concernant les domaines, les statistiques restent transversales, elles intéressent tous
les domaines. Les développements actuels des activités scientifiques, techniques et
industrielles dans les différents domaines de gestion et informatique, laissent
présager un usage plus intensif de cet outil.
De nos jours, les secteurs tant privés que publics sont interpellés pour les questions
de bonne gouvernance de l’information statistique de deux manières:

- La qualité de l’information statistique publiée par les services statistiques publics


est un élément clé de la compétitivité des entreprises, en ce qu’elle influe sur la
décision stratégique des dirigeants d’entreprises, et partant elle contribue à la
croissance économique;
- La crédibilité de l’information financière produite par l’entreprise participe de la
gouvernance d’entreprise met en jeu les liens de confiance entre dirigeants,
actionnaires et salariés de l’entreprise. Les dirigeants qui ont le plus de succès sont
ceux qui peuvent comprendre les chiffres et les utiliser pour prendre de meilleures
décisions pour le présent et le futur.

Dans nos environnements économique et commercial actuels, l’information


statistique disponible est vaste. Plus particulièrement en économie, finances et dans
le monde des affaires, l'information fournie par la collecte, l'analyse, la présentation
et l'interprétation des données, offre aux dirigeants une meilleure compréhension de
l'environnent économique et commercial, et leur permet ainsi de prendre de bonnes
décisions en toute connaissance de cause. L’économiste utilise de nombreuses
informations statistiques pour effectuer ses prévisions.
Par exemple, pour prévoir le taux de l’inflation, les économistes utilisent les
indicateurs tels que l’indice des prix à la production, le taux de chômage et le taux
d’utilisation de la capacité productive.
12

I.4.2. LA STATISTIQUE ET LA PRODUCTION

L'importance accordée de nos jours, à la qualité fait de son contrôle une application
primordiale de la statistique, dans la gestion de la production. De nombreux
graphiques de contrôle de la qualité sont utilisés pour vérifier les caractéristiques du
produit fini dans un processus de production.

I.4.3. LA STATISTIQUE ET LA COMPTABILITE

Les entreprises publiques comptables utilisent des procédures d’échantillonnage


statistique pour mener des opérations d’audit pour leurs clients, le contrôle de stocks,
etc.
Par exemple, supposons qu'une entreprise comptable veuille déterminer si le montant
du compte fournisseurs qui apparaît dans le bilan, correspond bien au montant réel.
Généralement, le nombre de fournisseurs est tellement grand que réexaminer et
valider chaque compte individuellement serait trop long et trop couteux. Dans de
telles situations, il est courant que l'expert comptable sélectionne un sous-ensemble
de comptes, appelé échantillon. Après avoir réexaminé les comptes de l'échantillon,
l'expert-comptable conclut si le montant des comptes fournisseurs inscrit dans le
bilan est acceptable ou non.

I.4.4. LA STATISTIQUE ET LES FINANCES

En ce qui concerne les finances, presque toutes les opérations financières font recours
aux valeurs quantitatives. Les analystes financiers utilisent des informations
statistiques diverses pour orienter leurs recommandations en matière
d'investissements.

I.4.5. LA STATISTIQUE ET LE MARKETING

En marketing, des informations fournies par les relevés des caisses ou les marchés
peuvent donner les indications importantes sur les types de produits, les besoins des
consommateurs, les relations entre ventes et promotion. On peut, à partir de ces
informations, établir les futures stratégies commerciales. La notion d'échantillon est
une émanation de la Statistique.

Aussi, les scanners électroniques des caisses enregistreuses dans les commerces
collectent des données utilisées dans de nombreuses applications de recherche en
marketing. Des producteurs dépensent beaucoup d'argent par catégorie de produit
pour obtenir un type quelconque de données scannées. Ils achètent également des
données et des conclusions statistiques relatives aux activités promotionnelles, telles
que les offres spéciales des magasins. Les fabricants des produits peuvent examiner
les conclusions des études statistiques menées à partir des données scannées afin de
mieux comprendre la relation entre vente et promotion. De telles analyses se révèlent
souvent utiles pour établir les futures stratégies commerciales des produits concernés.
13

I.4.6 LA STATISTIQUE, ADMINISTRATION ET GESTION DES


RESSOURCES HUMAINES

Dans le domaine des ressources humaines, la Statistique trouve sa place, en


termes de gestion des effectifs, de recrutement, celle des retraités, décès, les
congés, les calculs des salaires, dans le même ordre d'idées, s'appuient sur les
chiffres.

I.4.7. LA STATISTIQUE ET L’INFORMATIQUE

En Informatique, la statistique implique la manipulation de nombreuses données se


rapportant à un ou plusieurs événements, tel que l'algorithme du processus d'analyse
statistique.

Aujourd’hui, l’informatique assure un traitement automatique et rapide des données


statistiques. Puisque l'analyse statistique implique quelques fois de larges ensembles
des données, les analystes utilisent fréquemment des logiciels informatiques pour ce
travail.
14

CHAPITRE II : CONCEPTS DE BASE EN STATISTIQUE DESCRIPTIVE

II.1. NOTIONS DE VARIABLES STATISTIQUES

II.1.1 DEFINITIONS DU TERME VARIABLE

Une variable est un facteur qui permet au chercheur ou au statisticien de subdiviser sa


population d'étude en sous-groupes homogènes. Par exemples, le genre (Féminin-
Masculin ou Garçons-Filles), les Province d'origine, la taille, l'âge, etc.

Dans une étude, la variable est une caractéristique des éléments à laquelle on
s’intéresse. Après avoir identifié avec précision l’objet de son étude et son
échantillon, on peut passer à l’étude des certaines qualités, certains attributions ou
certaines caractéristiques que possèdent les individus observés. C’est ce qu’on
appelle les variables statistiques. Une variable est un facteur susceptible de
fluctuation. En statistique, elle est une modalité à laquelle on peut attribuer plusieurs
valeurs différentes, plusieurs niveaux.

II.1.2. SORTES DE VARIABLES

A partir de leurs natures, on distingue deux sortes de variables:

- les variables quantitatives : sont des données mesurables ou métriques. Lorsque


les objets, les choses sont comptées, les données de cette nature sont appelées des
variables ou données quantitatives. Lorsque ces modalités sont mesurables, les
valeurs numériques sont appelées des données métriques. Exemple : le prix, la
température, la taille

Elles donnent lieu aux chiffres ou valeurs numériques (exemples, l'âge, la taille, les
cotes des étudiants, les salaires, etc)

- les variables qualitatives : sont des données observables, mais non mesurables.
( exemples, le sexe: filles-garçons; couleurs, nationalité, province d'origine, tributs,
etc.). Une variable est dite qualitative si ses différentes formes sont des catégories des
attributs qui ne sont habituellement pas des mesures à l'aide de nombres.

Une variable qualitative est dite ordinale si les différentes formes qu'elle prend
peuvent être ordonnées;

Exemples:- des grades: Grande Distinction, Distinction, Satisfaction, Ajournements,


etc. - des promotions d'étudiants: 1ere année de Graduat, 2e année, 3e année.
15

Une variable qualitative est dite nominale, Ce sont des caractères qu’on ne peut
pas quantifier avec exactitude

Exemples: les couleurs, le genre, la nationalité, etc..

Cependant, on peut parfois, pour des raisons d'utilisation, attribuer des codes, de
manière arbitraire de nombres aux différentes modalités qu’elle peut prendre pour
les distinguer.

Un ensemble ordonné conventionnel (indexation) d’un caractère qualitatif constitue


une nomenclature ou code. Ces chiffres-codes n'ont alors aucune valeur
mathématique, car ils ne peuvent ni être additionnés, ni soustraits, ni multipliés
ni divisés entre eux. Plutôt, les codes représentent les valeurs qualitatives qu'ils
remplacent. Exemples : Les codes attribués aux plaques des voitures justifient la
qualité et non la quantité de voiture; les numéros des vareuses des joueurs, ou encore
les numéros des adresses parcellaires, etc.

Espèces de variables quantitatives

On distingue les variables quantitatives continues ou concrètes et les variables


quantitatives discontinues ou discrètes.

Une variable quantitative continue c'est un caractère qui peut prendre n’importe
quelle valeur numérique, c'est-a-dire qui accepte de prendre des valeurs décimales.
C’est une grandeur variable qui change par graduation ou encore une grandeur qui
accepte des divisions aussi petites que possibles.

Exemple, les prix des articles, l'âge, la taille, etc.

Une variable quantitative discontinue ou discrète est une grandeur qui change par
saut ou encore qui n’accepte pas de valeurs décimales, ni le sectionnement.
Exemples : le nombre de travailleurs, ou de véhicules, d'ordinateurs, etc.

II.2. POPULATION ET ECHANTILLON

II.2.1 DEFINITION DE POPULATION

La population, c’est tout ensemble d’objets, de cas de variables, d’événements ou


d’individus soumis à l’observation. C'est donc, l'ensemble d'objets ou individus qui
intéressent une étude quelconque. Par exemples : tous les citoyens en âge de voter,
tous les étudiants de HEC
16

Une étude basée sur toute la population mère est appelée “recensement”.
Si les mesures sont calculées a partir de données issues d'une population, on parle de
paramètre de la population. Cela est possible, lorsque cette population est
relativement petite.

► L’ensemble d'unités statistiques de même nature sur lesquelles on recherche des


informations quantifiables;

► L’ensemble d’éléments auxquels se rapportent les données étudiées;

► Un ensemble soumis a une étude statistique.

Ainsi, une population d’étude n'est pas nécessairement humaine; plutôt, elle peut être
constituée des êtres humains, des objets et autres êtres inanimés. Ce terme désigne
l’ensemble des éléments (hommes, animal, choses, plantes…) qui possèdent les
caractéristiques qu’on veut observer ou étudier. C’est l’univers total des observations.
On appelle «paramètre» une valeur caractéristique de la population.

N.B. Une population doit être bien définie avec précision, des le départ; et elle doit
être homogène au regard des caractères étudiés. Un élément d'une population
d'étude s'appelle “unité statistique” Une population mère d'études doit être
homogène, car elle doit contenir des individus ayant les mêmes caractéristiques de
base.

II. 2.2. DEFINITION D'ECHANTILLON

L’échantillon, c’est un sous-ensemble tiré de la population. C’est un petit groupe


des membres d’une population. On parle alors de “sondage”, car l'étude porte sur
une partie des sujets, appelée échantillon. Un échantillon c’est un sous- ensemble ou
une partie de la population dans laquelle on trouve des données qui ont été
effectivement recueillies. Partant de ceci, un échantillon comporte toujours un
nombre fini de mesures obtenues à partir de l’observation d’un phénomène réel. Si
les mesures sont calculées à partir d'un échantillon, on parle de statistiques
d'échantillon. Exemple la moyenne de l’échantillon

Le chercheur devrait réaliser un échantillonnage (technique pour tirer des


échantillons) pour certaines raisons telles que:

1. Des ressources limitées : baser son étude sur la population entière, surtout
lorsque cette population mère est vaste, peut s'avérer une tâche couteuse: les
moyens financiers et matériel disponibles et même le temps peuvent paraitre
énormes.
17

2. Rareté : quelques fois, on ne dispose que d’un échantillon très petit suite à
l’indisponibilité de la population.

II.2.3. TECHNIQUES D 'ECHANTILLONNAGE

L’échantillonnage, c’est l’opération qui consiste à extraire un certain nombre


d’éléments de la population. Il s'agit d'une opération de “sondage”, étant donné que
l'opération porte sur un sous groupe, et non sur toute la population.

En fait, extraire un échantillon de mesures, c’est faire en sorte que l’on retrouve dans
l’échantillon les différentes mesures possibles dans des propositions identiques à
celles de l’ensemble de la population. Dans la pratique le point de départ est souvent
un échantillon limité de mesures et on fait l’hypothèse que celui-ci est extrait au
hasard et est représentatif d’un ensemble parent théorique.

Un échantillon est extrait de la population grâce à une procédure d’échantillonnage.


On distingue deux méthodes principales d’échantillonnage : les méthodes
probabilistes ou aléatoires et les méthodes non probabilistes ou empiriques.

II.2.3.1 ECHANTILLON PROBABILISTE

Un échantillon est dit probabiliste ou aléatoire lorsque tous les éléments de l’univers
défini ont une chance égale de faire partie de cet échantillon: les individus sont donc
tirés, les uns après les autres, pour faire partie de l'échantillon. Le choix se fait par
tirage exhaustif (sans remise ou remplacement) soit par tirage non exhaustif
(avec remise ou remplacement). Dans le premier cas, chaque individu tiré une fois
ne peut l’être une nouvelle fois. Dans le second cas, après chaque tirage, la
population initiale est reconstituée.

Pour extraire au hasard un échantillon aléatoire, on utilise quelques procédés


notamment la méthode de l’urne, du point aléatoire et des tables des nombres au
hasard et même l’informatique. Les techniques probabilistes offrent des
échantillons dits «représentatifs».

Un échantillon est dit représentatif d’une population pour un caractère, s’il n’y a
aucune raison de penser que la valeur de ce caractère puisse différer dans
l’échantillon et dans la population, plutôt, cet échantillon couvre l'essentiel, si pas
toutes les caractéristiques de base de la population parente.

Les échantillons probabilistes présentent plus de garantie en statistique inférentielle (


en LMD 2), en déterminant la marge de l’erreur et l’intervalle de confiance dans le
processus de généralisation des caractères de l’échantillon à celles de la population.
18

Parmi les techniques de sondage aléatoire, on compte l’échantillonnage aléatoire


simple et échantillonnage aléatoire stratifié ou pondéré.

L'échantillonnage aléatoire simple est l’une des plus courantes techniques utilisées
pour sélectionner un échantillon dans une population. La procédure de sélection varie
selon que la population est finie ou infinie.

Avec une population finie, tous les sujets ont la même probabilité d’être
sélectionnés. Seuls les échantillons avec «remise» sont strictement des échantillons
aléatoires simples.

Une population est considérée comme infinie s’il est impossible de compter les
éléments de sa population. Dans cet échantillon, chaque élément sélectionné doit
provenir de la même population et chaque élément est sélectionné de manière
indépendante. En pratique, on ne peut pas utiliser la même procédure de sélection
parce qu’il est impossible d’énumérer toute la population, a cause du caractère infini
de la population: comment sélectionner des individus qu'on ne connait pas? Dans ce
cas, on recourt à des estimations.

Dans l’échantillonnage aléatoire stratifié, la population est tout d’abord divisée en


groupes d’éléments appelés strates. Chaque élément de la population appartient à une
et à une seule strate. Il s'agira donc de former un échantillon au sein duquel toutes les
couches (strates) sont représentées proportionnellement à leurs quotas (la
pondération).

Exemple: La population d 'Analystes Programmeurs en RDC, par provinces: soit


12000 au total, dont 4000 a Kinshasa, 300 dans le Bandundu, 3000 dans le Bas-
Congo, 1500 dans l'Equateur, 1500 dans les deux Kasaï, 700 dans la Province
Orientale, 500 dans le Katanga et 800 dans les deux Kivu. Pour constituer une
échantillon aléatoire stratifié représentatif, sur base d'un taux de 1/100, il faudrait
extraire 120 Analystes, dont 40 de Kinshasa, 30 du Bandundu, 15 de l'Equateur, 15
des deux Kasaï, 7 de la Province Orientale, 5 du Katanga et 8 des deux Kivu.
Néanmoins, les échantillons probabilistes présentent l’inconvénient carils sont
coûteux et fastidieux.

II.2.3.2 ECHANTILLON NON -PROBABILISTE

Lorsque le chargé d’études ne possède pas une liste complète de la population de


base, il a recours à des méthodes qui ne font plus appel au hasard: les individus tirés
n'ont plus la même chance d'être tirés. Ce sont des échantillons de commodité, ils
sont basés sur l’accessibilité et la disponibilité des sujets. Un échantillon de
19

commodité peut fournir de bons résultats aussi bien que de mauvais. Cependant, il est
impossible d’évaluer le degré de représentativité de l’échantillon dans la population.
Par conséquent, aucune procédure statistique bien fondée ne permet de faire une
analyse probabiliste. On peut citer ici:

1. L’échantillon occasionnel qui est un échantillon extrait de la population selon


une méthode de sélection guidée par des raisons de commodité, d’accessibilité et de
disponibilité pour l’expérimentateur ou l’observateur. Les échantillons occasionnels
ne sont pas représentatifs mais peuvent fournir des indications importantes.

2. L’échantillon par choix raisonné, lequel est très répandu dans les études du
marché, cet échantillon restreint est basé sur le choix des unités les plus
représentatives de l’ensemble au lieu de se fixer au hasard. On se sert des
techniques de quotas, échantillon de convenance, méthodes des unités-types
(partages de l’ensemble en groupes homogènes et à choisir dans chaque groupe une
unité statistique représentative du groupe).

Il y a en général, quelques principes à observer sur les techniques d’échantillonnage.


Parmi ces principes, il est recommandé

1. La portée des conclusions d’une étude statistique ou la généralisabilité des


résultats est limitée par la qualité de l’échantillonnage : si l’échantillon est
grand et représentatif d’une population bien définie, les conclusions à en tirer
s’étendent à la population entière avec une marge d’incertitude qui peut être
calculée avec précision. Si l’échantillon n’est pas représentatif, les conclusions
doivent se limiter à l’échantillon lui-même sans extrapolations.
2. Le choix du mode d’échantillonnage : il dépend de deux facteurs importants
à savoir le coût (argent et temps) et le niveau de précision recherché.

Voici quelques écueils à éviter dans l’échantillonnage:

- un trop petit effectif,

- l’extraction sélective des individus,

- l'élimination d’un sous-ensemble de la population (exemple : échantillonnage au


hasard dans l’annuaire téléphonique),

- la mortalité dans l’échantillon (couverture partielle),

- la subjectivité dans la sélection : l’implication personnelle du chercheur

- la substitution : remplacement d’un élément déjà choisi par un autre.


20

II.3. NOTIONS D'ECHELLES OU DE NIVEAU DE MESURE

L’échelle de mesure détermine la quantité d’information contenue dans les données


et indique la méthode d’analyse des données la plus appropriée. Il existe différentes
échelles de mesure : nominale, ordinale, d'intervalles et de rapports.

A chaque type de variable, qualitative ou quantitative, correspond un type d'échelles


de mesures. (Lind et al., 2007)

II.3.1. Echelles qualitatives

Les différentes formes que peut revêtir une variable qualitative sont appelées
modalités ; celles d'une variable qualitative doivent être exhaustives et mutuellement
exclusives: toute donnée, toute forme de la variable une unité statistique doit pouvoir
être placée dans une seule exhaustivité ou modalité : on est “garçon” ou “fille”, pas le
deux, a la fois.

1. Echelles nominales (données qualitatives)

Les données ne peuvent qu’être classées ou triées,

Tout individu, objet ou mesure est inclus dans une seule catégorie.

Exemple: le sexe , les numéros des joueurs, les marques de voiture etc.

C’est une manière la plus simple d’assigner les nombres à des objets ou d’utiliser ces
nombres comme substituts de ces objets. Ces données sont soit numériques, soit
alphabétiques, soit alphanumériques: comme nous allons faire subir un traitement
statistique aux variables qualitatives, nous devons associer un nombre à chacune de
leurs modalités. Lorsque les modalités ne présentent pas de hiérarchie, on utilise une
échelle nominale, et on attribue de façon arbitraire un code distinct à chacune des
modalités. Ces codes sont utilisés comme étiquettes distinctives et aucune opération
mathématique n’est possible car elle n’aurait aucune signification.

Dans une échelle nominale, on peut distinguer deux types de variables : des variables
qui possèdent seulement deux modalités naturelles, on les appelle variables
nominales dichotomiques (le sexe a deux modalités : masculin et féminin) et des
variables de plus de deux modalités sont dites multichotomiques. (état civil : marié,
célibataire, veuf, divorcé).
21

2. Echelle ordinale

Les données occupent une position dans une série ordonnée

Exemple : Les rangs obtenus après un classement en classes d’école primaire : 1ère,
2ème, 3ème , etc. - opinion sur le goût d’un produit jugé « excellent », « très bon », «
bon », « assez bon », « mauvais », « médiocre ».

- les catégories de données sont mutuellement exclusives et exhaustives,

- les catégories de données sont ordonnées selon leur caractère particulier

- Seules les valeurs des évaluations sont comparables et nonnpas les différences entre
les valeurs des évaluations

- On ne peut pas effectuer d’opérations arithmétiques sur les donnée mis à part le fait
d’établie des inégalités. La soustraction et l’addition n’ont aucune signification.

Voici l’évaluation d’un enseignant en finances

Niveau Evaluation Fréquence


5 Supérieur 6
4 Bon 28
3 Moyen 25
2 Faible 12
1 Inférieur 3

II.3.2. Echelles quantitatives

1. Echelles d’intervalle

La différence entre les données est significative

Exemple : température, temps de calendrier

Les formes prises par la variable quantitative (continue ou discontinue) sont de nature
numérique et portent le nom de “valeur”, plutôt que celui de modalité (réservée a la
variable qualitative). Pour mesurer une variable quantitative, nous disposons, en plus
des échelles nominales et ordinales, de deux autres types d'échelles de mesure qu'on
dit quantitatives ou métriques: les échelles d'intervalle et de rapport.

L’échelle d'intervalles permet de quantifier des écarts. Cette échelle est caractérisée
par la présence d'unité de mesure normalisée et d'un point de référence fixe de
22

manière arbitraire (par convention), appelé “zero relatif”(ou zero conventionnel).


Ainsi dans une échelle d'intervalles des écarts égaux représentent des distances égales
entre les points de l'échelle. Le zero relatif (l'origine de l'échelle) est fixe de manière
arbitraire. Il ne sert que de point de repère et ne signifie pas l'absence totale de la
caractéristique. Seules les opérations d'addition et de soustraction sont possibles
avec cette échelle.

Exemples: La mesure de la température a l'aide de thermomètre gradue en degrés


Celsius emploie une échelle d'intervalles. Le point de référence correspond au point
de congélation de l'eau (0 degré Celsius), et l'unité de mesure normalisée est le degré.
Le zero est relatif, car 0 degré ne signifie pas l'absence de température, plutôt, une
référence ou repère.

- les catégories de données sont mutuellement exclusives et exhaustives, de plus elles


sont ordonnées

- les différences équivalentes sur le plan des attributs mesurés sont représentées par
les différences égales dans les nombres attribués aux catégories

- l’addition et la soustraction ont du sens, mais les rapports entre deux valeurs n’en
ont pas.

La différence entre 10°C et 15°C représente la même variation de la température que


20°C et 25°C. Toutefois on ne peut pas affirmer que 20°C indique une chaleur une
chaleur deux fois plus grande que 10°C.

2. Echelles de rapports (données quantitatives)

Celle-ci est la plus puissante échelle ou la plus précise des échelles qui sont utilisées.
Ce type d'échelle se caractérise par la présence d'un zero absolu, c'est-a-dire qui
signifie l'absence du caractère étudié. Ceci permet d'effectuer d'autres opérations
sur les mesures (des multiplications et des divisions). Le zero absolu dénote une
absence totale. L'échelle de rapports autorise des comparaisons du type “ tel individu
est deux fois plus grand...que l'autre”; “telle famille a deux ou trois fois plus d'enfants
que l'autre”.
23

CHAPITRE III : ELABORATION, PRESENTATION ET TRAITEMENT DES


DONNEES STATISTIQUES

III.1. ELABORATION DES DONNEES STATISTIQUES:

III.1. 1 SOURCES DES DONNEES

Les données statistiques proviennent de deux types de sources : les données


recueillies par un enquêteur, qui ne paraissent pas dans une publication, sont appelées
données primaires. Les données qu’on peut trouver dans une publication sont
appelées données secondaires.

Données existantes ou secondaires

- les données publiées : (importations, exportations, salaires, criminalités les données


sur les Nations Unies, les Etats-Unis, la Banque Mondiale, Banque Centrale,
Ministère de l’Economie ou du Plan, etc.)

- les données inédites des documents scientifiques des chercheurs, thèses de


doctorat, différents sites WEB, etc.

Données inexistantes ou primaires

Parfois les données nécessaires à une étude particulière ne sont pas disponibles
auprès des sources existantes. Dans ce cas, les données peuvent être obtenues en
effectuant des études statistiques. Ce sont des données primaires, collectées
directement par le chercheur après enquête. Dans ce cas, on distingue deux types
d’études statistiques : les études expérimentales et les études empiriques

1. Etude statistique expérimentale

Dans une étude statistique expérimentale, on identifie en premier lieu la variable qui
nous intéresse, c’est la variable dépendante; ensuite, une ou plusieurs variables sont
identifiées et contrôlées de sorte à obtenir des données concernant leur influence sur
la variable considérée. Ce sont des variables indépendantes. La variable
indépendante est celle qui cause les variations de la variable dépendante et qui n’est
pas maîtrisée. C’est donc un ensemble des facteurs exogènes (en opposition aux
facteurs endogènes).

Exemple : En étudiant l’évolution des ventes de la bière dans un bar (variable dépendante),
on constate que elles peuvent être influencées par plusieurs facteurs notamment le prix, la
demande, la qualité, la température etc.(variables indépendantes).
24

2. Etude statistique non expérimentale ou empirique

Dans une étude statistique non expérimentale ou empirique, on procède soit aux
enquêtes par recensement c'est-à-dire par investigation exhaustive (étude complète
de la population ou des unités statistiques) soit par sondage, investigation partielle,
(étude partielle de la population ou des unités statistiques) en se servant des données
des observations, d’un questionnaire oral ou écrit. C'est toujours sous une forme
éparse et chaotique que les données collectées apparaissent. Il va faudrait donc les
arranger, les ordonner pour une meilleure exploitation.

III.1. 2. LE DEPOUILLEMENT

Au terme d’une enquête, il faut procéder au dépouillement dont l’objectif est de


présenter les résultats de l’enquête statistique sous une forme qui soit prête à la
compréhension, à l’analyse et à l’interprétation.

Le dépouillement c’est la phase de dénombrement ou de comptage des


renseignements récoltés en vrac en vue de les mettre dans les tableaux ou des
graphiques. II faudrait en sortir les différentes modalités des variables (X), des
valeurs des variables (X) puis en trouver des effectifs(n) ou fréquences(f). L'objectif
du dépouillement est de traduire en chiffres les valeurs qualitatives ou quantitatives
obtenues, lors de l'enquête.

On distingue :

a) Dépouillement manuel : celui qui se fait à la main ; on l’appelle aussi pointage


des données qui se fait par tirage. Quand le nombre de trait atteint quatre, le trait
suivant est tracé en diagonal et son image s’appelle barrière pâturage. Ce procédé est
appelé tirage par pâturage.

Exemple :

Un autre procédé consiste à dessiner un carré, le cinquième trait étant la diagonale du


carré. Ce procédé est appelé tirage par carreaux.

Ex :

b) Dépouillement électronique : Il se fait par ordinateur ou calculatrice.


25

c) Dépouillement mécanique, lorsqu'on dépouille à l'aide des instruments


mécanographiques

d) Tableau statistique

Lors du dépouillement, la façon la plus simple pour ordonner les données ou chiffres
qui ont été récoltés c’est de les présenter sous forme d’un tableau appelé tableau
statistique ou tableau de distribution de fréquence ou simplement tableau de
fréquence.

Le tableau statistique simple est composé de deux colonnes. Dans la première on


indique l’aspect ou modalités lorsqu’il s’agit des données qualitatives ou la valeur de
la variable lorsqu’il s’agit des données quantitatives, représentée dans les deux cas
par x. Dans la seconde colonne on indique le nombre de fréquence symbolisé par f
appelée aussi “ effectif” (n).

Effectif total : on appelle effectif total symbolisé par N, le nombre additionné


d’éléments ( colonne deux) de cette population.

III. 2. PRESENTATION DES DONNEES STATISTIQUES

III.2.1. Dépouillement d’une variable qualitative

Ce dépouillement a comme premier principe, la classification selon les modalités, les


aspects ou les variantes de la variable. Ensuite on se convient d’un code qui peut
être numérique, alphabétique ou alphanumérique, et enfin on procède au comptage
par pointages qui seront chiffrés par la suite. Si la codification des observations ainsi
obtenue sur la variable comporte 2 aspects, on dit que la classification est
Dichotomique. Elle est multiple ou Multi-chotomique si elle comporte plusieurs
aspects.

Exemple : Voici les données sur l’opinion de quelques Kinois sur la qualité de l’eau
fournie par la REGIDESO:

Très satisfait, peu satisfait, pas satisfait

On attribue les codes suivants : Très satisfait =1 ; peu satisfait =2 ; pas satisfait =3

T.D. Mener une enquête en classe et établir le tableau de fréquence de cette


distribution avec commentaires
26

Modalités Code Dénombrement effectif Commentaires

Total

III.2.2. Le dépouillement d’une variable quantitative

On distingue trois cas pour ce type de variable : données non groupées, données
groupées non classifiées et données groupées classifiées

1. Données non groupées

Lorsque la masse de données chiffrées n'est pas si énorme, elles peuvent être traitées
sans inquiétude, ni besoin de les grouper. Une série non groupée n'a pas d'effectifs,
car les variables sont reprises individuellement telles qu'elles ont apparu dans
l'observation. Certains travaux à réaliser à partir de cette série peuvent nécessiter
simplement un arrangement, en établissant un ordre (croissant ou décroissant).

Exemple: X= 5, 4, 10, 3, 6, 7, 8 peut être arrangé X= 3, 4, 5, 6 , 7, 8 10

2. Données groupées non classifiées

Après la collecte des données, le chercheur dispose d'une masse désordonnée des
chiffres; lesquelles données n'ont en général aucune signification. Pour leur attribuer
une certaine signification, le chercheur devrait les organiser en tableaux.

La nécessite de regrouper les données chiffrées dans une série statistique se justifie
lorsqu'il y a des notes qui se répètent en grands nombres. Ces variables qui
reviennent plusieurs fois dans l'observation devraient être groupées. Des lors, la série
est groupée, en vue de pouvoir économiser les places ou les espaces.

Lorsque l'écart entre la valeur maximale ( limite supérieure L) et celle minimale


(limite inférieure l), n'est pas assez grand, càd lorsque (L - l) +1 <15 ,

il n’est pas nécessaire de regrouper les données en classes. L'on peut donc reprendre
les modalités des variables individuellement, et y adjoindre les effectifs respectifs,
selon leurs apparitions dans l'observation: à chaque Valeur de la variable (X)
correspondrait donc un effectif simple (n ou f). Dans ce cas, on suppose que
l'intervalle (i) est de 1.
27

Exemple : Etablir le tableau de fréquence sur la durée de temps d’attente par les
malades dans un hôpital de la place.

4, 10, 4, 8, 4, 5, 4, 4, 5, 9, 5, 10,4, 6, 4, 6, 10, 9, 4, 10, 8, 4, 5, 5, 9, 10, 5, 4, 4, 6.

L= 10, l = 4; (10-4)+1= 7; cad moins de 15.

X Dépouillement f
par trait
4
5
6
7
8
9
10
TOTAL

Commentaries:

3. Données groupées classifiées

Le groupement classifié consiste à opérer des rassemblements des données en des


intervalles (égaux ou inégaux), lesquels déterminent des classes.

Lorsque l'écart entre la valeur maximale ( limite supérieure L) et celle minimale


(limite inférieure l) est assez grand, càd si (L - l) +1 est supérieur à 15, on
procède au groupement des données en classe. Le regroupement des observations
se fait par étapes successives.

Exemple : Voici les salaires des travailleurs d’une entreprise exprimés en $US. 149
150 147 152 153 155 156 157 159 160 161 161 162 162 162 163 164 164 165 165
165 166 166 166 166 167 186 167 168 168 168 169 169 170 170 171 171 171 171
173 186 174 174 174 176 177 177 179 182 184 184

TD : Etablir le tableau de fréquence de cette distribution des salaires

1. Calculer l'étendue (E) de la variation ou de distribution des scores; E = (L-l) + 1


28

2. Déterminer le quotient par rapport à cette étendue de la variation

Il existe deux procédés pour déterminer le quotient: utilisation des valeurs


conventionnelles et le tableau des diviseurs
a) Les valeurs conventionnelles : les statisticiens ont posé des chiffres qui
pourraient diviser la valeur de E. Ces chiffres sont conventionnels, et détermineraient
la valeur de l'intervalle de classe(i). Ils ont donc proposé les chiffres 2, 3, 5,7 10 et
20, lesquels sont des grandeurs des classes.

b) Le tableau des diviseurs : le tableau des Diviseurs a l’avantage de déterminer le


Diviseur en fonction de la taille de l’échantillon. Mais on peut s’en passer et choisir
d’autres Diviseurs selon l’intervalle souhaité.

N 10 -19 20 - 39 40 - 89 90 - 149 150 - 229 230 - 300 Plus de 300

Diviseurs 2, 3,4 4, 5,6 6, 7,8 8, 9,10 10, 11,12 12, 13, 14, 13, 14, 15,16

Dans notre exemple : N=51 D = 6,7,8

E = (LS – li )+1 (186-149)+1=40

Q = E/D

Q = 40/6=6,5 soit 7 Q = 40/7=5,7 soit 6 Q = 40/8= 5

N.B. Quelle que soit la méthode, on choisira un diviseur qui donne un quotient
impair plus petit arrondi à l’unité. C’est l’intervalle des classes tandis que le
diviseur choisi + 1 donne le nombre des classes.
Dans cet exemple, le quotient impair le plus petit, i = 5

3. Constitution des classes

1ère méthode : On cherche un nombre immédiatement inférieur à la limite inférieure


des observations et qui est à la fois multiple de l’intervalle. C’est la limite ou borne
inférieure de la première classe
Dans l’exemple : li=149, le nombre recherché est 145
29

Pour trouver la limite supérieure de la classe, on ajoute à la limite inférieure de la


classe l’intervalle (i) et on retranche 1. ( Ls+i)-1 C’est la limite ou borne
supérieure de la première classe.
Dans l’exemple : (145+5)-1=149
Ainsi, la première classe est constituée : 145 - 149
Pour obtenir le nombre des classes, on joute chaque fois à la limite inférieure et à la
limite supérieure le nombre d’intervalle.
1ère classe : 145 - 149

2ère méthode : Dans ce cas, on considère soit la limite inférieure soit supérieure
comme centre de classe et on détermine les limites à partir de la valeur de i
Il est conseillé de garder une valeur impaire de i pour avoir un centre de classe entier.
Dans l’exemple : i= 5 li = 147 On aura : 145 146 147 148 149
La 1ère classe devient : 145 - 149

4. le dépouillement :

C’est le dénombrement, unité par unité. On peut utiliser le procédé de pâturage ou de


carreaux. On obtient ainsi un tableau de fréquence ou de distribution.

Exercice : On a testé le nombre de jours de résistance des batteries des téléphones


dans un magasin. Dresser le tableau statistique avec la méthode de tableau des
diviseurs et la limite inférieure comme centre de classe.

41, 102, 83, 66, 98, 74, 77, 80, 67, 96, 73, 78, 93, 70, 65, 71, 72, 60, 77, 90, 64, 73,
74, 61, 75, 71, 55, 89, 67, 43, 68, 66, 76, 75, 61, 88, 85, 58, 78, 80, 69, 72, 82, 73, 78,
88, 71, 84, 50, 77, 70, 73, 57, 53, 47, 64, 86, 72, 79, 59, 67, 62.
30

III.3. TRAITEMENT DES DONNEES STATISTIQUES

C'est l'étape de l'organisation et du traitement des données. Il est difficile, voire


impossible, d'analyser une série statistique dans sa forme brute, parce qu'elle contient
une masse d'information trop dense. Pour dégager l'information pertinente, il faut
organiser les données, les présenter sous une forme simplifiée.

1. Arrondir des nombres

Il existe des règles pour arrondir des nombres décimaux, en statistique plus que dans
d'autres disciplines du savoir humain. De ce fait, l'opération d'arrondissement des
chiffres doit être basée sur des principes rigides que nous devrions respecter
scrupuleusement:

• pour arrondir a l'unité près (aux nombres entiers)

Ex. 12,3 = 12; et 18,8 = 19.

• pour arrondir à la première décimale près ( à un rang après la virgule)

Ex. 3,17 devient 3, 2; 6,06 devient 6,1 et 5, 75 devient 5,8 alors que 5,85 demeure
5,8, car la priorité est accordée aux chiffres pairs.

• Pour arrondir au deuxième décimal (à deux rangs après la virgule)

Ex. 5, 148 devient 5,15; 6,048 devient 6,05; et 2,1827 devient 2,18, alors que 2,1857
devient 2,19.

2. L'amplitude ou intervalle de classe(i) ou étendue de classe ou dimension :

C’est la différence entre les limites exactes. Dans notre exemple : 44,5-39,5 = 5.

3. Le centre de classe (Xc) est sa valeur centrale, se situant au beau milieu de la


classe (de deux limites. Cette valeur peut représenter les autres valeurs de cette
classe.).
Ls + li
Xc =
2
31

4. Effectifs absolus et effectifs relatifs

L’effectif simple (n) ou fréquence absolue (f), sont les nombres de fois
qu'apparaissent les valeurs des variables (X) dans une observation. La connaissance
des effectifs simples nous permet de répondre a la question du genre “combien
sont...” ou “combien ont...”

Exemples: combien d'étudiants sont mariés? Combien ont obtenu...?

La fréquence ou l’effectif relatif est le quotient entre l'effectif simple et le total:

fr = f/N La somme de fr vaut 1.

Les proportions sont trouvées sous la même logique que les fréquences relatives,
en divisant chaque effectif simple par le total et sont comprises entre 0 et 1; leur total
étant égal à 1. p= f/N

Les pourcentages sont trouvés en multipliant les proportions par 100, c'est-a-dire en
avançant la virgule de deux rangs à droite. Exemple, si p= 0,25; % de cette
proportion égale 25%; et si p= 0,456, c.à.d. 45,6%.
f
% = x 100
N

Effectifs marginaux : ce sont des totaux des effectifs en marge de chaque colonne
ou de chaque ligne.
ETUDIANTS L1 L2 Effectifs
marginaux
Filles 232 234 466
Garcons 533 335 868
Effectifs marginaux 765 569 1.334

5 . Effectifs cumulés

Les effectifs cumulés (nc) ou fréquences cumulées (fc) sont des additions
successives des effectifs ou fréquences simples. Leur connaissance nous permet de
répondre au genre des questions telles que combien d'étudiants ont plus de 23 ans?
Combien ont moins de 20 ans?, etc.
32

On distingue des fréquences cumulées croissantes (fc↑), lorsqu'on part de la valeur de


la valeur la variable (x) inférieure vers celle supérieure et des fréquences cumulées
décroissantes (fc↓), lorsque les additions partent de la valeur de la variable (x)
supérieure vers celle inferieure, en additionnant.

Chaque dernière case des effectifs cumulés (croissants et décroissants) doit être égale
au total d'effectifs (N).

III. 4. PRESENTATION DES DONNEES EN TABLEAU STATISTIQUE

Il existe des normes de présentation des données dans des tableaux:

1. Le tableau doit avoir un titre, du genre “ Répartition des ….(unités


statistiques), selon la (les variables) étudiées...
2. Chaque colonne doit porter un sous-titre qui en indique ce qu’elle représente;
3. Des effectifs (ou fréquences) du tableau; avec des totaux;
4. Indiquer la source des données;
5. Tous les tableaux doivent être numérotes, de 1... à …. n
6. Un commentaire nécessaire, pour expliquer ou décrire les informations .

On distingue le tableau simple ou à une seule entrée et les tableaux à double ou


plusieurs entrées.

III.4.1. Tableau statistique à une entrée

TD : Faire le traitement statistique complet du tableau de distribution de la résistance


des batteries des téléphones

X f xc fr % fc fc % fc % fc
ou P

Somme
(Σ)
33

Commentaires

III.4.2. Tableau statistique à double entrée (ou tableau de contingence)

Lorsqu'on effectue une enquête, on recueille souvent des informations sur plus d'une
caractéristique des unités statistiques. Il est possible d'observer sur chaque unité ou
modalité de variable, deux possibilités. Ce genre de tableaux permet de comparer ou
établir des liens entre ces deux variables.

L'unité statistique est considérée en fonction de ces deux modalités: une du caractère
X et une autre du caractère Y; il convient de présenter de telles séries dans un tableau
qui a deux entrées.

Au croisement de chaque colonne entre X et Y, se trouve un effectif quelconque. Le


tableau de contingence 2x2 est un tableau où sont présentées deux variables
comportant chacune une double possibilité de valeurs (variables dichotomiques).

Exemple: Répartition des étudiants HEC selon leur sexe et leurs sections.
Section Gestion Info.(J/S) Secretariat Ressources Total
Sexe (J/S) Hum.(J/S)

Filles 2318 642 331 64 3.355

Garcons 4087 1013 43 98 5.241

Total 6405 1655 374 162 8.596

Commentaires :

Il existe aussi des “séries chronologiques”, au sein desquelles on étudie l'évolution


d'une variable dans le temps. On peut présenter le tableau chronologique au moyen
d'un tableau dans lequel la première colonne représente le temps.

Exemple: Evolution du chiffre d’affaires d’une entreprise de la place de 2020-2023


Années Production en t

1920 12000
Commentaires :
2021 13500

2022 15000

2023 15800
34

III. 5. PRESENTATION GRAPHIQUE

III.5.1. Définition de graphique

Comme les tableaux, les graphiques servent à organiser et à traiter des données ainsi
qu'à les présenter sous une forme permettant de saisir au premier coup d'œil les
principales caractéristiques d'un phénomène, telle que l'évolution, les comparaisons,
etc. Il en existe des normes pour bien dresser un graphique.

Ces normes sont: un graphique comprend un titre, des coordonnées et le tracé

Le titre est en principe, le même que celui du tableau.

Les coordonnées sont deux axes qui se rencontrent en formant un angle droit. On appelle l'axe

horizontal, l'axe des abscisses ou l’ axe des x, on appelle l'axe vertical, des ordonnées ou des Y.

Le tracé: illustre des variations de la variable. Le tracé peut selon le cas être composé des

points, des droites, des courbes, etc. Lorsqu'on a ordonné les valeurs d'une variable, il est aussi

utile de représenter graphiquement la répartition des fréquences de différentes classes établies.

On obtient, une représentation très concrète, et compréhensible des données qui, sous d'autres forme

Impénétrables, en particulier lorsque le nombre des données est très élevé. Donc les graphiques

sont des représentations imagées des données inscrites dans des tableaux statistiques. La représentati
graphiquement les données numériques

figurant dans le tableau statistique. Les graphiques présentent l'ensemble de la situation en

donnant une vue globale du phénomène étudié.

Le graphique permet de saisir l'ensemble de la situation du phénomène étudié, tandis que le

tableau fourni les chiffres précis.

On distingue des graphiques à coordonnées orthogonales (qui forme un angle droit,

perpendiculaire) et graphiques à coordonnées non orthogonales.

Dans l'un ou l'autre cas, la présentation s'établit à partir du tableau des fréquences.

Pour les données qualitatives on utilise généralement le diagramme en bâtons et


35

le diagramme à secteurs. Pour les données quantitatives, on utilise l’histogramme,

le polygone d’effectifs

III.5.2. Le graphique à coordonnées orthogonales

Ces graphiques sont dressés sur base de Coordonnées abscisses OX et ordonnées OY.

A) Diagramme en bâtons ou linéaire (variables statistiques discrètes)

Sur les coordonnées, nous portons en abscisses des points représentants les valeurs ou aspects de

la variable (1, 2, 3, 4, 5....) à partir de chacun de ces points nous élevons parallèlement à l'axe des

ordonnées un bâton dont la longueur est proportionnelle à la fréquence correspondante.

On obtient ainsi un diagramme en bâtons, ou linéaire.


Exemple : Statistique du personnel d'une entreprise d' après le nombre d'enfants.

No m b r e d ’ e n f a n t s Ef f e c t i f s Ef f e c t i f c u m u l é
1 5 5
2 17 22
3 31 53
4 11 84
5 4 88
6 1 89
N= 8 9

Sur l’axe des abscisses plaçons les points correspondants aux valeurs du caractère
1, 2, 3, 4, 5,6. A chacun de ces points traçons parallèlement à l’axe des ordonnées
un bâton de longueur proportionnelle à l’effectif correspondant.
Nous obtiendrons un diagramme en bâtons.

TD : Tracer l’axe des abscisses et l’axe des ordonnées et faire la représentation


Graphique à l’aide d’un diagramme en bâtons.
36

Diagramme en barre ou colonne ou tuyaux d’orgue

Au lieu des bâtons, les lignes peuvent être remplacées par les colonnes ou des
rectangles qui ne se touchent pas et qui sont placés l’un à côté de l’autre. On opte
pour ce type de représentation à cause de la facilité de comparaison visuelle.

TD : Tracer le diagramme en colonne de la même distribution

0 1 2 3 4 5
6 x x X
B) Histogramme (variable statistique continue)
Ou diagramme à rectangle continus. Il est obtenu à partir d’une série groupée
classifiée uniquement, car ce sont des limites de classes qui en constituent les bases des
rectangles. Un histogramme est conçu de la manière suivante :
Il comporte deux axes orthogonaux et l'échelle des classes est portée en ordonnée.
Chaque classe est représentée par un rectangle dont la base est égale à l'intervalle
de classe et la hauteur Proportionnelle de son effectif.

Age Effectif Effectif cumul. Croiss Effectif cumul. Decr.


20-25 9 9 150
25-30 27 36 141
30-35 36 72 114
35-40 45 117 78
40-45 18 135 33
45-50 9 144 15
50-55 3 147 6
55-60 3 150 3
N 150

Su r l ' ax e d es a bs ci sse s, pl aç on s l es p oi nt s c orr es po nd an ts aux limites de


chaque classe, points qui déterminent ici des segments d'égale longueur dits
isométriques ; sur chacun de ces segments isométriques construisons des
37

rectangles de hauteur proportionnelle à l ' e f f e c t i f d e l a c l a s s e c o n s i d é r é e .


L' en se mb le d es re ct a n gl es o bt en us constituera leur histogramme.
Figure 2

60

45
50

40
36

30
27

20 18

10 9 9
3

0 20 25 30 35 40 45 50 60
55

C) Polygone des fréq uences (des effectifs)


I l e s t co n çu de l a m a ni è re su i va nt e :
- Il comporte deux axes orthogonaux
- l'échelle des données est installée en abscisse (x)
- l'échelle des fréquences est portée en ordonnée f
- les couples formés par chaque donnée et sa fréquence sont
représentées par un point ;
- c e s p o i n t s so n t j o i nt s p a r d e s s e g me n t s d e d r o i t e .

Exemple: la durée en jour des audits réalisés dans une entreprise : 15 20 14 15 17 17 18 18


19 18 16 18 17 18 20 17 17 15 17
TD : tracez le tableau de fréquence et un polygone de fréquence
38

On peut construire un polygone des fréquences en passant par l'histogramme. Il


suffit de porter les valeurs centrales ou les points milieux de toutes les classes en
abscisse, et au-dessus de ces valeurs fréquences, o n p o i n t e l a h a u t e u r q u i
c o r r e s p o n d à l a f r é q u e n c e d e l a c l a s s e . Ensuite, on relie l e s d i f f é r e n t s p o i n t s
a i n s i o b t e n u s e t o b t i e n t l e polygone des fréquences.

Le mérite du polygone est de donner l'allure générale du phénomène étudié. Il a


l’avantage de présenter plusieurs phénomènes similaires sur les mêmes axes.

50

45

40

30

20

10

15 20 25 30 35 40 45 50 55 60 65
0

d) Polygones cumulatifs (variable statistique continue)

Exemple : voici la distribution des accidents dans une bouteillerie

X f XC f cumul. Croiss f cumul. Decr.


5 -9 1
10-14 3
15-19 5
20-24 2
25-29 4
30-34 5

T.D. Construire les Polygones cumulatifs croissant et décroissant


39

Le graphique à coordonnées non orthogonales :

Sont élaborés à l'aide des figures géométrique : cercle, carré, figures, etc.

Il existe plusieurs types de graphiques. Nous nous limiterons à citer quelques-uns.

a) Graph ique circ ulair e ou à secte urs ( une s eule sé rie d e do nnée s )

C e s d i a g r a m m e s s o n t c o n s t i t u é s p a r u n c e r c l e divisé en sec teurs (aires)


proportionnels aux d ifférentes valeurs exprimées en pourcentage de modalités
considérées. La surface du centre représente 100 % la totalité des valeurs.

Exemple : voici les dépenses effectuées par un ménage


Nourriture 40$ ; logement 30 $ ; habillement 20 $ ; transport 10 $.

Dépenses moyennes d’un ménage X en $ %


1. Nourriture
2. Logement
3. Habillement
4. Transport

TOTAL

T.D. Représenter graphiquement, à l'aide d'un graphique circulaire, la ventilation en


pourcentage des dépenses de ce ménage.

b) Les graphes à coordonnées polaires


Ce sont des diagrammes en spirales qui permettent des variations pendant une ou
plusieurs années d’un ou plusieurs phénomènes. Ils comportent douze rayons
correspondant aux douze mois de l’année sur lesquels ils se constituent. On retrouve
40

des angles de 30 degrés à partir du centre. Ainsi, une année est une rotation complète
de 360 degrés.
Exemple : La production en milliers de tonnes de bière de Primus et de Skol, en 1984
et 1985.

Mois Jan Fév. Mars Avr. Mai Juin Juil. Aout Sept. Oct. Nov. Dé c .
1984 18 23 25 22 25 25 15 15 29 25 25 33
1985 25 26 35 28 30 23 29 29 30 43 34 20

Dresser le graphique dit polaire, ou en spirales.

Il existe en outre,
-des graphiques triangulaires (lorsque la variable d’étude est divisée en trois
composantes :
ex. publicité : affiches, cadeaux, annonces ;
Actif : mobiliers, réalisables disponibles ;
Passif : capitaux propres, dette a long terme, dette a court terme)

- quadrangulaires (lorsque les phénomènes sont subdivises en quatre parties :


Bilan :- Passif :- Valeurs immobilisées
- valeurs circulantes
-Actif :-Dettes à long et moyen terme
-Dettes à court terme.

Somme toute, lorsqu’on voudrait représenter les données statistiques, il est conseillé
d’utiliser à la fois les trois modes de représentation : les tableaux, puis les graphiques
et enfin les textes de commentaires pour interpréter les graphiques et les tableaux. Il
convient de représenter les petits tableaux détaillés, avant d’en prendre un plus
synthétique. En ce qui concerne le dressage des graphiques, il convient d’avoir les
valeurs de i égales dans une même série. Si les valeurs sont inégales, on doit procéder
à la correction des effectifs. Le graphique ne sera dressé qu’a l’aide des effectifs
corrigés. On se réfère à l’effectif qui se répète le plus (priorité nombre impair).
41

CHAPITRE IV: LES CARACTERISTIQUES STATISTIQUES

L'étude des mesures numériques constitue une autre forme d e r é s u m e r l e s d o n n é s


c o l l e c t é e s e n l e s r é d u i s a n t à q u e l q u e s c a r a c t é r i s ti q u e s . E l l e s so n t e s s e nt i e l l e s
à l a c o m p r é h e n s i o n e t à l 'i n t e r p r é t a t i o n d e s d o n n é e s . S i l e s m e s u r e s s o n t c a l c u l é e s
à partir des données issues d'un échantillon, on parle de statistique d'échantillon. S i
l e s m e s u r e s s o n t c a l c u l é e s à p a r t i r d e s d o n n é e s i s s u e s d ' u n e population, on
parle des paramètres ou caractéristiques de la population. On distingue des
caractéristiques (paramètres) de position ou de tendance centrale et des
caractéristiques de dispersion.

IV.1. CARACTERISTIQUES DE POSITION OU DE TENDANCE


CENTRALE (Anderson, Sweeney, & Williams, 2005)

1.1. NOTIONS
L a p r é se n t a t i o n d e s s é r i e s s ta t i s t i q ue s p a r d e s t a bl e a u x t ra d u i t de f aç on
i n s u f f i s a n te l e s p h é no m è n e s s t at i s t i q u es , s u r t o u t l o r s q u e l e s v a l e u r s a c c u s é e s
p a r l a v a r i a b l e s o n t n o m b r e u s e s ( o u lorsque les classes sont nombreuses). La
représentation graph ique marque un p rogrès dans cette traduction des
phénomènes statistiques.
Il est cependant certain qu'on a intérêt à essayer de caractériser, de résumer une série
statistique par quelques nombres. Ainsi, cherche-t-on à résumer globalement une série
au moyen de caractéristiques. Une caractéristique doit être un bon résumé de la
s é r i e e t sa d é te r m i na t io n d o i t ê t re c o m mo d e .
On distingue :
- l e s c a r a c t é r i s t i q u e s d e pos iti on ou te nda nc e ce ntr al e qu i résu me un e sé rie
par un seul nombre : moyenne, mode et médiane.
- les caractéris tiq u es de dispersion qui corrigent les caractéristiques de
p o s i t i o n p a r l ' e x a m e n d e « di s p er s i o n » o u « é t a l em e n t » d e l a sé r ie .

IV.1.1 L e s c a r a c t é r i s t i q u e s d e position ou tendance centrale

1 . L A M O Y E NN E

La moyenne est l'indice global le plus utilisé. Elle est définie comme le
quotient de la somme des données (x) par le nombre de données (N). La
moyenne s'exprime toujours en termes de mesure de la variable.
Ex. 45,67 Francs Congolais ; 67,12 véhicules.
42

A. Sortes et calculs
-
1 . L A M O Y EN N E AR I T H M E T I Q U E ( X ou M o u M a)

N o u s c o n s i d é r o n s 3 c as :
Moyenne Arithmétique Simple

a) Les données non groupées

Ma= somme des X divisée par le total d’observations


Où Ma:moyenne arithmétique
X : Chaque score individuel
N : nombre total des sujets.

Exemple : Soit les salaires X de 5 journaliers : 46 $, 54 $, 42 $, 46 4 2 $ .

X- = 46+54+42+46+42 = 4 6 $
5
Cette méthode est sans doute très simple mais elle peut devenir fastidieuse si le
nombre de mesure est important et si chaque mesure compte beaucoup de chiffres.

b) Les données groupées non classifiées

Lorsque les valeurs de la variable sont ordonnées en tableau de fréquence simple, la


formule devient.

 fx
X= ou X = ∑ X fr.
N

X f fx fr Xfr
10 4
15 7
20 10
25 18
30 5
35 6
Σ= Σ=

Moyenne =
43

c) Les données groupées classifiées

Il est p arf oi s r ec om m and é de ne p as ut ili s er les é lém en ts no n g r o u p é s p o u r l e


c a l c u l d e l a m o y e n n e , à c a u s e d e l a l o n g u e u r e t d e l a c o m p l e x i t é d e s o p ér a t io n s.
Pour cette raison il vaut mieux grouper les scores en classe.

Dans ce cas, le calcul de la moyenne suit la formule suivante :

 fxc
X= où
N
X : moyenne
N : nombre total de scores
f : fréquence de chaque classe ou n(effectif)
Xc : points milieux des classes (valeurs centrales)

Exemple :

X f Xf f(xc)

25-29 1
X =
30-34 6
35-39 7
40-44 2
45-49 4
50-54 10
N=30 Σ=

➢ Avantages de la moyenne arithmétique

• Elle est définie facilement


• E l l e f a i t a p p e l d a n s s o n c a l c u l à t o u t e s l e s v a l e u r s d e l a variable.
• Elle est l'abscisse du vertical divisant l'histogramme en 2 aires égales
• Elle est facilement calculable et aisément interprétable ;
• Elle est à la base de plusieurs calculs
• Elle est la même dans les échantillons extraits d'une population aux
fluctuations du hasard près.
➢ Inconvénient : Elle se laisse sensiblement influencer par les valeurs
extrêmes, elle n'est pas donc recommandée pour les distributions fortement
asymétriques.
44

Il existe d’autres méthodes brèves de calculs de la moyenne arithmétique simple :


les méthodes de codage et de changement d’échelles. Ces deux méthodes sont dites
brèves, car elles utilisent la moyenne auxiliaire (Xo), alors que la précédente
méthode utilisait de grands nombre qui sont des Xc. Donc, dans les méthodes
brèves, les calculs sont réduits. Cette moyenne auxiliaire s’appelle aussi moyenne
arbitraire ou d’origine ; voila pourquoi elle est notée Xo.

On peut se référer aux méthodes de codage et changement d’échelles pour ces


calculs rapides des moyennes.

Méthode de codage :

 fx ' Xc − X 0
X= X0 + i avec X’ =
N i
- les Xc sont les valeurs centrales des classes
- i est l’intervalle de classe : dans notre exemple i= 10
- Xo est la valeur centrale de la classe centrale (Celle qui divise les observation
en 50%)
X f fc Xc X’ f X’

20-29 3 3 24,5 -3
30-39 6 9 34,5 -2
40-49 13 22 44,5 -1
50-59 21 43 54,5 0
60-69 15 58 64,5 +1
70-79 5 63 74,5 +2
80-89 2 65 84,5 +3
Totaux N= 65 65/2
= 32,5

Dans notre exemple la classe centrale c’est la 4ieme et sa valeur


centrale est de Xo = 54,5
Si on calcule maintenant les différentes valeurs qui correspondent aux X de la série,
nous obtenons :
24,5 − 54,5
Pour X = 24,5 (Classe 1) = = -3
10
34,5 − 54,5
Pour X = 34,5 (Classe 2) = = -2 Etc.
10
Calculer à la main cette moyenne
45

- Moyennes arithmétiques pondérées : Mp ou Map ; Xp ou Xap.

Une moyenne arithmétique pondérée est nécessaire, lorsqu’on est en face des
données qui ont des pondérations mises entre parenthèses.

# S éri es n on g ro up ée s:

Formule : Mp= ∑(Xp)

∑p

Exemple, des cotes des étudiants : X= 12(4) en Arithmétique Commerciale; 8(8) en


Comptabilité ; 13(2) en logique ; 12(2) en Psychologie et 10(2) en Civisme.

Mp= (12x4)+(8x8)+(13x2)+(12x2)+(10x2)= 182 = 10.1

4+8+2 + 2 + 2 18

# Sér ie s gr ou pé es

La même formule, mais si les notes sont classifiées, on utilise les valeurs centrales

X 1,64 1,68 1,73 1,77 1,83 1,86 1,91 1,97 2,03 2,05 Total
P 10 70 50 8 110 200 140 100 30 10 728
Xp 16,4 117,6 86,5 14,1 210,3 372 267,4 197 60,9 20,5 1355,76

Ma p=

X 30-34 35-39 40-44 45-49 50-54 Total


P 3 4 2 5 6 20
Xc 32 37 42 47 52 -
Xcp 96 148 84 235 312 875

Map=
46

2. LES MOYENNES GEOMETRIQUES : Mg ou G ou Xg


A. Moyenne géométrique Simple

Ell e se di st in gu e de l a m oy en ne g éo mé tri q ue po nd ér ée.

Lorsque la série n’est pas groupée :


Sans logarithme : Mg=√X1.X2.X3…Xn
Avec Logarithme : log Mg=∑ (logX)/N

N.B. Le logarithme est l’exposant auquel il faut élever la base pour avoir ce nombre.
Le logarithme d’un produit est égal a la somme des logarithmes.
Exemple :
1) X=8, 5, 3, 2, 7

5 5
Mg=√8x5x3x2x7 = √1680
On peut aussi procéder par la méthode d’estimation, cad sans racine carrée
Exemple : Soit la population d’une zone en 1980 : 40.000 habitants. Si elle augmente
de 5%, dites les populations de cette zone en 1982, 1983 et 1984. Dites aussi ces
populations en 1982, si on sait celles de 1984 et 1980.
Solution :
1981 : 40.000x1.05= 42000 habitants.
1982 : 42.000x 1.05= 441.000 habitants ;
1983 : 441.000x1.05= 46.305 habitants ;
1984 : 46.305x1,05= 48.620,25 habitants ; soit 48.621 habitants.

2
De 1982= √40.000x48.621 = 441.000 habitants.
Dans une série groupée, la moyenne géométrique, c’est la racine de la somme
nième du produit des nombres avec leurs effectifs simples

∑n
Sans log= √n1X1 . n2X2. n3X3….nnXn

Avec log log Mg= ∑(n(log X))/ ∑n

b) Moyennes géométriques pondérées : Mgp ou Gp

∑p
Sans log : Mgp=√X1p1.X2p2.X3p3……..Xnpn
Avec log. Log Mg= ∑(p(logX))/ ∑p
47

Dans une série groupée, la moyenne géométrique, c’est la racine nième du


produit des nombres avec les différents chiffres après.

Critiques :
La moyenne géométrique présente quelques inconvénients qui sont les
suivants :
- Elle a des calculs difficiles et compliques avec des logarithmes ;
- Elle se fait absorber en cas de note nulle (cad s’il y a un zéro quelque part,
cette moyenne est égale a 0 a cause des multiplications) ;
- Elle a tendance a atténuer le mouvement de la hausse au profit du mouvement
de la baisse. C’est l’inverse de la moyenne arithmétique.

3. LES MOYENNES QUADRATIQUES : Mq ou Q


a) Moyenne quadratique simple
C’est la racine carrée de la moyenne arithmétique des carres des notes.
Cette notion est liée à celle de l’écart-type.
En cas de série groupée :
2
Q =√∑X1/N
Exemple : X= 3, 4, 6, 8
Q==√9+16+36+64 = 5,59
4

Dans une série groupée


2
Q= =√∑ (nX)/N

X 20-24 25-29 30-34 35-39 Total


N 2 10 12 1 25
Xc 22 27 32 37 -
2 484 729 1024 1369
Xc
2 968 7290 12288 1369 21915
nXc

Q= √21915/25 = 29,61

b) Moyenne quadratique pondérée Qp ou Mqp

Qp=√∑(pX)/ ∑p
48

4. MO YE N NE S HA R MO NI QU E S ( H o u Mh )

Elles sont utilisées en cas de variables- mesures, exprimant un rapport de grandeurs de


natures différentes.
Ex. Prix= valeur monétaire/Quantité : 1150Fc/ syllabus
a) Moyenne harmonique simple : H ou Mh

Dans une série non groupée, elle représente l’inverse de la moyenne arithmétique des
inverses des nombres.

En effet, si X= 4, 5, 3, 6 ; leurs inverses seront ¼, 1/5, 1/3, 1/6.

Formule : H = N

∑ (1//Xi )

X= 4, 7, 8, 9

H= 4 : ¼ + 1 /7 +1/8 + 1/9 = 6,4

S oit 3 c ha ng es d e 12 0. 000 F c en doll a rs. P ui squ e le clim at p oliti co -é co nomi qu e e st


trè s im po rta nt da ns c ett e m ati è re ; m ais s ’a vè r e m ouv ant , o n p e ut ca l cul e r l a m oy enn e
ha rmon iqu e de l a m ani èr e suiv a nte :

Si 1e r change : 60/1dollar , d’ où 120.00 0/60 = 2 .00 0 dollars

Si 2e change : 40/1 d ollar, d’où 120 .000/40 = 3. 0 00 dollars

Si 3e chan ge : 30/1 dollar, d’où, 120.00 0/30 = 4 .00 0 dollars.

Cette logique est fausse ; car il faudrait appliquer la formule de la moyenne harmonique.

3 : 1/6 0+ 1/4 0+ 1/30 = 3 60/90 = 40 ; c ’ est l e t a ux de ch an ge m oy en d ur ant to ute c ett e


pé riod e .

b) Moy enn e H arm oni qu e pond é ré e

Hp = ∑p : p/Xi

X 3 4 5

P 3 2 2

∑p = 3+2+2= 7

H = 7 : 1+0,5+0,4 = 7/1.9 =3,68


49

2. L A ME DI AN E ( Me o u Md n)

La médiane, c'est un point sur l'échelle des résultats divisant cette échelle en deux
parties égales. C'est un point tel qu'au-dessus et en-dessous duquel se trouve 50%
d'observations des résultats des données. L a m édi an e a in si dé fi nie , p ré su pp os e
que l es d on né es s on t arrangées en ordre de grandeur avant les calculs.

Calcul de la médiane

1. Données non groupées


Il n’ya aucune formule pour calculer la médiane, ainsi donc (la médiane et le résultat
qui correspond à C’est-à-dire le nombre qui est au milieu des observations.

a) Données d’une série impaire

Exemple : 9, 3, 6, 5, 7, arrangement 3, 5, 6, 7, 9, la médiane = 6

b) Données d’une série paire


La médiane correspond à la moyenne arithmétique des résultats les plus centraux.
Exemple : 3, 5, 6, 7, 8, 9 ; Me =

➢ Avantage de la médiane

- Calcul facile
- Donne une idée satisfaisante de la tendance centrale et n’est pas influençable
par les résultats extrêmes (trop grand ou trop petit) ou par le changement d’un
résultat (moyenne).

➢ Inconvénient

- La médiane dépend des rangées des résultats statistiques observés si les


données sont paires il y a une autre médiane que si elles sont impaires.

2. Données groupées

Me = l1 i
50

l1 : Limite inférieure exacte de la classe médiane (la classe contenant comme Fc).
N : effectif total des données
F : effectif cumulé de la classe immédiatement inférieure à la classe médiane.
f : fréquence absolue de la classe médiane.
i : intervalle contenant la classe médiane.

Exemple :
Ci-dessous la distribution groupée des poids en Kg de 82 personnes.

X f fc
35-59 2 2
60-64 5 7
64-69 9 16
70-74 18 34
75-79 27 61
80-84 15 76
85-89 4 80
90-94 2 82

82

1. N = 82 e t
2. Classe contenant la médiane
3. L1 =75
4. F =34
5. f=27
6. i=5
Me = 75 + (

REPRESENTATION GRAPHIQUE DE LA MEDIANE


A partir de deux ogives de Galton (croissante et décroissante), on peut ramener sur
l’axe des abscisses(OX), un point à partir de la jonction de ces ogives. Ce point
correspondra à la valeur de la médiane.

Prendre les données du tableau précédent et tracer la médiane


51

1. 3. LE MODE : Mo

L e m o d e e s t l a v a l e u r d u c a r a c t è r e ( d o n n é e s q u a l i t a t i v e s ) q u i c o rr e s p o n d
à la fréquence la plus élevée ou c'est la valeur de la variable (données quantitative)
qui correspond à la fréquence la plus élevée. C'est la valeur dominante. Il s'exprime
dans la même unité que la variable.

Calcul du mode :

1. Données non gro u pées

Lorsque les données n e sont pas groupées, le mode est la valeur la plus fréquente
d a n s u ne s é ri e d ' ob s e rv a t i o n s.

Exem ple :

1) 5 ; 6 ; 4 ; 8 ; 1 5 Pas de mode
2) 5 ; 6 ; 8 ; 1 0 ; 1 0 ; 1 5 Mo = 10 (distribution uni modale)
3) 5 ; 6 ; 6 ; 8 , 1 0 ; 1 5 ; 1 5 Mo = 6 et 15 (distribution bimodale).
4) 5 ; 6 ; 6 ; 8 ; 1 0 ; 1 5 ; 1 5 ; 5 Mo = 5 ; 6 ; 15 (distribution plurimodale
ou multimodale).

2 . D o n n é e s g r o u pé e s u n i m o d al e
Lorsque les observati o ns sont groupées en classe, le mode est le point milieu ou la
valeur centrale de la classe comportant la plus haute fréquence. Cette classe est
appelée « classe modale ».

E x e m p l e s : d e s d o n n ée s g r o u p é e s u n i m o d a l e

X f xc
Mo = 81 ; Le mode est la valeur centrale de la
89-91 3 classe qui a le plus grand nombre de sujet, la
plus haute fréquence, l’effectif le plus élevé.
86-88 5

83-85 8

80-82 10

77-79 7

74-76 4
52

3 . D o n n é e s g r o u pé e s b i m o d al e :

Il peut arriver que dans une distribution, deux ou p l u s i e u r s c l a s s e s a i e n t l a m ê m e


f r é q u e n c e m a x i m a l e . O n parle alors d'une distribution ou bimodale
multimodale. Dans le cas où deux classes ont la même fréquence maximale il faudra
distinguer si les deux classes sont adjacente ou pas.

- Si les deux classes sont adjacentes (qui se suivent), le mode correspond à la


moyenne arithmétique des valeurs centrales de ces classes adjacentes.

- Si les deux classes ne sont pas adjacentes, le mode est déterminé par la
formule de Pearson : Mo = 3Mdn – 2M

Classes sont adjacentes

X f xc
89-91 6 Mo = 84+81 = 82,5
86-88 5 2
83-85 10
80-82 10
77-79 7
74-76 4
74-76 4

Classes non adjacentes (classes disjointes)


Dans le cas des classes non adjacentes, le mode est aisément calculé par la formule :
Mo = 3Mdn – 2M
Exemple : voici la distribution des frais de publicité engagés par un échantillon de
quelques petites sociétés situées à Kinshasa. Calculer le Mode de cette distribution

X f
25-29 3
30-34 10
35-39 5
40-44 10
45-49 7
50-54 4
53

Avantage du mode
- Sa détermination est immédiate. Il n'est pas influencé p arles valeurs
extrêmes ni par les cas aberrants. La recherche du mode peut mettre en relief
l'hétérogénéité d'un groupe.

Inconvénients
- Il n e t ie nt pa s c omp te de t ou tes le s don né es ;
- Il se déplace de façon notoire par groupement en classe ;
- Il possède de signification réelle que si la fréquence correspondante est
nettement supérieure aux autres fréquences.

Le mode, la médiane et la moyenne ont un même objet : résumer la série des


observations en un nombre unique qui en décrira l'ordre de grandeur. En pratique la
moyenne est la plus utilisée.
D a n s u n e d i s t r i b u t i o n n o r m a l e , M , M o e t M e o n t d e s v a l e u r s v o i sin e s s o it
M = M o = M e.

On peut aussi trouver les valeurs de ces 3 caractéristiques de position, en utilisant des
règles établies par Karl Pearson.

Me = (2M+Me)/3

M = (3Me-Mo)/2

Exercices : 1) Trouver la valeur médiane d’une série, dont le mode est 5 et la


moyenne 6.
Solution : 6-5=3(6-Me) ; càd 1=18-3Me ; et 18-3Me+1 ; d’où 3Me=18-1 ; et
Me=17/3=5,71.
2)Quelle est la valeur modale de cette sérié dont la moyenne est 35 et le médian 28 ?
Solution : Mo=

3)Quelle est la note moyenne d’une série dont le mode est 18 et le médian 20 ?
Solution : Mo =

Note : Il convient d’observer que ces trois valeurs des caractéristiques sont proches
les unes des autres : pas trop d’écarts entre ces valeurs de moyenne, médiane et
mode.
54

III.2 CARACTERISTIQUES DE DISPERSION (Wonnacott & Wonnacott, 1995)

Pour présenter fidèlement un ensemble de nombres, il faut en relever au


moins deux valeurs caractéristiques. Il y a en effet, deux aspects importants qui
permettent de caractériser ou d’analyser un ensemble des données d’une distribution.
Le premier aspect est la tendance centrale de cet ensemble ; toutefois les indices de
tendance ne suffisent pas pour décrire fidèlement la réalité. On introduit de plus le
second aspect qui est celui de la variabilité existant au sein des données.
On appelle dispersion ou déviation, l’écart par rapport à la moyenne. La
comparaison des séries est plus aisée avec les caractéristiques de dispersion qu’avec
celles de position. Ainsi deux séries qui ont la même moyenne peuvent différer selon
la manière dont les valeurs sont réparties autour de cette moyenne. On notera qu’une
caractéristique de position est une valeur de la variable tandis qu’une caractéristique
de dispersion est la différence de deux valeurs appelée écarts.
Exemple
Imaginons que nous ayons à comparer les salaires horaires accordés par
deux établissements différents, qui comptent chacun 5 salariés. C’est à l’aide des
dispersions que sont étudiées les tensions salariales entre employés, c’est-a-dire les
écarts entre différents salaires.
Les indications suivantes sont fournies, les mesures des salaires ayant été
rangées par ordre croissant.

1) Etablissement A : 5, 50 5,70 6,20 6,50 6,80


2) Etablissement B: 4,70 4,80 6,20 6,40 6,60

Notre comparaison nous conduira d’abord à la recherche des


caractéristiques de tendance centrale des deux séries. Il se trouve que les deux séries
ont même médiane : 6,20 et même moyenne arithmétique : 6,14.

= 6,14

= 6,14

Les deux séries ont même médiane et même moyenne cependant elles
sont différentes. Les données ne sont pas groupées de la même manière autour de la
moyenne. Il est évident que les mesures des salaires, dans le second établissement
sont plus étalées, plus dispersées autour des valeurs centrales que dans le premier
établissement.
55

Ainsi les indices de dispersion nous disent comment les données individuelles
sont regroupées autour de la moyenne. Pour rappel les caractéristiques de position
nous indiquent la place, la position qu’un individu occupe dans son groupe
d’appartenance, tandis que les caractéristiques de dispersion indiquent comment les
données individuelles sont étalées, dispersées, regroupées autour de la moyenne.
Nous appelons écart x d’une donnée X dans un groupe la différence entre cette
donnée et la moyenne du groupe d’où x’ = X- la moyenne. La dispersion est grande,
lorsque les valeurs des observations sont très variées. Elle est petite si ces valeurs
sont très rapprochées les unes des autres.

Exemple : soit 2 entreprises A et B, qui octroient des salaires à 5 agents :


A : 9.000 Fc ; 10.000 Fc ; 11.000 Fc ; 12.000 Fc ; 12.000 Fc
B: 5.000Fc; 10.000 Fc; 11.000Fc; 13.000Fc; 15.000 Fc.
En nous basant sur les salaires moyens de A et de B qui est de 10.800 FC; La
moyenne dans deux entreprises est de11.000Fc, nous risquerions de croire que les
deux compagnies accordent les mêmes salaires aux agents. Il faudrait cependant
observer les tensions qui existent, càd les écarts entre leurs salaires, pour comprendre
que dans l’entreprise B, les écarts sont plus importants que la compagnie A.
On dit alors que les salaires de la compagnie A sont plus concentrés (autour du
salaire moyen)ou sont plus homogènes que ceux de B , plus hétérogènes.

Les mesures de dispersion

On distingue des indices suivants : l’étendue de variation, l’écart moyen absolu, la


variance et l’écart-type.

III.2.1. L’étendue de variation(ou de distribution) : E.V.

Elle est aussi appelée marge de variation. C’est l’écart entre la donnée
la plus basse et la donnée la plus élevée. Cet indice ne convient pas parce qu’il ne
tient compte que de deux données extrême pendant que d’autres aspects statistiques
peuvent être contenus.

Etendue =valeur la plus grande – la valeur la plus petite E=(L-l)

Exemple : Dans une usine A qui fabrique des batteries, la production la plus
importante au cours d’un mois est de 52 batteries et la moins importante est de 48
batteries. Dans l’usine B la production la plus importante au cours d’un mois est de
60 batteries et la moins importante est de 40 batteries.
Solution : la moyenne de production dans les deux usines est de 50 batteries/mois
56

E=(L-l) dans la l’Usine A = 52-48=4


E=(L-l) dans la l’Usine B = 60-40=20
On peut conclure que la dispersion de la production quotidienne est plus faible dans l’usine
A car plus concentrée au tour de la moyenne que dans l’usine B. La production dans l’usine
A est plus représentative de la moyenne.

III.2.2. L’écart absolu moyen ou déviation moyenne

C’est la moyenne arithmétique de tous les écarts à la moyenne sans égard à leurs
signes algébrique, on pourrait trouver cet indice en faisant la somme des écarts de
chaque donnée et en divisant par le nombre de données. C’est la grandeur de
déviation et non leur sens positif ou négatif qui importe dans la notion de la
variabilité, la somme des écarts individuels est égale à zéro. Il s’en suit que pour
obtenir une mesure de l’écart des résultats, on fait abstraction des signes des écarts à
la moyenne.

➢ Ecart absolu moyen des données non groupées

EA M =
Pour trouver l’écart moyen d’un ensemble de données, on commence par calculer la moyenne de l’échantillon.
Ensuite, on calcule l’écart entre chaque observation et la moyenne. On additionne ces écarts, en ignorant les
signes, et l’on divise le résultat obtenu par le nombre d’observation.

Exemple : les salaires de cinq ministres dans une usine d’extraction pétrolières sont les
suivants : 90.000 $, 84.000 $, 86.000 $, 90.000 $, et 82.000$.
Calculez l’Ecart absolu moyen de cet échantillon.
Calcul de la moyenne Moyenne =

Salaires X - moyenne Ecart moyen


90.000 90000- 86400=
84.000
86.000
82.000
90.000
Total
57

➢ Ecart absolu moyen des données groupées non classifiées

EA M =

Ecart absolu moyen des données groupées classifiées


E AM =
Exemple : le tableau suivant présente la distribution de 47 salaires journaliers groupés en
classes :

Salaire ($) f xc fx c x c- x f x c- x
5-9 6
10 - 14 12
15 - 19 19
20 - 24 7
25 -29 3
Total

En vérité, la valeur pratique de l’écart moyen est presque négligeable. Si la valeur de


la moyenne est égale à celle de la médiane, leurs écarts seront aussi les mêmes.

III.2.3. Variance σ 2

Elle tient compte des signes algébriques des écarts. Si on élève au carré les écarts à
la moyenne arithmétique, on maintient les propriétés algébriques tout en obtenant le
signe positif. C’est sur les écarts au carré que se fonde la variance. Celle-ci est donc
la moyenne arithmétique des carrés des écarts.

Variance des données non groupées


σ2 =
ou σ2 =  (X – X) ²
N
Exemple : les employés de la société d’emballage de fruits sont payés à l’unité à raison de
10$ par boite emballée. En une heure, un échantillon de cinq employés a gagné 2$, 10$, 6$,
8$ et 9$. Quelle est la variance de l’échantillon ?

Salaire ($) x- x (x -x)2


2 6
10 12
6 19
8 7
9 3
S2
58

Variance des données groupées

σ2 =
ou σ2 =  (Xc – X)². f
N-1
Salaire ($) f xc fx c (x c-x ) ( x c- x ) 2 f (xc-x )2
5-9 6
10 - 14 12
15 - 19 19
20 - 24 7
25 -29 3
Total

M o y en n e =

La variance est une bonne mesure de la dispersion. Elle présente cependant


l’inconvénient de ne pas être exprimée dans les mêmes unités que les données. Par
exemple, si les données sont exprimées en cm, les écarts seront aussi exprimés en
cm, les carrés des écarts en cm2
III.2.4. Ecart-type
Est donc la racine carrée de la variance. Il constitue un indice de dispersion de
mesure autour de la moyenne : c’est l’indice de la variabilité par excellence. Bon
nombre d’autres recommandent de représenter l’écart type des échantillons par S et
de réserver la lettre pour l’écart-type de la population locale.

Ecart type des données non groupées


σ =  √ (X – X) ²
N

Ecart type des données groupées


σ =  √ (Xc – X)². f
N-1

Prendre le tableau précédent et Calculer l’écart type

III.2.1.5 La dispersion relative

Le Coefficient de variation

Il est impossible de comparer directement la même mesure de dispersion de deux


ensemble de données qui portent sur des variables différentes.
59

Le coefficient de variation est utilisé pour comparer la dispersion dans deux séries
différentes des données. Il mesure l’écart type relatif à la moyenne dans un
échantillon.
Lorsque les unités sont différentes , on doit convertir chacune de ces mesures en
valeur relative appelée coefficient de variation (CV) élaboré par Karl Pearson.

Coefficient de variation = x 100


Soit C.V = x 100

Exemple : une étude menée sur l’importance des primes payées à des années de
service des employés a permis d’obtenir les statistiques suivantes :

Primes versées Années de service


Moyenne des primes versées 200$ Nombre moyen d’année de 20 ans
service
Ecart-type 40$ Ecart-type 2 ans

Pour le 1er échantillon : CV= (40/200)x 100 = 20%


Pour le 2eme échantillon : CV= (2/20) x 100 = 10%

La dispersion par rapport à la moyenne est plus grande dans la distribution des
primes versées que dans la distribution des années de service.

On utilise la même méthode lorsque les données sont exprimées dans les mêmes
unités, mais les moyennes sont très différents.

Mina est enseignante. Elle donne deux cours dans un collège de la place.
Communication et Finances. La moyenne des notes de tous les étudiants dans le
cours de Communication orale est de 70,5 et l’écart type est de 5,6. La moyenne des
notes de tous les étudiants dans le cours de Finance est de 90 et l’écart type est de
6,4. Mina aimerait comparer la dispersion relative des notes de ces deux cours à
l’aide du CV.

TD : calculez le CV de ces deux cours et commentez


60

III.2.6. Autres indices de dispersion : les quantiles

Ces sont des paramètres qui divisent la série en un certain nombre des parties égales.
On distingue : les quartiles, les déciles et les centiles.
1. Les quartiles
Divisent la série en quatre parties. Et on note ces valeurs par Q1, Q2 et Q3 et on
les appelle respectivement le premier, le deuxième et le troisième quartile.
- le premier quartile Q1 la valeur de la variable telle que 25 % des valeurs prises
par la variable lui soient inférieures et 75% lui soient supérieures.
- Le deuxième quartile (Q2) étant en fait la médiane (Il divise la série en deux
parties égales).
- Le troisième quartile Q3 la valeur de la variable telle que 75 % des valeurs
prises par la variable lui soient inférieures et25% lui soient supérieures
Ces sont les premiers et les troisièmes quartiles qui sont utilisés en
statistique.
2. Les déciles
On appelle déciles, les valeurs qui divisent la série en dix parties égales et on
les notes D1 et D2…. Et D9
3. Les centiles
Ces paramètres divisent la série en 100 parties. On calcule le 1er et le 99ème
centiles. Le calcul des centiles et déciles s’effectue par une méthode
analogue à celle employée dans le calcul de la médiane.

Soit la distribution suivante : calculez

Salaire ($) f xc fc Mdn =


5-9 6
10 - 14 12 Q1=
15 - 19 19
Q2 =
20 - 24 7
25 -29 3 Q3 =
30- 34 10
35-39 7 EIQ =
40-44 6
D2 =
Total
D5 =

C5 0 =

C7 0 =
61

PARAMETRES DE FORME

A. Notion de distribution normale ou symétrique et distribution asymétrique

Si la distribution de la population est symétrique et en forme de cloche, alors


environ 68% des observations se situent à moins d’un écart type de la
moyenne de la population. Environ 95% des observations à moins de deux
écarts types de la moyenne de la population et presque toutes les
observations (99,7%) se trouveront à moins de trois écarts types de la
moyenne de la population. (Lind et al., 2007, p34)

❖ Une distribution est dite symétrique, et donc « normale », quand les effectifs
sont distribues symétriquement par rapport a la moyenne, c’est- a-dire quand
les valeurs sont équidistantes (50%-50%) de la moyenne. Dans ce cas , la
moyenne est égale au mode et à la médiane. Par conséquent la valeur
d’une asymétrie est nulle.

Courbe de distribution normale (D’hainaut, 1978)

Figure: Distribution gaussienne (normale) d'écart-type 1 et de moyenne 0.


Les points d'une distribution gaussienne ont tendance à se regrouper autour de la moyenne : 68%,
respectivement 95%, 99.7%, de sa population.
62

B. Distributions non symétriques ou asymétriques

Dans le cas d’une distribution non symétrique, la façon dont elle s’éloigne de la
symétrie est appelée « dissymétrie ou asymétrie». Dans les domaines économiques,
sociaux, etc. , la plupart d’histogrammes et courbes ne sont pas symétriques mais
plutôt dissymétriques. On parle des courbes asymétrie positive (asymétrie à droite)
Et asymétrie négative (asymétrie à gauche).

a) Courbe de distribution asymétrique

L’asymétrie d’une distribution est positive si les valeurs fréquentes sont à


gauche et la queue de distribution (due à quelques valeurs très élevées
surreprésentées) est à droite .

L’asymétrie est négative si les valeurs fréquentes sont à droite et la queue de


distribution (due à des valeurs très faibles surreprésentées) est à gauche.

L’interprétation de ces coefficients est directe

• si le coefficient est nul, la distribution est symétrique


• si le coefficient est négatif, la distribution est déformée à gauche de la
médiane (sur-représentation de valeurs faibles, à gauche)
• si le coefficient est positif, la distribution est déformée à droite de la
médiane (sur-représentation de valeurs fortes, à droite)
63

b) Coefficient d’asymétrie.

Le degré d’asymétrie dans la forme d’une distribution se mesure à l’aide du


coefficient d’asymétrie.
Karl Pearson a proposé l’expression suivante pour le calcul d’asymétrie
SK1= 3(Moyenne- Médiane)
Ecart type
La valeur de SK ) peut varier de -3 à 3. Une valeur près de ±3, comme -2,57 indique
une très grande asymétrie négative. Une valeur comme 1,63 révèle une asymétrie
moyenne à droite.

On peut également déterminer le sens de la courbe par la démarche suivante :

Courbe symétrique : Q3 – Q2= Q2- Q1


Courbe asymétrique :
Q3 – Q2> Q2- Q1 : asymétrie positive
Q3 – Q2< Q2- Q1 : asymétrie négative

Exemple : prendre les données ci-dessus et donner le sens de la distribution

On parle aussi des courbes asymétrique par rapport à leur hauteur ou voussure :

- Mesocurtique : lorsque la bosse (voussure est normale, du milieu), c’est la


courbe normale;
- Leptocurtique : lorsque la bosse est pointue au centre
- Platicurtique : lorsque la bosse est aplatie. C’est l’aplatissement

L’ aplatissement d’une distribution , aussi appelée kurtosis quantifie la déviation


de la forme de la distribution par rapport à une distribution normale.
64

une courbe de distribution piquée indique peu de variations dans les valeurs, une
distribution relativement homogène, avec beaucoup de valeurs égales ou
proches de la moyenne.
La courbe aplatie suggère des variations importantes, une distribution
relativement hétérogène, avec beaucoup de valeurs éloignées de la moyenne.
65

CHAPITRE VI. LES INDICES ECONOMIQUES

VI.1. GENERALITES SUR LES INDICES ECONOMIQUES


On appelle indice, la grandeur statistique avec laquelle on mesure les variations dans
le temps d'une variable ou d'un ensemble de variables dépendantes. On peut encore
dire qu’un indice est un nombre qui mesure les variations intervenues dans une
variable ou dans un groupe de variables, dans le temps, entre deux dates différentes.
Exemple : la variation du prix d’un litre d’essence entre le 19/09/2020 et le
19/9/2O23
Si les variations concernent une seule variable, on parle d’indice simple ; et si
les variations concernent plusieurs variables, on parle d’indice synthétique.
Et le “tableau d'indices est l'ensemble des indices a un moment spécifique,
correspondants a plusieurs localités, villes, pays, etc., c'est a dire limites dans le
temps et l'espace. C'est à l'aide des indices qu'on pourrait notamment comparer le
cout de vie dans une ville, durant une période déterminée, par rapport a une période
précédente.
Bien que ce soit dans les domaines des affaires et économique que l'on applique les
indices économiques, ces derniers peuvent être utiles dans plusieurs secteurs de la vie
d'une nation, une localité ou une ville, etc. ou dans le secteurs administratifs ou social
Etant donne que les habitudes de consommation sont facteur de cultures, et donc de
temps et espace, tout calcul d'indices doit débuter par une enquête préalable, en vue
d'établir la structure de consommation de la ville et de l'époque.
Donc, le but essentiel d'un indice est de caractériser par un nombre unique, la
variation relative d'un ensemble complexe entre deux situations (époques ou lieux),
dites: situation de base (plus ancienne) et situation actuelle (plus récente).

On appellera de:

• indice chronologique ou chronique, celui qui mesure les variations dans le


temps;
• indice spatial, celui qui mesure les variations entre deux villes, pays ou
régions ;
• tableau d’indice, l’ensemble d’indices correspondant à plusieurs années, mois,
localités.

VI.2 SORTES D' INDICES

On distingue :

• les indices élémentaires ou simples : qui décrivent le changement d’une seule


variable.
66

Un indice élémentaire peut s’avérer très utile pour suivre l’évolution d’un prix, d’une
quantité ou d’une valeur mais, bien souvent, cet indice ne donne pas une vision
globale du phénomène économique ou social.

• les indices synthétiques ou composés qui illustrent simultanément le


changement de plusieurs produits. Pour obtenir cette vision plus globale, on
construit des indices synthétiques, c’est-à-dire des indices tenant compte de
plusieurs articles ou valeurs à la fois.
• Les indices composites qui sont des grandeurs statistiques du niveau d'un
phénomène dont l'étude directe est difficile ou impossible. Cet indice fait
intervenir des unités de nature différente dans ses calculs.

Tous les indices sont exprimés en pourcentages

On utilise les indices, aussi bien élémentaires, synthétiques que composites, pour
trois grandes catégories de variables: les prix, les quantités et les valeurs

VI.3. VARIABLES ECONOMIQUES DES INDICES

1. les indices simples ou élémentaires

A) Indices simple de prix : Ip

L'indice simple se calcule, lorsqu'on considère une seule grandeur variable dans le
temps et dans l'espace; dans ce cas, le problème est simple, et l'indice est le rapport
entre les deux situations: celle de base et celle actuelle. En général, l'indice de base(
o) est la plus ancienne alors que celle actuelle (1) est la plus récente. L'indice de prix
est le rapport entre le prix d'un article pendant une certaine période (dite période
actuelle) et son prix pendant la période dite de base(plus ancienne).

Ip= Ip1/p0; cad p1/p0x100

On dit alors, “ base 100 en année...”

Exemple: si les prix d'un carton de savons sont respectivement de 50 USD en 2021 et
80 CDF en 2023; calculer son indice de prix, base 100, en année 2021.

Solution:

Interprétation
67

Puisque la signification de prix des articles est fondée sur le 100%, lorsque la réponse
est supérieure à 100%, il s'agit de l'inflation ou hausse de prix. C'est lorsque la valeur
de l'indice est inferieure à100% que l'on parle de baisse de prix. Dans ce cas, on
interprète l'indice comme étant une augmentation (hausse) de prix de ce carton de
savons 67%, de 2021 à 2023.

B) Indice simple de quantité ou volume: Iq

Même en cas de quantité, la procédure reste identique au calcul a l'indice simple de


prix. Cependant, dans ce cas, on parle de l'indice de la quantité produite(ou son
volume). En général, on suppose que les quantités sont les mêmes pour les deux
années (de base et actuelle). Sinon, on est appelé a trouver les quantités moyennes.

Iq1/q0=q1/q0 x100

C) Indice simple de valeur: Iv

Ici encore, la logique des calculs reste la même; Iv1/v0=v1/v0 x100

En pratique, on retiendra pour base, non pas une date ou période élémentaire
(semaine→ hebdomadaire; mois→ mensuel; ou année→ annuel), mais plutôt une
période plus large pour éviter des fluctuations accidentelles et saisonnières qui
pourraient advenir, pour perturber la comparaison des observations. Ainsi, pour faire
face a ces dangers, on préfère retenir une année entière, ou une série d'années, même
si on est appelé a choisir une année quelconque, laquelle est jugée être moins
accidentelle ou ayant peu d'irrégularités d'ordre climatique ou économique majeures.

Les pondérations de la période de base et celles de la période actuelle (courante)


deviennent trop différentes. Les résultats d'un indice du type Laspeyres et d'un indice
du type Paasche divergent largement à cause des années de base.

2. les indices composites

Un indice composite est cette grandeur statistique du niveau d'un phénomène dont
l'étude directe est difficile ou impossible. Il fait intervenir des unités de nature
différentes.
68

Exemples:- le cout de vie; lequel ne fait pas intervenir un seul élément, plutôt
plusieurs facteurs entrent en jeu: aliments, transport, habillement, impôt, soins de
sante, éducation, etc.

- la valeur monétaire.

Tout calcul d'indices doit débuter par une enquête de la structure de consommation.
En République Démocratique du Congo, l'Institut Supérieur de la Statistique (INS)
avait pris en considération notamment la situation politico-économico-sociale.

3. LES INDICES SYNTHETIQUES(OU COMPLEXES, AGREGATIFS)

L'évolution d'un ensemble de grandeur évidemment caractérisée par le groupe


d'indices sera simplement relative aux éléments de l'ensemble. L'indice obtenu dans
des circonstances qui combinent tous ces indices simples est dit indice synthétique.

Trois formules d'indices synthetiques sont utilisees en pratique:

• la formule de Laspeyres;
• celle de Paasche;
• celle de Fischer qui combine les deux premières.

4.QUELQUES METHODES DE CALCUL DES INDICES ECONOMIQUES

Ces méthodes sont conformes tant au calcul des indices des prix qu’ celui des
indices des autres grandeurs des biens. Ce sont des méthodes qui utilisent les indices
élémentaires et ceux synthétiques. Elles peuvent être reparties en deux grandes
variétés suivantes:

- Les méthodes de moyennes des indices; et - Les méthodes des sommes des indices.

4.1 LES METHODES DE LA MOYENNE DES INDICES

Lorsqu'on est en présence de plusieurs indices, on peut faire usage des moyennes
pour en ressortir un seul qui représenterait tous les autres indices. Nous allons utiliser
les moyennes arithmétiques simples ou pondérées.

4.2. LA METHODE DE LA SOMME DES INDICES

Cette méthode consiste à diviser la somme des prix à la période n par la somme de
prix à la période de base et à exprimer le tout en pourcentage. Ici, l'indice est trouve a
69

partir de l'année de référence (de base), et cette méthode donne lieu a des indices
globaux. Sommes simples

Igp (indice global de prix)= (∑p1/ ∑p0)x100

Exercice : Calculer l'évolution globale des prix de ce panier, de 2020 à 2023 en


USD).
Denrée alimentaire/ Anneé Prix 2020 Prix 2023 Q en 2020 Q en 2023 Val

Riz 400 600

Botte de legumes(Pondu) 200 450

Poissons Mpiodi par kilo 230 380

Farine de manioc par ekolo 80 210

Total 910 1640

Igp = 1640/920 x 100 = 180,22%; soit une hausse de prix de 80,22%, de 2020 à 2023.

Indice global de consommation Igc

Igc (indice global de consommation)= (∑valeur1/ ∑valeur 0)x100

Valeur =Prix . Quantité ( valeur=P.Q)

2 Sommes pondérées

Ici, les pondérations sont des facteurs qui peuvent influer sur la valeur de l'article,
comme le carburant, la distance, etc. Cependant, dans certains cas, la quantité est une
pondération.

► Année de base (par l'auteur Laspeyres) : IL = ∑ (p1.q0) /∑(p0q0) x 100 ; Ici,


c'est la quantité qui est prise comme pondération.

Exemple: soit le tableau de denrées qui suit. Calculons l'évolution des prix(en
dollars) de ce panier entre 2020 et 2023.

Denrées Quantité Prix en 2020 Prix en 2023 P0q0 P1q0


2020 et 2023
Fufu 1 sacs 85 430
70

Riz 1 sac 88 130


Viande 1 kgs 110 170

IL= 7380/5313 x 100 = 138,90%; une inflation de 38,90% de prix de denrées, 2020-
2023.

► Année courante (actuelle) (par Paasche) : IP= ∑(p1.p0) / ∑(p0q0) x 100


Denrées Qté en Prix 2005 Qté 2010 Prix 2010 P1q1 P0q1
2005
Riz 5kgs 100 Fc 10kgs 500Fc 5000 1000
Viande 1kg 150Fc 2kgs 400Fc 800 300
Poisson 1kg 240Fc 2kgs 450Fc 900 480
Carburant 1 litre 50Fc 2 litres 150Fc 300 100

7000
1880 IP= 7000/8000 x 100 = 372,34%; Soit une inflation de 272,34 %, de 2005 à
2010.
71

Exercices d’Application

1. Qu’entendez-vous par statistique ? Expliquer les deux types de statistique

2. Donner la nature de ces variables en mettant une croix au regard de


chaque caractère.

Quantitatif
Item Qualitatif Quantitatif Type
Caractères continu
discontinu d’échelle
01 Sexe
02 Etat matrimonial
03 Age
04 Taille
05 Couleur des yeux
06 Poids
07 Tensions artérielles
08 Taux de cholestérol
09 Région Habitée
10 Nationalité
11 Chiffre d'affaires
12 Taille des
13 entreprises
14 Revenu familial
15 Nombre de
16 personne habitant
17 une résidence
18 Nombre de place
19 au cinéma
20 Nombre d'enfants
par ménage

3. Nommez les quatre niveau de mesure. Donnez un exemple de chaque


niveau
72

4. pour connaître le rendement d'une mission de télévision, on tire au hasard 1000


personnes qui paient la taxe parmi une population de 5000 dont 3000 hommes et
2000 femmes.

a) S'agit-il de quel type d'échantillon ?

b) Pourquoi

c) Tracer le tableau de l’échantillon stratifié

d) De quelle population cet échantillon est-il représentatif ?

5. donnez la différence entre un recensement et un sondage

6.Voici le nombre de mètres de tissu tissé, par ouvrier, dans un atelier comptant 50
ouvriers.
24 25 29 23 27 25 28 20 29 22
22 24 26 21 32 30 26 25 34 24
26 31 27 35 21 32 30 26 34 26
28 37 28 28 29 26 19 21 30 30
23 20 25 27 17 22 24 20 25 31
Pour "pointer" le nombre d'observations d'une même valeur, utiliser le procédé du
pâturage. Faire le regroupement en classes et compléter le tableau ci-dessous:
Valeurs de X f fr fc % Fc %
73

7.Soit la distribution des salaires d'une entreprise (en $)

X F fc fr
La proportion des travailleurs ayant un
20-24 5
salaire compris entre 30$ et 39$ est de :
25-29 12
30-34 8
a) 74% b) 20% c) 16% d) 24%
35-39 12
e) aucune bonne réponse
40-44 6
45-49 7

8.La fréquence relative d'une classe s'obtient en divisant l'effectif de la classe par:
a) L'effectif total?
b) Le nombre des classes?
c) L'amplitude de la classe?

9. les ouvriers d'une entreprise sont repartis en fonctions de leurs salaires horaire,
dans le tableau suivant:

Salaire (en fc) effectifs Xc Fc %Fc


[20-25[ 38
[25-30[ 59
[30-35[ 47
[35-40[ 24
[40-45[ 12
Plus de 45 2

a) Calculer le centre de chaque classe


b) Calculer la fréquence cumulée de chaque classe
c) Calculer le pourcentage cumulé de chaque classe.
d) Quelle est la proposition d'ouvriers gagnant un salaire moins de 35FC de
l'heure?
e) Quelle est la proposition d'ouvriers gagnant un salaire supérieur à 35FC de
l'heure?
74

10.L'étude statistique d'une population a permis de regrouper les individus par


classe dont les centres sont les suivants: 52, 60, 68, 76, 84, 92

a) Quel est l'intervalle des classes?…………………………………………...

b) Calculer la limite inférieure et la limite supérieur de chaque classes?…….


…………………………………………………………………………….

11.Le caractère quantitatif discret x admet le tableau de distribution suivant:

Valeurs 1 2 3 4 5 Total
10,5% 22,3% 30,4% 23,6% 13,2% 100%
Proportion

fc

Quelle est la fréquence cumulée croissante pour X=3? (choisir la bonne la réponse)
a) 67,2% b) 63,2% c) 32,8% d) 30,4%

12. Tracez le diagramme à secteus des données N° 1

13. Un histogramme est une représentation graphique de la distribution de


fréquence d'une variable statistique continue?
Vrai ( ) faux ( ) douteux ( )
Interprétez :
75

14. En vous servant des données N° 6, tracez un histogramme.

15. Le tableau suivant donne la production énergétique de la France en 1980 et


1988 en fonction des différents types d'énergie

1980 1988 %1980 %1988


Energie
Charbon 24 8
Pétrole 4 3
Gaz 11 2
Hydraulique 28 17
Nucléaire 25 62
Energies nouvelles 5 4
TOTAL

Comparer ces résultats à l'aide d'un polygone de fréquence


76

16. Mettre une croix dans la case correspondant à la nature de chaque indicateur
numérique suivant:

Paramètre de Paramètre de Paramètre de


autres
position dispersion forme
a) Ecarts
absolus moyen
à la médiane
b) Effectif total
c) Troisième
décile
d) Coefficient
de Ficher

17. Mettez une croix dans la case correspondant à chaque paramètre:

paramètre position dispersion forme


Autres
a) moyenne arithmétique
b) quantité
c) Ecart-moyen
d) Mode
e) Variance
f) Ecart-type
g) Médiane
h) Décile

18. En vous servant des données de la question N° 6


Compléter le tableau suivant:
a Somme des carrés des écarts à la moyenne
b Somme des carrés des écarts à la médiane
c Somme des écarts à la médiane
d Somme des écarts à la médiane
77

X f

19. Dans une série statistique, il est possible de déterminer dix déciles
Oui ( ) Non ( )
20. En vous référant aux données de la question N° 7 calculer :
➢ La moyenne:

➢ Le mode:

➢ Médian:

21. Si la représentation graphique d'une distribution est étalée vers la droite, on a :


a) X < ‫ח‬dn< ‫ח‬o
b) MO < X < ‫ח‬dn
c) MO < ‫ח‬dn < X
d) MO = ‫ח‬dn = X
22. Le mode d'une distribution de données discrètes représente:
(Encercler la bonne réponse)
a) Une tendance centrale de la distribution
b) Un centre de graviter
c) Une donnée plus fréquente que les autres
78

23. Une moyenne représente, par rapport aux données:


(Encercler la bonne réponse)
a) Un point milieu
b) Un centre de graviter
c) Une donnée plus fréquente.

24 Voici une distribution de données


Classes 50-59 60-69 70-79 80-89 90-100
Effectif 3 5 4 5 3
− Calculer :
• Le mode:

• L'Ecart moyen:

• La variance:

• L'Ecart type:

25. Quelle est la classe la plus homogène? Pourquoi ?


(Encercler la bonne réponse)
Classes : A B C D
Moyenne: 68 72 70 67
Ecart-type: 9.1 10.2 8.3 9.8

26. Indiquez vrai, faux ou douteux (Mettez une croix dans la bonne case)
a) La variance d'échantillon est une estimation de la variabilité dans la
population: Vrai ( ), Faux ( ), Douteux ( )
b) Dans certains cas, la variance d'un échantillon est négative:
Vrai ( ), Faux ( ), Douteux ( )
c) La somme des carrés des écarts par rapport à la valeur zéro est égale à la
somme des carrés des données: Vrai ( ), Faux ( ), Douteux ( )
d) La variance et les données sont exprimées par la même unité.
Vrai ( ), Faux ( ), Douteux ( )
e) L'écart type et la variance sont exprimés par la même unité.
Vrai ( ), Faux ( ), Douteux ( )
79

27. On considère l'ensemble de nombres suivants:

12 16 18 6 10 8 15 17 13 15
- Calculer l'écart type de cette série……………………………………..

- Quelle est l'étendue de la distribution?…………………………………

- Quel est le médian?……………………………………………………..


28. On considère la distribution suivante
Classes 15-24 25-34 35-44 45-54 55-64 65-74 75-84
9 15 22 29 17 6 2

Calculer:
Q1 =

Q2 =

Q3 =

EIQ =

29. Cette distribution est (justifier votre réponse):


a)Symétrique …………………………………………………………………………
b) Asymétrique +…………………………………………………………………….

c) Asymétrique – …………………………………………………………………...

30. En vous servant des données de l'exercice N° 29, tracer la courbe


de distribution normale (courbe de Gauss)
31. Un indice statistique est toujours supérieur à 100.

Vrai ( ), Faux ( ), Douteux ( ):


32. Une entreprise fabrique le même produit dans deux lieux géographiques
différents. Ce produit nécessite trois matières premières identiques, mais dans
des proportions différent compte tenu de procédés de fabrication différents.
80

33. Le tableau ci-dessous indique, pour chaque lieu, les prix et les quantités
commandées de ces trois matériaux au cours d'une même période:

Prix Quantités
Produits
2022 2023 2022 2023

A 3.80 4,05 300 200

B 4,75 4,50 300 400

C 5,50 5,50 400 400

− Calculer :

a) indice de Laspeyres =

b) indice de Paasche =

C) Classer les trois produits suivant ordre croissant d'augmentation du


chiffre d'affaire:………………………………………………………

34.Le personnel d’un cabinet médical a étudié les temps d’attente des patients qui
arrivent au cabinet pour urgence. Les données suivantes ont été colletées au cours
d’un mois (les temps d’attente sont en minutes).
44 12 22 31 26 22 30 26 18 28 12 40 17 13 14 17 25 29 15 30 10 28 16
33 24 20 29 34 23 13
1. Construire la distribution de fréquence
2 .Construire la distribution de fréquence relative
3. Construire la distribution de fréquence croissante et décroissante.
4. Quelle est la proportion et le pourcentage de patients qui viennent en urgence et
qui ont un temps d’attente inférieur ou égal à 9 minutes ?
5. Tracer un histogramme de cette distribution
6. Tracer la médiane par la méthode graphique
81

7. Calculer

Médiane =

le Mode =

Moyenne de temps d’attente =

Ecart type =

Coefficient de variation=

8. Démontrer que cette distribution est symétrique ou asymétrique ?

9. Indiquer la moyenne et l’Ecart type sur la courbe de Gauss.


82

REFERENCES

Anderson, D., Sweeney, D., & Williams, T. (2005). Statistiques pour l’économie et
la gestion. Paris.

D’hainaut, L. (1978). Concepts et méthodes de la statistique (Labor). Bruxelles.

Lind, D. D., Marchal, W. G., Mason, R. D., Gupta, S. D., Kabadi, S., & Singh, J.
(2007). Méthodes statistiques pour les sciences de la gestion (Chenelière).
Quebec (Canada).

Wonnacott, R., & Wonnacott, R. (1995). Statistique ( Economie, Gestion, Sciences,


Médecine) (ECONOMICA,). PARIS.

Vous aimerez peut-être aussi