Vous êtes sur la page 1sur 25

République Démocratique du Congo

ENSEIGNEMENT SUPERIEUR ET UNIVERSITAIRE


UNIVERSITE FRANCOPHONE
D’AFRIQUE
Agréée par l’arrêté Ministériel N°
061/MINESU/CAB.MIN/SMM/JPK/JMB/2019
DU 18/02/2019

Cours de statistique
descriptive
L1 LMD

CT KITENDA BAKONGO Jason


0894255428, 0994103094
versykitendajason@gmail.com
ANNEE-ACADEMIQUE 2023-2024

 INTRODUCTION
 OBJECTIF DU COURS

L’objectif de la statistique réside dans le fait que La statistique est un outil mathématique qui s’impose
c’est une science qui permet d’initié les étudiants aux dans toutes les disciplines.
techniques et méthodes utilisées en statistique pour D’abord développer dans les affaires publiques, son
récolter les données fiables sur une population influence se maintenant étendu à l’agriculture, à la
restreinte et traiter des données quantitatives envie de biologie, à la chimie, l’économie, la médecine etc.
faciliter la prise de décision C’est par une étude statistique que l’économiste établit
ces prévisions, le médecin évalue l’efficacité de
nouveaux produits et identifié les maladies
caractéristiques d’une région
En d’autre terme, c’est la statistique qui nous permet
d’organiser les données d’observations, de dégager les
tendances cacher ou de régulariser là ou apparemment
règne un désordre ou une confusion et de tirer les
conclusions rigoureuses
On s’intéresse à des unités statistiques ou unités
d’observation, par exemple : des individus, des
entreprises, des ménages. En sciences humaines, on
s’intéresse dans la plupart des cas à un nombre fini
d’unités, Sur ces unités, on mesure un caractère ou une
variable, le chiffre d’affaire de l’entreprise, le
revenu du ménage, l’âge de la personne, la catégorie
socioprofessionnelle d’une personne. On suppose que la
variable prend toujours une seule valeur sur chaque unit
CHAPITRE 1 : GENERALITES ´. Les variables sont désignés par simplicité par une
lettre (X, Y, Z).
Les valeurs possibles de la variable, sont appelées
1. Définition des termes
modalités. L’ensemble des valeurs possibles ou des
modalités est appelé le domaine de la variable. On
A. Statistique distingue :
– Variable qualitative : La variable est dite
Le mot statistique a deux sens : qualitative quand les modalités sont des
catégories.
 Statistiques : qui désignent des collections des
– Variable qualitative nominale : La variable est
chiffres ou des données numériques présenté
dite qualitative nominale quand les modalités ne
parfois sous forme des tableaux relatifs à un même
peuvent pas être ordonnées.
phénomène.
– Variable qualitative ordinale : La variable est
Exemple : statistique de naissance de la ville de
Matadi pour une période de 10 ans dite qualitative ordinale quand les modalités
peuvent être ordonnées. Le fait de pouvoir ou non
 Statistique qui est une science au sujet de cette ordonner les modalités est parfois discutable. Par
dernière beaucoup de définition peuvent être exemple : dans les catégories
proposées mais nous retenons celle qui englobe le socioprofessionnelles, on admet d’ordonner les
tout et qui est claire : la statistique est un modalités : ouvriers, employés, cadres. Si on
ensemble des méthodes scientifiques à partir de ajoute les modalités sans profession, enseignant,
quel on organise, on résume, on présente et on artisan, l’ordre devient beaucoup plus discutable.
analyse de donner et qui permet d’en tirer les – Variable quantitative : Une variable est dite
conclusions et de prendre les décisions quantitative si toutes ses valeurs possibles sont
judicieuses. numériques.
– Variable quantitative discrète : Une variable est
B. Variables dite discrète, si l’ensemble des valeurs possibles
est dénombrable.
2019 2
C. Population et échantillon 2020 5
2021 6
1. Population 2022 8

On appelle population, tout ensemble soumis à une étude  Les séries statistiques simples : elles indiquent
statistique. Lorsqu’on veut connaitre par exemple la tout simplement la distribution des effectifs pour
taille moyenne des étudiants d’une classe ; l’ensemble
chaque valeur de caractère ou variable
des étudiants de cette classe constitue la population

2. Echantillon Exemple : 2, 5, 6, 7, 19

Est un groupe représentatif de la population soumise à  Les séries statistiques à terme groupe : il s’agit
une étude. Nous pouvons chercher à connaitre la taille de données groupées en classe
moyenne des étudiants de l’ISC Matadi ; mais il nous
sera difficile de mesurer la taille de chaque étudiant F. Paramètre statistique
et ensuite calculer la taille moyenne. On va se
contenter d’examiner un petit groupe, ce petit groupe On appelle un paramètre la caractéristique d’un
qui est un sous-ensemble de la population s’appelle phénomène mathématique moyenne médian par exemple obtenu
« échantillon » à partir d’une population
Une statistique est une caractéristique d’un phénomène
D. Cas observation, fréquence, effectif mathématique moyenne médian par exemple obtenu à partir
d’un échantillon
En considérant chaque valeur que prend une variable, on
peut chercher à saisir combien d’individus ont cette 2. Division de la statistique
valeur. Le nombre d’individus qu’on cette valeur est
appelée fréquence, nombre de cas d’observation ou Le champ de la statistique que nous avons décrit ci-
effectif dessus comprend des données qui peuvent être réparties
en deux catégories. Il y a des données de la statistique
E. Série ou distribution statistique descriptive et celle de la statistique inductive.

Une série ou une distribution statistique c’est a. La statistique descriptive : elle se limite à
l’ensemble des données numériques relatives à un décrire ou à analyser une population donnée, mais
phénomène. On peut distinguer : sans tirer de conclusion sur une population plus
 Les séries chronologiques : permettent de suivre grande. Elle est aussi appelée statistique
l’évolution d’un phénomène dans le temps déductive
Exemple : production du riz en tonne
Années Tonnes
b. La statistique inductive ou mathématique : elle se - Observation directe et observation indirecte :
base sur des probabilités pour établir des implique observer les phénomènes et les conditions
conclusions. Elle nous dira comment les valeurs qui l’entourent unité par unité. Nous effectuerons
(moyenne médian ; écart-type …) obtenu à partir une observation indirecte lorsqu’à partir des
d’un petit groupe d’individu (échantillon) données statistiques déjà connues pour un certain
représenter avec une certaine probabilité seul du fait ou phénomène, nous déduisons des données
grand groupe (population) d’où est tiré ce groupe statistiques relatives à un autre fait
restreint
- Observation exhaustive ou partielle : lorsqu’elle
porte sur la totalité des éléments de la
population. Si l’observation porte seulement sur
une partie de la population, partie appelée
CHAPITRE 2 : COLLECTE DES DONNEES ET échantillon, l’observation est dite partielle
PRESENTATION DE DISTRIBUTION STATISTIQUE - Obtention des données moyennant un questionnaire :
très utilisé pour l’obtention des données
2.1 Collecte de données
statistiques.
Toute analyse qui nécessite l’utilisation de données
La rédaction du questionnaire doit être soigneusement
commence par la collecte. Il y’a à cette effet deux
élaborée. Ainsi, un bon questionnaire doit remplir
sources :
certaines normes telles que : adéquation au niveau
culturel des interrogés ; clarté dans les questions ;
2.1.1 Sources des données
le questionnaire doit être complet ; discrétion ;
Les services de l’Etat, les entreprises et les vérification
organismes spécialisés, forment ensembles les sources
administratives 2.1.3 Elément constitutif d’un tableau
Les sources non administratives : il s’agit des enquêtes statistique
qu’il faut réaliser parce que les données n’existent pas
auprès des sources administratives Un tableau statistique qui est bien présenter doit
Il y’a lieu de relever que recueillir des données contenir les éléments suivants :
statistiques présente des difficultés et source 1. Le numéro et le titre du tableau
d’erreurs 2. Les unités de mesures utilisées
3. Les titres des lignes et des colonnes
2.1.2 Méthodes d’observation 4. Les notes : symbole pour expliquer certains
éléments du tableau
L’observation d’un phénomène à étudier peut s’effectuer
de plusieurs manières :
5. Les sources de données qui indiquent les Dans une classe i il y a deux limites : la limite
références de documents d’où proviennent les inferieure L1i et la limite supérieure L2i si la variable
données est discontinue ou discrète la limite supérieure de la
classe i est différente de la limite inférieure de la
Exemple : classe i+1 si la variable est continue la limite
Tableau 1 : présentation annuelle de ciment en RDC de inférieur de la classe i est égale à la limite supérieur
2016-2021(en tonnes métrique) de la classe 2
ANNEE CIMENT CIMENT TOTAL
S PORTLAND METALIRGIQUE  Frontière d’une classe
(gris) (blanc) (1)
2026 192 122 9 304 201 426 Dans une classe il y’a deux frontière : inférieur et
2017 233 943 15 766 249 709 supérieur
2018 315 427 15 367 330 794 F1i = L1i+L2i-1/2
2019 395 309 15 984 411 293 F2i = L2i+Li(+1)/2
2020 521 368 2 631 523 999
2021 519 233 2 020 521 253  Centre d’une classe ou milieu d’une classe
(1) y compris production de cimenterie de KATANGA (CIMENKAT)
mi = F1i+F2i/2
Source : banque centrale du Congo, rapport annuel 2021, Kinshasa, page 65
 Intervalle d’une classe
2.1.4 Concept relatifs aux tableaux classifié
ai = F2i-F1i
L’intervalle de classe peut être constant ou variable.
 Valeur extrême de la distribution.
Si toutes les classes ont les mêmes intervalles, ont dit
Dans une distribution extrême il y a deux valeurs que las classes sont égales, si l’intervalle de classe
extrêmes, la plus petite valeur n et la plus grande sont variables on dit que les classes sont inégales
valeur N
 L’étendu  Classe fermée et semi fermée ou semi ouvertes

Elle est donnée par la différence entre la note (la Une classe est fermée lorsque les deux limites sont
valeur) la plus élevée et la plus petite de la série é= données
L-l
 Nombre d’unité entière comprise entre la plus  Intervalle d’une classe semi-fermée
petite valeur et la plus grande Pour déterminer l’intervalle d’une classe semi-fermé, il
faut observer les intervalles de classes fermés. Si les
U = é+1
intervalles de classes fermées sont constants on
attribue à la classe semi-ouverte l’intervalle des
 Limite d’une classe
autres classes. Si l’intervalle de classe fermée est
variable, on attribue à la première classe qui est
ouverte à gauche l’intervalle de la deuxième classe et
on attribue à la dernière classe qui est ouvert à droit Les différentes situations de familles possibles se
l’intervalle de l’avant dernière classe verront affecter des indices ou des numéros : Ainsi, les
2.1.4 Séries statistiques 20 personnes interrogées ont fourni les réponses
suivantes :
On appelle série statistique la suite des valeurs prises
par une variable X sur les unités d’observation. On
distingue entre les sériés statistiques les séries Le dépouillement va consister à compter le nombre de cas
suivantes : correspondant au caractère
Le dépouillement pourra se présenter de la manière
a. Séries temporelles : les résultats obtenues suivante :
de l’observation d’un phénomène quantifiable
au cours de différentes périodes de temps Situation familiale X Nombre de cas ni
M 7
Exemple : production de riz des années suivantes en D 2
tonnes C 9
Années Tonnes V 1
2015 70
2016 60
2017 80
2018 87
d. Série des fréquences quantitatives
b. Séries de coupe transversale (cross-section)
Cas de variable, quantitative discontinue. Il y a deux
possibilités qui nous sont offertes ici dans ce cas.
Lorsque les observations d’un phénomène ou d’un
caractère se font durant un instant ou bien une période
- Premier procédé : on fait seulement correspondre à
déterminée, nous nous référons à une série temporelle
c’est-à-dire une série de coupe transversale. chaque valeur entière le nombre de cas qui s’y
rapporte
c. Les séries des fréquences qualitatives
Exemple : en vue d’organiser rationnellement le service
Supposons qu’on ait dressé un tableau statistique d’aide, une paroisse veut connaitre le nombre d’enfants
portant sur la situation familiale de 20 personnes de dont se composent les familles de ses fidèles. Les
sexe masculin : la variable qualitative peut prendre les résultats suivants ont été enregistrés :
aspects suivants : célibataire, mariés, veufs, divorcés. 2,1,1,6,4,8,1,5,4,7,3,2,2,2,3,12,13,3,2,1,5,1,7,4,10,2,1
Pour faciliter le dépouillement, on a choisi un code. 2,12,15
X Ni
1 5
2 6
3 3
4 3 4. Découper les classes de telle sorte que la limite
5 2 inférieure de la première classe soit égale à la
6 1 plus petite valeur observé
7 2 5. Déterminer les effectifs de chaque classe
8 1
10 1 Exemple : reprenons les résultats de l’exemple ci-
12 3 dessus :
13 1 2,1,1,6,4,8,1,5,4,7,3,2,2,2,3,12,13,3,2,1,5,1,7,4,10,2,1
15 1 2,12,15
Ces résultats peuvent se lire : Calculons l’étendue : 15-1= 14
 5 familles ont 1 enfant chacune - S’il faut constituer cinq classe, I= 14+1/5= 3
 6 familles ont 2 enfants chacune - La constitution de classes : en suivant la
 3 familles ont 3 enfants chacune etc. procédure décrite ci-dessus on obtient les classes
suivantes ainsi que les effectifs s’y rapportent :
Mais lorsque les données sont nombreuses par exemple 100
chiffres différents, cette procédure devient classes Ni
désagréable, d’où un procédé ; 1 - 3 14
4 - 6 6
- Deuxième procédé : le groupement en classe lorsque 7 - 9 3
les données deviennent très nombreuses 100 par 10 - 12 4
exemple, le procédé ci-dessus devient incommode. 13 - 15 2
D’où la nécessité de grouper les données en
classe. NB : si le nombre de classes sont trop élevées
l’effectif et l’information sera trop dispersé et
lorsque le nombre de classes sont trop petits par
2.1.5 Elaboration d’un tableau classifié
rapport au nombre des données, on obtient suffisamment
l’information
Premier cas : si l’intervalle à utiliser est constant
Deuxième cas : si l’intervalle est variable il n’y a pas
c’est-à-dire ai = constant
de formule à appliquer pour déterminer le nombre de
1. Déterminer le nombre d’unité entière comprise
classe, généralement le nombre de classe varie de 5 à 10
entre la plus petite et la plus grande U =é+1 dans les régions ou les effectifs sont élevés.
é =L-l On a un intervalle de 3 (on l’appel intervalle étroit)
2. Choisir l’intervalle ai a utilisé et large dans les régions ou les effectifs sont faible
3. Déterminer le nombre de classe U/ai. Le nombre de
classe doit être de chiffre entier, par conséquent 2.1.7 Effectif, fréquences et tableau statistique
si U/ai donne le nombre de classe en décimal, il
Une variable qualitative nominale a des valeurs
faut impérativement arrondir à l’unité supérieur distinctes qui ne peuvent pas être ordonnées. On note J
le nombre de valeurs distinctes ou modalités.
Les valeurs distinctes sont notées x 1 , . . . ,
xJ , . . . , xJ. On appelle effectif d’une modalité ou
d’une valeur distincte, le nombre de fois que cette
modalité (ou valeur distincte) apparait. On note n J
l’effectif de la modalité x j . La fréquence d’une Exemple : On interroge 50 personnes sur leur dernier
modalité est l’effectif divisé par le nombre d’unités diplôme obtenu (variable Y). La codification a été faite
d’observation. selon le Tableau ci-dessous. On a obtenu la série :
Codification de la variable Y

Exemple : soit une distribution :


Situation Nombre de cas Fr(n/N) Fr %
familiale X ni
M 7 O,3684 36,84
D 2 0,1052 10,52
C 9 0,4736 47,36 Série statistique de la variable Y
V 1 0,0526 5,2631
TOTAL 19 100

2.2 Représentations graphiques


Tableau statistique complet
2.2.1 Diagramme en secteurs et diagramme en barres
Le tableau statistique d’une variable qualitative
nominale peut être représenté par deux types de
graphique. Les effectifs sont représentés par un
diagramme en barres et les fréquences par un diagramme 2.2.1.1 Diagramme en secteurs
en secteurs (ou camembert ou piechart en anglais) Les fréquences d’une variable qualitative ordinale sont
Exemple : soit une distribution suivante : représentées au moyen d’un diagramme en secteurs

2.2.1.2 Diagramme en barres des effectifs


On nous demande de présenter le diagramme en secteur et
Les effectifs d’une variable qualitative ordinale sont
le diagramme en barre
représentés au moyen d’un diagramme en barres
L’histogramme consiste à représenter les effectifs (resp.
les fréquences) des classes par des rectangles contigus
dont la surface (et non la hauteur) représente l’effectif
(resp. la fréquence). Pour un histogramme des effectifs,
la hauteur du rectangle correspondant à la classe j est
donc donnée par :
2.2.1.2.1 Diagramme en barres des effectifs cumulés
Les effectifs cumulés d’une variable qualitative ordinale
sont représentés au moyen d’un diagramme en barres - On appelle hj la densité d’effectif.
- L’aire de l’histogramme est égale à l’effectif
total n, puisque l’aire de chaque rectangle est
égale à l’effectif de la classe j : aj × hj = nj .

Pour un histogramme des fréquences on a :

- On appelle dj la densité de fréquence.


- L’aire de l’histogramme est égale à 1, puisque
l’aire de chaque rectangle est égale à la
fréquence de la classe j : aj × dj = fj .

2.2.2 Diagramme en bâtonnets des effectifs


Ci-dessous l’histogramme des fréquences de l’exemple
Quand la variable est discrète, les effectifs sont précédent :
représentés par des bâtonnets

2.2.3 Histogramme
Cette valeur centrale doit avoir une bonne
caractéristique qui doit se traduire à travers les
normes suivantes :

- La caractéristique de la valeur centrale doit être


définie objectivement à partir des données de la
série ;
- La valeur centrale doit dépendre de toutes les
observations de la série dans la mesure de
position ;
- Elle doit avoir une signification concrète, simple
et facile à comprendre ;
- Elle doit être d’un calcul facile et rapide ;
- Elle doit être sensible aux fluctuations de
l’échantillonnage

3.2 Le mode

Le mode est la valeur distincte correspondant à


l’effectif le plus élevé, il est noté M o.
Si on reprend la variable état civile, dont le tableau
statistique est le suivant :

CHAPITRE 3 : MESURES DE TENDANCES CENTRALES

3.1 Généralités

La collecte et l’élaboration ultérieure des données


statistiques ne sont que des phases préliminaires des
processus statistique. Apres avoir collecté les données,
après avoir défini les unités statistique, après avoir
regroupé dans des tableaux ces données, il y a lieu
d’extraire de ces données une substance qui puisse Le mode est C : célibataire.
permettre de comparer deux ou trois série. On recourt
ainsi aux meures de position ou de tendance c’est-à-dire Remarque :
à une valeur centrale qui servira de comparaison. - Le mode peut être calculé pour tous les types de
variable, quantitative et qualitative.
- Le mode n’est pas nécessairement unique. Définition :
- Quand une variable continue est découpée en
classes, on peut définir une classe modale (classe
correspondant à l’effectif le plus élevé).

3.3 La moyenne

La moyenne ne peut être définie que sur une variable


quantitative.
La moyenne est la somme des valeurs observées divisée
par leur nombre, elle est notée :

La moyenne peut être calculée à partir des valeurs


distinctes et des effectifs

Exemple : Les nombres d’enfants de 8 familles sont les


suivants 0, 0, 1, 1, 1, 2, 3, 4. La moyenne est

On peut aussi faire les calculs avec les valeurs


distinctes et les effectifs. On considère le tableau :

3.3.1 Remarques sur le signe de sommation


On note alors Mé = 1

Nous allons examiner une manière simple de calculer la


médiane. Deux cas doivent être distingués.
- Si n est impair, il n’y a pas de problème (ici
avec n = 7), alors Mé = 1 :

- Si n est pair, deux valeurs se trouvent au milieu


de la série (ici avec n = 8)

Mé =

Remarque : La médiane peut être calculée sur des


variables quantitatives et sur des variables
qualitatives ordinales.

3.5 Quantiles

La notion de quantile d’ordre p (ou 0 < p < 1)


généralise la médiane. Formellement un quantile est
donné par l’inverse de la fonction de répartition :
Si la fonction de répartition était continue et
strictement croissante, la définition du quantile serait
sans équivoque. La fonction de répartition est cependant
discontinue et “par palier”. Quand la fonction de
3.4 La médiane répartition est par palier, il existe au moins 9
manières différentes de définir les quantiles selon que
La médiane, notée Mé, est une valeur centrale de la l’on fasse ou non une interpolation de la fonction de
série statistique obtenue de la manière suivante : répartition. Nous présentons une de ces méthodes, mais
il ne faut pas s’étonner de voir les valeurs des
- On trie la série statistique par ordre croissant quantiles différer légèrement d’un logiciel statistique
à l’autre.
des valeurs observées. Avec la série observée :
- Si np est un nombre entier, alors

- Si np n’est pas un nombre entier, alors


- La médiane Mé est la valeur qui se trouve au milieu
Ou ⌈np⌉ représente le plus petit nombre entier supérieur
de la série ordonnée : ou égal à np.
4.1 Mesures de dispersions

1. L’étendue

L’étendue est simplement la différence entre la plus


grande et la plus petite valeur observée.

2. La distance interquartile

La distance interquartile est la différence entre le


troisième et le premier quartile :

3. La variance

La variance est la somme des carrés des écarts à la


moyenne divisée par le nombre d’observations :

ou

CHAPITRE 4 : MESURES DE DISPERSIONS ET DE FORMES 4. L’écart-type


DES DISTRIBUTIONS L’écart-type est la racine carrée de la variance :
Exemple : Soit la série statistique 2, 3, 4, 4, 5, 6, 7,
De toutes les mesures de position étudiées, la plus 9 de taille 8. On a
utilisée est la moyenne arithmétique dans la pratique.
Son emploi n’est pas toujours courant à cause du manque
de la résentativité due à une excessive dispersion des
valeurs de la variable autour d’elle
Ainsi, pour compléter l’information qui peut être
délimité de la moyenne arithmétique et pour éviter de
fausses conclusions et des interprétations énoncées, on
accompagne la moyenne arithmétique avec un coefficient
qui mesure le degré de dispersion de la distribution de
la variable. Il existe plusieurs de ces mesures 5. L’écart moyen absolu
L’écart moyen absolu est la somme des valeurs absolues Le moment centré d’ordre trois est défini par
des écarts à la moyenne divisée par le nombre
d’observations :

Il peut prendre des valeurs positives, négatives ou


nulles. L’asymétrie se mesure au moyen du coefficient
6. L’écart médian absolu d’asymétrie de Fisher

L’écart médian absolu est la somme des valeurs absolues


des écarts à la médiane divisée par le nombre
d’observations :

4.3.2 Coefficient d’asymétrie de Yule


4.2 Moments
Le coefficient d’asymétrie de Yule est basé sur les
1. Définition1 : On appelle moment à l’origine d’ordre r positions des 3 quartiles (1er quartile, médiane et
∈ N le paramètre troisième quartile), et est normalisé par la distance
interquartile :

Définition2 : On appelle moment centré d’ordre r ∈ N le


paramètre

Les moments généralisent la plupart des paramètres. On a 4.3.3 Coefficient d’asymétrie de Pearson
en particulier
Le coefficient d’asymétrie de Pearson est basé sur une
comparaison de la moyenne et du mode, et est standardisé
par l’écart-type :

Nous verrons plus loin que des moments d’ordres Tous les coefficients d’asymétrie ont les mêmes
supérieurs (r=3,4) sont utilisés pour mesurer la propriétés, ils sont nuls si la distribution est
symétrie et l’aplatissement. symétrique, négatifs si la distribution est allongé à
gauche (left asymmetry), et positifs si la distribution
4.3 Paramètres de forme est allongée à droite (right asymmetry) comme montré ci-
dessous :
4.3.1 Coefficient d’asymétrie de Fisher (skewness)
4.3.4 Paramètre d’aplatissement (kurtosis)

L’aplatissement est mesuré par le coefficient


d’aplatissement de Pearson

CHAPITRE 5 : SERIES STATISTIQUES DE DEUX


VARIABLES

5.1 Série statistique bi variée

On s’intéresse à deux variables x et y. Ces deux


variables sont mesurées sur les n unités d’observation.
Pour chaque unité, on obtient donc deux mesures. La
série statistique est alors une suite de n couples des
valeurs prises par les deux variables sur chaque
individu :

Chacune des deux variables peut être, soit quantitative,


soit qualitative. On examine deux cas :
- Les deux variables sont quantitatives.
- Les deux variables sont qualitatives. 5.2.3 Covariance

5.2 Deux variables quantitatives La covariance est définie


Remarque :
5.2.1 Représentation graphique de deux variables - La covariance peut prendre des valeurs positives,
négatives ou nulles.
Dans ce cas, chaque couple est composé de deux valeurs - Quand xi = yi , pour tout i = 1, . . . , n, la
numériques. Un couple de nombres (entiers ou réels) peut covariance est égale à la variance.
toujours être représenté comme un point dans un plan
La covariance peut également s’écrire :

Exemple : On mesure le poids Y et la taille X de 20


individus.

5.2.2 Analyse des variables 5.2.4 Corrélation

Les variables x et y peuvent être analysés séparément. Le coefficient de corrélation est la covariance divisée
On peut calculer tous les paramètres dont les moyennes par les deux écart-types marginaux :
et les variances :

Le coefficient de détermination est le carré du


coefficient de corrélation :

Ces paramètres sont appelés paramètres marginaux :


variances marginales, moyennes marginales, écarts-types
marginaux, quantiles marginaux, etc.. . .
5.2.5 Droite de régression

La droite de régression est la droite qui ajuste au


mieux un nuage de points au sens des moindres carrés. On
considère que la variable X est explicative et que la
variable Y est dépendante. L’équation d’une droite est y
= a + bx.
Le problème consiste à identifier une droite qui ajuste
bien le nuage de points. Si les coefficients a et b
étaient connus, on pourrait calculer les résidus de la
régression définis par :
3.2.6 Résidus et valeurs ajustées 5.2.7 Sommes de carrés et variance
Les données observées peuvent être regroupées sous la
forme d’un tableau de contingence

5.3. Deux variables qualitatives CHAPITRE 6 : THEORIE DES INDICES, MESURES


D’INEGALITE
5.3.1 Données observées
Pour l’étude des phénomènes économiques et sociaux, on a
Si les deux variables x et y sont qualitatifs, alors les souvent besoin de décrire les variations de grandeurs
données observées sont une suite de couples de variables économique simples telles que : le prix du blé, la
Chacune des deux variables prend comme valeurs des production du mais, l’exportation d’automobile, etc.
modalités qualitatives. Les valeurs distinctes de x et y Ces comparaisons dans le temps et dans l’espace, se
sont notées respectivement font généralement en effectuant le rapport des
grandeurs considérées : on parle d’indices
statistiques élémentaires ou simples.
Mais, il est encore plus important d’être en
mesure de suivre les évolutions de grandeurs
5.3.2 Tableau de contingence complexes comme le niveau général des prix, la
production industrielle, les exportations, etc.
celles-ci peuvent être résumées par telles ou b) Indice dans l’espace :
telles caractéristiques de tendance centrale des
indices élémentaires qui leurs correspondent : on parle La densité de la population par Km 2 en 2003 (source
alors d’indices synthétiques. W.T.O) est de 416 H/Km sur l’ensemble de la wilaya de
Tizi-Ouzou, et de 1319 H/Km2 pour la commune de Tizi-
Section 1 : Les indices élémentaires ou simples : Ouzou.
L’indice de la densité de la commune, la wilaya étant
1. Définition choisie comme la base, est égal à :
La densité de la commune représente 3,17 fois celle de
Un indice simple noté It/o de la grandeur G est le rapport la wilaya.
de la valeur Gt, prise par la grandeur à l’époque t, à
la valeur Go prise à la date 0, soit :
2. Les propriétés des indices élémentaires :
Cet indice exprime donc la variation ou l’évolution de
la grandeur G entre deux dates « t » et « 0 ». La date Les indices élémentaires se caractérisent par : la
« t » est la date finale (courante), la date « 0 » est circularité, la réversibilité, et l’identité.
la date de référence ou de base.
Dans le cas de comparaisons géographiques, ou 2.1 La circularité :
comparaison dans l’espace, on note l’indice de la
région A par rapport à la région B : IA/B Elle s’exprime de la manière suivante :

Ceci est aussi appelé le principe d’enchainement des


indices ou de transférabilité.
B : région de référence.
A : région courante. 2.2 La réversibilité :

Application : Elle s’exprime de la manière suivante :

a) Indice dans le temps : 2.3 L’identité :

Le prix d’un litre d’huile est passé de 250 F à 400 F Elle s’exprime de la manière suivante :
entre 2005 et 2008. L’indice du prix d’huile de l’année
courante par rapport à l’année 2005 : Remarque :
Il est possible de calculer les indices élémentaires de
prix, de quantité, de valeur et de pouvoir d’achat :
On dit alors qu’il y a une augmentation de 60% (160% -
100%) du prix entre 2005 et 2008, ou encore le prix a
été multiplié par 1,6.
2.2 L’indice Laspeyres des quantités :
Section II : Les indices synthétiques :
On reprenant la définition précédente, l’indice
1. Définition : Laspeyres des quantités s’écrit :

Un indice synthétique se définit comme un rapport Pour obtenir la formule simplifiée, il suffit
de grandeurs complexes. Il est utilisé pour comparer d’intervertir les termes p et q dans la formule
des grandeurs complexes. Une grandeur complexe est une de Laspeyres de prix.
somme ou une agrégation de grandeurs simples. Par
exemple le blé et le mais sont des grandeurs
simples. La production agricole est une grandeur 3. L’indice de Paasche :
complexe.
On distingue les indices synthétiques de valeur, les L’indice de Paasche est la moyenne harmonique des
indices synthétiques de prix et les indices synthétiques indices élémentaires pondérés par les coefficients
de quantité. budgétaires de la date courante.
Il existe aussi trois formules de calcul de ces Le choix de la date de référence traduit la spécificité
indices : la formule de Laspeyres, la formule de de l’indice, l’indice de Paasche est défini en prenant
Paasche et la formule de Fischer. comme date de référence la date actuelle « t » et
non plus la date de départ « 0 ».
2. L’indice de Laspeyres (Economiste allemand) :

C’est la moyenne arithmétique des indices élémentaires


pondérés par les coefficients budgétaires de la date
ou période de référence.
Deux types d’indices sont distingués par 3.1 L’indice des prix de Paasche :
Laspeyres, l’indice des prix noté L P
et l’indice
des quantités noté LQ On reprenant la définition précédente, l’indice Paasche
2.1 L’indice des prix de Laspeyres : des prix s’écrit comme suit:

On reprenant la définition précédente, l’indice


Laspeyres des prix s’écrit comme suit:

On appelle cette formule la formule de définition ou Par la formule simplifiée, on élimine l’influence
pondérée. des quantités en les considérant comme fixes à la
Après simplification, la date de référence étant date de référence « t ». Ainsi :
la date « 0 », l’indice des prix de Laspeyres
s’écrit :
3.2 L’indice des quantités de Paasche :
Par définition, l’indice Paasche des quantités s’écrit centrale et ceux de la dispersion et tracez le
comme suit: diagramme en bâtons de cette distribution
b. Faire l’étude du caractère « Loisir » dresser le
tableau statistique, déterminer le mode et tracez
Pour obtenir la formule simplifiée, il suffit le diagramme en bâtons et le diagramme à secteurs.
d’intervertir les termes p et q dans la formule
du Pasche de prix : 2. On observe 100 fois le nombre d’arrivées (variable
X) de clients à un bureau de poste pendant un
intervalle de temps (10 minutes) et on obtient les
4. L’indice de Fischer : valeurs suivantes :
C’est la moyenne géométrique des indices de Laspeyres
et de Paasche.

a. Dresser le tableau statistique de la distribution


de la variable X (effectifs cumulés,…).
b. Calculer les valeurs de tendance centrale de la
Remarque :
L’indice de Fischer est compris entre ceux de Laspeyres distribution : la moyenne, le mode et les trois
et Paasches aussi bien pour les prix et pour les quartiles Q1, Q2 et Q3.
quantités. c. Calculer les valeurs de la dispersion de la
distribution : variance, l’écart type et
l’intervalle interquartile.
d. Tracer le diagramme en bâtons de cette
ANNEXE 1 : EXERICES
distribution.
1. On dispose des résultats d’une enquête concernant
l’âge et les loisirs d’une population de 20 3. On dispose des résultats d’une enquête concernant
personnes: les loyers annuels des appartements dans un
quartier de la ville.

Codification : S : Sport, C : Cinéma, T : Théâtre, L :


Lecture
a. Faire l’étude du caractère « âge » : dresser le
tableau statistique (effectifs, effectifs
cumulés), calculer les valeurs de tendance
a. Compléter le tableau statistique (valeurs
centrales, effectifs cumulés, fréquence, a. Calculer les moyennes marginales et les écarts
fréquences cumulés) types marginaux de X et Y,
b. Déterminez les valeurs de tendance centrale de la b. Déterminer la covariance et le coefficient de
distribution : moyenne, mode et les quartiles. corrélation linéaire,
c. Mesurez la dispersion de la distribution au moyen c. Déterminer la droite de régression de Y en
de : l’étendue, l’écart type et de l’intervalle fonction de X
interquartile. d. Estimer le temps de sommeil d’une personne de 66
d. Tracez l’histogramme de cette distribution. ans

4. On considère la série double suivante

a. Calculer la covariance,
b. Déterminer l’équation de la droite de régression Y
= aX + b
c. Le coefficient de corrélation linéaire,
d. Le coefficient de détermination

5. Une expérience a été réalisée sur 250 personnes


pour étudier la relation qui existe entre l’âge X
et le temps de sommeil Y. le tableau suivant a été ANNEXE 3 INTERROGATION GENERALE
obtenu : CODE……………
1. Quelle différence faite vous entre :
a) Donnée quantitative et donnée qualitative
b) Echantillon et population statistique
c) Recensement et sondage
d) Unité statistique et caractère

2. Quels sont les éléments constitutifs d’un tableau


statistique ?
3. La SIPRES Organisme d’enquête et de sondage à
réaliser une enquête pour le compte du syndicat
CGBC sur le nombre de salaire de 40 entreprises
industrielles de la région d’Aquitaine Equatorial.
Le dépouillement des questionnaire à donner les
résultat suivantes :
32 ;58 ;59 ;52 ;53 ;43 ;37 ;39 ;86 ;40 ;48 ;75 ;99
;66 ;41 ;64 ;63 ;45 ;62 ;76 ;45 ;79 ;47 ;44 ;36 ;5
1 ;20 ;56 ;22 ;59 ;61 ;5055 ;24 ;52 ;30 ;53 ;51 ;8
2 ;90
a) Etablir une distribution groupée et calculer les
mesures de tendances centrales, on définit 5
classes de valeur de la variable ‘amplitude : 20,
10, 10, 20, 20
4. A partir de la distribution suivante :

SECTION ni
Scientifique 8
Pédagogie 2
Commerciale 27
Autres 3
TOTAL 40
TD : calculer la fréquence et présentez le diagramme
circulaire, en bâtons ainsi que l’histogramme de la dite
distribution ?

Bonne chance !

Chef de Travaux Jason KITENDA

Vous aimerez peut-être aussi