Vous êtes sur la page 1sur 75

Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

4
3
2
1
0
0 1 2 3

SUPPORT DE COURS
DE STATISTIQUE
DESCRIPTIVE
 n (x − x)
n
2

V (X ) = =  f (x − x)
i i
i =1 2
n i i
n i
i =1

yi = axi + b
n
 xi ni
X = i =1
n =  f i xi
 ni
i =1

1
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Table des matières


CHAP 0 : INTRODUCTION A LA METHODE STATISTIQUE ..................................................... 6

Le questionnaire : ................................................................................................................................. 6

CHAP I : CONCEPTS DE BASE DE LA STATISTIQUE DESCRIPTIVE ..................................... 8

1. Population statistique ou univers ................................................................................................. 8

2. Echantillon..................................................................................................................................... 8

3. Unités statistiques ou individus .................................................................................................... 8

4. Caractère et modalités .................................................................................................................. 8

a. Caractère..............................................................................................................................8
b. Modalités..............................................................................................................................8
5. Différents types de caractères ....................................................................................................... 8

a. Caractères quantitatifs ou caractères mesurables ............................................................. 9


 - Caractères (variables) quantitatifs discrets ou discontinus ................................................................. 9
 - Variables quantitatives continues ........................................................................................................ 9
b. Caractères qualitatifs ou caractères non mesurables ........................................................ 9
6. Principaux procédés de collecte de données ................................................................................. 9

a. Le recensement .................................................................................................................... 9
b. Le sondage ......................................................................................................................... 10
c. Enquête statistique ............................................................................................................ 10
d. Dépouillement .................................................................................................................... 10
CHAP II : TABLEAUX STATISTIQUES ET REPRESENTATIONS GRAPHIQUES.................. 11

A. TABLEAUX STATISTIQUES ........................................................................................................ 11

1. Présentation d’une série statistique ...................................................................................11


a. Variables quantitatives discrètes ........................................................................................ 12
b. Variables quantitatives continues ...................................................................................... 13
c. Variables qualitatives ............................................................................................................. 14
2. Séries cumulées d’une variable.......................................................................................... 15
a. Effectif (ou fréquence) cumulé croissant............................................................................ 15
b. Effectif (ou fréquence) cumulé décroissant ........................................................................ 15
B. REPRESENTATIONS GRAPHIQUES D’UNE SERIE STATISTIQUE ......................................... 16

1. Construction des graphiques ............................................................................................. 16


• Variable quantitative discrète ........................................................................................... 17
• Variable quantitative continue.......................................................................................... 17

2
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

α) Cas où toutes les classes sont de mêmes amplitudes ........................................................................... 18


β) Cas où toutes les classes ne sont pas de mêmes amplitudes ................................................................ 18

• Variable qualitative .......................................................................................................... 20


1. Diagramme circulaire ou Camembert ................................................................................... 20
2. Diagramme en barres ou en bandes ................................................................................... 21
3. Tuyaux d’orgues.................................................................................................................. 21
CHAP III : CARACTERISTIQUES NUMERIQUES DES DISTRIBUTIONS A UNE
VARIABLE ............................................................................................................................................. 22

I. CARACTERISTIQUES DE TENDANCE ET DE POSITION ............................................. 22

A. Le mode ....................................................................................................................................... 22
1. Définition .............................................................................................................................. 22
2. Détermination pratique ..................................................................................................... 22
a. Cas d’une variable discrète ou discontinue................................................................... 22
b. Cas d’une variable continue .......................................................................................... 23
B. Les moyennes ............................................................................................................................ 24
1. Définition .............................................................................................................................. 24
2. Détermination pratique de la moyenne arithmétique........................................................... 24
a. Définition moyenne arithmétique simple ..................................................................... 24
b. Définition : moyenne arithmétique pondérée .............................................................. 25

C. La médiane ( M e ) ........................................................................................................... 27

D. Autres caractéristiques de tendance centrale et de position : les quantiles. 29


1. Les quartiles .......................................................................................................................... 29
2. Les déciles ............................................................................................................................. 29
3. Les centiles ou percentiles ..................................................................................................... 29
II- CARACTERISTIQUES DE DISPERSION ................................................................................... 30

1. Etendue (e) ........................................................................................................................ 30


2. Intervalle interquartile ; .................................................................................................. 30
3. Ecart absolu ( e ) .............................................................................................................. 30
a

4. Variance V(x) et Ecart-type (  x


) ...................................................................................... 31

5. Coefficient de variation (CV) ............................................................................................. 31


III- CARACTERISTIQUES DE FORME........................................................................................... 32

1. Les moments ...................................................................................................................... 32


2. Relation entre Médiane, Mode et Moyenne ...................................................................... 32
3. Coefficient d'asymétrie de Pearson (AS1) et (AS2) ........................................................... 32

3
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

4. Coefficient d’asymétrie de FISHER ................................................................................... 32


5. Le coefficient d’aplatissement de Fisher............................................................................ 33
IV – CARACTERISTIQUES DE CONCENTRATION. .................................................................... 34

1. Courbe de concentration, courbe de Gini .......................................................................... 34


2. La médiale.......................................................................................................................... 35
3. L’indice de Gini .................................................................................................................. 36
Chapitre IV - STATISTIQUE DE DEPENDANCE........................................................................... 38

Introduction ......................................................................................................................................... 38

I. – ETUDE DE LA CORRELATION ENTRE DEUX VARIABLES QUANTITATIVES.... 38

1- Le nuage de points .............................................................................................................38


2- Le coefficient de corrélation ............................................................................................. 40
a- Validité du coefficient......................................................................................................... 41
b- Interprétation .................................................................................................................... 41
c- Propriétés ............................................................................................................................... 41
d- Inégalité de BOUNIAKOVSKY ........................................................................................... 41
II. – ETUDE DE LA REGRESSION ............................................................................................ 42

A- CAS DE L’AJUSTEMENT LINEAIRE ......................................................................... 42


1. Méthode des points stratégiques ........................................................................................... 42
a. Méthode des points extrêmes ........................................................................................ 42
b. Méthode de Mayer ou de double moyenne .................................................................... 42
2. Méthode des moindres carrés ............................................................................................... 43
B- CAS DE L’AJUSTEMENT NON LINEAIRE...............................................................44
1. Ajustement à une fonction puissance.................................................................................... 44
2. Ajustement à une fonction exponentielle .............................................................................. 44
III. – LA PREVISION ..................................................................................................................... 45

Chapitre VI – INDICES ........................................................................................................................47

I. – GENERALITES ......................................................................................................................47

1. Définition ........................................................................................................................... 47
2. Types d’indice..................................................................................................................... 47
II. – ETUDE DES INDICES ELEMENTAIRES .........................................................................47

1) Définition........................................................................................................................................ 47
2) Propriétés ......................................................................................................................................48
III – ETUDE D’INDICE SYNTHETIQUE ......................................................................................... 48

1. Définition ...........................................................................................................................48

4
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

2. – Types d’indice synthétiques ............................................................................................48


a. Variation d’un seul paramètre ............................................................................................... 48
b. Variation de deux paramètres ........................................................................................... 49
1. Indice de PRIX :......................................................................................................... 49
2. Indice de QUANTITE :.............................................................................................. 50
3. Indice de Valeur ........................................................................................................ 50
Chapitre VII – SERIES CHRONOLOGIQUES ................................................................................ 52

I. – GENERALITES ..................................................................................................................... 52

1- Définition ........................................................................................................................ 52
2- Les composantes des séries temporelles................................................................. 52
3- Les modèles de composition ....................................................................................... 53
a. Schéma additif Yt = Ct + S t +  t , avec t = 1,, n . ................................................. 53
b. Schéma multiplicatif .................................................................................................... 54
4- Les méthodes de décomposition d’une série chronologique ............................. 54
II. – TENDANCE GENERALE OU TREND D’UNE SERIE CHRONOLOGIQUE................55

A. Méthode empirique : les moyennes mobiles .......................................................... 55


B. Méthode analytique : méthode de Mayer ou de double moyenne ................... 56
C. Méthode analytique : méthode de moindres carrés ............................................ 58
3. 58
III. – VARIATIONS SAISONNIERES D’UNE SERIE CHRONOLOGIQUE ......................... 59

A. Méthode des écarts à la tendance ............................................................................. 59


B. Méthode du rapport à la tendance par la méthode des moindres carrés ..... 62
C. Autre méthode de détermination des coefficients saisonniers ........................ 65
1- Définition........................................................................................................................... 65
2- Détermination des coefficients saisonniers : méthode des moyennes ............................. 65
IV – PREVISIONS ................................................................................................................................ 66

EXERCICES D’APPLICATIONS ........................................................................................................ 68

5
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

CHAP 0 : INTRODUCTION A LA METHODE STATISTIQUE

Monsieur X voudrait créer, dans son village, un centre de gymnastique et de musculation. Avant de
se lancer, il entreprend une étude de marché. Cette étude comporte un questionnaire.
A- Comment va-t-il dépouiller ce questionnaire pour savoir s’il est opportun ou non d’ouvrir ce centre ?
B- Comment présenter les données recueillies de la meilleure façon ?

Le questionnaire :
1°/ Etes-vous favorable à la création d’un centre de gymnastique et de musculation ? Oui Non
(Entourez la bonne réponse)
- si oui, passez aux questions suivantes
- si non, ce questionnaire est terminé
2°/ Vous êtes favorable à la création d’un centre de gymnastique et de musculation.
Combien d’heures par semaine y consacreriez-vous ? Nombre d’heures :
3°/ Indiquez votre âge :
4°/ Quel est votre sexe ? M F (entourez la bonne réponse)

Répondre à la première question (A) signifie la maîtrise des techniques de collecte et


d’enregistrement des informations.

Pour faciliter la lecture des renseignements recueillis, on les présente en général dans un tableau.
Des calculs sur ces informations permettent d’obtenir des renseignements complémentaires. Ainsi,
les solutions trouvées à ces questions permettront à Monsieur X de disposer des informations
nécessaires et indispensables qui l’amèneront à créer ou pas le centre de gymnastique dans son
village. Cette méthode de résolution est une méthode statistique.

En fait, les études statistiques sont des sources d’informations précieuses. Elles s’étendent à tous les
domaines d’activités (domaines tels que commercial, assurance, banque, santé, éducation,
agriculture, etc.). Alors qu’est-ce que c’est que la (les) statistique(s) ?

Le terme « statistique » a un sens différent selon qu’il est employé au pluriel ou au singulier.

Au pluriel, dans le langage courant, le terme statistique signifie : données numériques sur un
sujet quelconque. C’est l’ensemble des documents regroupant les données. Par exemple les
statistiques de vente, d’accident de travail.

Dans son second sens, employé au singulier, le mot « statistique » désigne la méthode
scientifique dont le but est l’étude des propriétés numériques des ensembles de faits quelle que soit
leur nature.

6
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

La statistique regroupe l’ensemble des méthodes permettant d’obtenir et de traiter ces statistiques.
Les définitions sont nombreuses. Nous en citerons trois qui permettent de comprendre sous des
angles différents, son objet :

• C’est l’étude numérique des faits et de leurs rapports.

• C’est une science qui a pour objet de recueillir un ensemble de données numériques relatives à tel ou
tel phénomène aléatoire et d’exploiter ces informations pour établir toutes les relations de causalité
par l’analyse et l’interprétation.

• C’est une science dont l’objet est de récolter une information quantitative concernant des individus,
des groupes, des séries de faits… et de déduire, grâce à l’analyse de ces données, des significations
précises ou des prévisions pour l’avenir.

Bref, la statistique permet d’avoir une meilleure connaissance des faits et de faciliter la prise de
décisions.

Statistique descriptive : Analyse et synthèse, numérique et graphique d’un ensemble de données.

Le but est de synthétiser l’information contenue dans les données.

7
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

CHAP I : CONCEPTS DE BASE DE LA STATISTIQUE


DESCRIPTIVE

1. Population statistique ou univers


Un ensemble faisant l’objet d’une étude statistique s’appelle population ou univers.
Exemple : le parc automobile ; la clientèle d’un magasin donné ; les habitants d’un village ;
Etudiants de 12 à 40 ans ; les Renault fabriquées entre 1995 et 2000 ; …
• Les populations doivent être définies avec précision afin de savoir pour chaque individu s’il
appartient ou non à la population qu’on désire étudier. C’est totalement différent de considérer :
Les Etudiants – Les Etudiants de 18 à 45 ans – Les Etudiants de CGE ou IG de ESA
• Elles doivent être homogènes au regard des caractères étudiés : la répartition des individus selon
leur taille doit distinguer les deux sexes.

2. Echantillon
C’est un sous ensemble ou une partie de la population statistique.

3. Unités statistiques ou individus

Les éléments de la population sont appelés unités statistiques ou individus.


Individu (en latin) signifie « ce qui est indivisible » ; en statistique, il signifie chacune des
« personnes » étudiées.
Exemple : les véhicules d’un parc automobile ; toute personne faisant achat dans un magasin
donné ; les personnes humaines ; entreprise ; pays …

4. Caractère et modalités
a. Caractère

C’est le trait commun à tous les individus de la population ; ou encore la qualité attachée à chacun
des individus. C’est ce que l’on observe sur chacun des individus de la population. Il est observé un
ou plusieurs caractères pour chaque individu.
Exemple : les marques des véhicules d’un parc automobile ; le nombre de personnes faisant achat
dans un magasin donné entre 12 et 14 heures ; la situation matrimoniale des personnes habitant un
village…

b. Modalités

Les modalités d’un caractère sont les différentes valeurs que peut prendre ce caractère sur l’ensemble
de l’univers statistique. Chaque caractère observé peut prendre deux ou plusieurs modalités.
Exemple : les marques des véhicules d’un parc automobile (BMW, Mercedes Benz, Toyota,
Honda, …) ; le nombre de personnes faisant achat dans un magasin donné entre 12 et 14 heures (0,
1, 2, 3, 4, 5, …) ; la situation matrimoniale des personnes habitant un village (célibataire, marié,
divorcé, séparé, veuf) …

5. Différents types de caractères

8
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Il existe deux types de caractères : le caractère qualitatif et le caractère quantitatif.

a. Caractères quantitatifs ou caractères mesurables

Un caractère est dit quantitatif si toutes ses modalités sont mesurables ou peuvent être repérées par
un nombre. Ce type de caractère est aussi appelé variable statistique.

Exemple : Nombre d’enfants d’un ménage donné ; poids ; taille ; salaire ; âge ; nombre d’étudiants.

Par convention, la variable statistique est désignée par la lettre X . Soit X i une variable quelconque.
L’indice « i » affecté à X identifie les différentes modalités que peut prendre la variable.
Deux types de caractères (variables) quantitatifs sont à distinguer : les caractères quantitatifs
discrets et les caractères quantitatifs continus.

 - Caractères (variables) quantitatifs discrets ou discontinus

Un caractère est dit discret ou discontinu lorsque ses modalités sont des nombres isolés ou finis et le
plus souvent entiers et qu’elles ne peuvent pas prendre toutes les valeurs d’un intervalle.
Exemple : Nombre d’enfants d’un ménage ; valeur des billets de banque ; nombre de pièce
d’appartement ; nombre de salariés ; nombre d’étudiants…….
 - Variables quantitatives continues

La variable est en revanche dite continue lorsqu’elle peut prendre toutes les valeurs possibles d’un
intervalle donné.
Exemple : le poids ou la taille d’un individu ; le chiffre d’affaires d’un magasin….
b. Caractères qualitatifs ou caractères non mesurables
Un caractère est dit qualitatif si ses différentes modalités ne sont pas mesurables. Ce
caractère n’est pas repérable par un nombre mais par une qualité ou un adjectif.

Exemple : sexe : masculin ou féminin ; la situation matrimoniale ; le ; la couleur ; le teint ;


le secteur d’activité, la beauté….
Les modalités d’un tel caractère sont généralement regroupées selon ce qu’on appelle une
nomenclature. Il n’existe pas de hiérarchie entre les différentes modalités, toutefois si celles-
ci peuvent être ordonnées, on dit alors que la variable est ordinale
Cependant, pour exploiter cette variable en tant que l’objet d’une statistique, une valeur
arbitraire définie par un code, peut lui être attribuée.
Exemple : Situation matrimoniale (1 : célibataire ; 2 : marié ; 3 : divorcé ; 4 : veuve) ; ….

6. Principaux procédés de collecte de données

a. Le recensement

Il s’agit de renseignements pris sur tous les individus d’une population.


Exemple : Recensement général de la population et de l’habitat du Togo réalisé en 2010 ;
Recensement général de l’agriculture…….

9
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

b. Le sondage
Ce sont les renseignements pris sur un échantillon de population. Cet échantillon peut être
pris au hasard parmi une population recensée ou à partir de critères bien déterminés
représentatifs de la population à étudier.
Exemple : une enquête relative à un produit à la sortie d’un magasin ; ….

c. Enquête statistique

C’est l’opération destinée à la collecte des informations ou données…

d. Dépouillement

Il consiste à compter et à regrouper les différentes observations correspondant à chaque


modalité ou caractère étudié.

10
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

CHAP II : TABLEAUX STATISTIQUES ET REPRESENTATIONS


GRAPHIQUES

Après classement suivant le (ou les) caractère(s) retenu(s), les observations forment une distribution
ou série statistique. Le terme série est assez souvent réservé aux distributions des observations dans
le temps (exemple série chronologique ou série temporelle). Les distributions statistiques les plus
simples sont naturellement les séries à un seul caractère : elles sont présentées sous forme de
tableaux statistiques à une dimension. Néanmoins, la lecture de ces tableaux, la synthèse des
informations qu’ils contiennent, est parfois assez difficile. Une distribution statistique peut souvent
être exprimée de façon beaucoup plus claire sous forme de diagramme (un graphique). Ainsi, suivant
la nature qualitative ou quantitative, discrète ou continue du caractère étudié, on utilise différents
types de représentation graphique.
Il existe plusieurs niveaux de description statistique : la présentation brute des données, des
présentations par tableaux numériques, des représentations graphiques et des résumés numériques
fournis par un petit nombre de paramètres caractéristiques.

A. TABLEAUX STATISTIQUES

Il s’agit de regrouper sous forme d’un tableau les différentes observations correspondant à chaque
modalité du caractère étudié.

1. Présentation d’une série statistique (on appelle série statistique la suite des valeurs prises par une variable
X sur les unités d’observation).

Dans une première colonne seront inscrites les différentes rubriques de la nomenclature, les
différentes valeurs des modalités ou encore les classes selon que l’on étudie un caractère qualitatif
ou quantitatif. Les valeurs de la variable X sont notées x1 ,......., xi ,......, xn .

La seconde colonne contiendra les effectifs dénombrés. La troisième colonne pourra donner la
répartition en pourcentage (fréquences).
Caractère étudié
Dépouillement Effectif Fréquence
K ou Modalités

x1 n1 n1 N
x2 n2 n2 N
… ….
xi ni ni N
…. ….
xk nk nk N
k
Total n
i =1
i 1

11
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

▪ A chaque modalité du caractère (ou de la variable X), peut correspondre un ou plusieurs individus
dans l’échantillon de taille n .
▪ On appelle effectif de la modalité xi , le nombre ni où ni est le nombre d’individus de cette
modalité . On appelle effectif d’une modalité ou d’une valeur distincte, le nombre de fois que cette
modalité apparait. On note ni l’effectif de la modalité xi .
k
▪ On appelle effectif total n1 + n2 + n3 + ..... + ni + ... + nk = n
i =1
i =N

Remarque : Parfois on peut rencontrer le terme de fréquence absolue pour les effectifs.
▪ La fréquence d’une modalité xi est l’effectif divisé par le nombre d’unités d’observation ou l’effectif
total. Le nombre f i tel que :
k
ni n effectif de la mod alité
fi = = i = avec  f i = 1 .
 ni N
i =1
effectif total i =1

NB : Parfois on peut rencontrer le terme de fréquence relative pour les fréquences.


▪ Le pourcentage est une fréquence exprimée en pour cent.
k

pi =
ni n
 100 = i  100 avec p = 100 .
 ni
i
N i =1
i =1

▪ L’emploi des fréquences ou fréquences relatives s’avère utile pour comparer deux distributions
de fréquences établies à partir d’échantillons de taille différente.
▪ Les données en pourcentage, ou en fréquences facilitent très souvent l’interprétation des chiffres et
ne doivent pas être négligées.
Le tableau de distribution de fréquences est un mode synthétique de présentation des données. Sa
constitution est immédiate dans le cas d’un caractère discret mais nécessite en revanche une
transformation des données dans le cas d’un caractère continu.
Dans le but de faciliter la représentation graphique, les modalités d’une variable quantitative sont
rangées dans l’ordre croissant.

a. Variables quantitatives discrètes


Exemple : Une société veut vendre de la nourriture pour animaux. Afin de constituer son stock, elle
a recensé, sur 15 familles d’un lotissement le nombre d’animaux vivant chez chacune d’elles.
Le dépouillement a donné les observations suivantes : 3 ;0 ;0 ;1 ;1 ;1 ;2 ;1 ;0 ;3 ;1 ;0 ;2 ;1 ;1.

• La population observée : les (15) familles du lotissement


• La variable quantitative : le nombre d’animaux de chaque famille
• Les modalités : 0 ; 1 ; 2 ; 3. Ce sont des nombres entiers donc la variable est discrète.

Modalités Dépouillement Effectifs Fréquence

0 IIII 4 0,27

1 IIIII II 7 0,47

12
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

2 II 2 0,13

3 II 2 0,13

Total 15 1

b. Variables quantitatives continues


Dans ce cas, les modalités peuvent alors être regroupées en classes ou intervalle de classe [A ; B] ;
[A, B[; ]A, B] ; ]A, B[. Chacune des 2 valeurs extrêmes des intervalles de classe est appelée borne (
A+ B
 inf ;  sup ). La demi - somme de ces deux bornes s’appelle centre de classe (c = )
2
La différence positive entre ses valeurs extrêmes d’une classe s’appelle amplitude ( k = B − A ). Il
est à noter que les amplitudes des classes ne sont pas nécessairement toutes égales.
Exemple : Un organisme d’enquête et de sondage a réalisé une enquête, pour le compte d’un
syndicat de Personnel, sur le nombre de salariés de 40 entreprises industrielles de la région ouest
africaine. Le dépouillement des questionnaires a donné les résultats suivants :

32 58 59 52 53 43 37 39 86 40

51 30 52 50 51 36 79 63 64 48

82 53 24 59 20 44 45 45 41 75

90 61 55 22 56 47 76 62 66 100

• Population observée ?
• Unité statistique ?
• Caractère (ou variable) quantitatif ?
• Modalités ?
➢ Population observée : 40 entreprises industrielles de la région ouest africaine
➢ Unité statistique ou individu : une entreprise industrielle
➢ Caractère (ou variable) quantitatif : nombre de salariés
➢ Modalités :

20 22 24 30 32 36 37 39 40 41
43 44 45 47 48 50 51 52 53 55
56 58 59 61 62 63 64 66 75 76
79 82 75 76 79 82 86 90 100

Dans le cas d'une variable quantitative continue, la construction d’un tableau de fréquences implique
d’effectuer au préalable une répartition en classes des données. Cela nécessite de définir le
nombre de classes attendu et donc l’amplitude associée à chaque classe ou intervalle de classe.

En règle générale, on choisit des classes de même amplitude. Pour que la distribution en
fréquence ait un sens, il faut que chaque classe comprenne un nombre suffisant de valeurs ( ni ).

13
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

L'intervalle entre chaque classe est obtenu :

➢ soit par la formule suivante : k = X max − X min


N
avec X max et X min , respectivement la plus grande et la plus petite des valeurs observées dans la série
statistique et N le Nombre de classes connu.

➢ soit par la formule de STURGE : k = X max − X min avec n le nombre d’observations.


1 + (3,3 log n)

A partir de X min on obtient les valeurs extrêmes ou bornes de classes par addition successive de
l’intervalle de classe. En règle général, on tente de faire coïncider la valeur centrale ou l’amplitude
de la classe avec un nombre entier ou ayant peu de décimales.
Exemple précédent suite :

1. A partir des données de l’enquête, établir la distribution des entreprises selon le nombre de
salariés dans un tableau de 5 classes.
2. Tracer le diagramme différentiel de cette distribution et commenter
3. Définir la fonction de répartition et tracer les courbes cumulatives

Solution
X max − X min 100 − 20
1. Déterminons l’amplitude k telle que k =  k= = 16
N 5

1ère classe 20; 20 + 16  20 – 36


2e classe 36; 36 + 16  36 - 52
Fréquence
Classes Dépouillement Effectif Fréquence
%
20 - 36 IIIII 5 0,125 12,5

36 - 52 IIIII IIIII IIII 14 0,350 35,0

52 - 68 IIIII IIIII IIII 14 0,350 35,0

68 - 84 IIII 4 0,100 10,0

84 - 100 III 3 0,075 7,5

Total 40 1 100

c. Variables qualitatives
Pour dépouiller ces variables, on convient souvent d’une codification
Exemple : Un cafetier relève sur les vingt premiers clients consommant de la bière, la marque
choisie (Guinness ; Flag ; Lager ; Pils ; Awooyo ; Eku ; Heineken) dans l’ordre suivant :
G ; G ; F ; H ; P ; G ; E ; L ; L ; E ; A ; F ; F ; A ; H ; G ; P ; P; F; G.

• Population observée : l’ensemble des vingt premiers consommateurs de bière

• Variable : marque de la bière


14
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

• Modalités : différentes marques (G ; F ; H ; E ; L ; A ; P)

On obtient le tableau suivant :

Modalités Dépouillement Effectifs


G IIIII 5
F IIII 4
H II 2
E II 2
L II 2
A II 2
P III 3

Total 20

2. Séries cumulées d’une variable

a. Effectif (ou fréquence) cumulé croissant

C’est la somme des effectifs ou fréquences de cette modalité et des modalités qui la suivent.
Les fréquences cumulées croissantes permettent de connaître la proportion d’individus présentant
un caractère inférieur (ou égal) à une certaine modalité.

b. Effectif (ou fréquence) cumulé décroissant

C’est la somme des effectifs ou fréquences de cette modalité et des modalités qui la précèdent.
Les fréquences cumulées décroissantes donnent la proportion des individus ayant un caractère
supérieur (ou égal) à une certaine modalité.
Exemple précédent sur la vente de la nourriture pour animaux :
Dresser le tableau faisant apparaître les effectifs cumulés croissants et décroissants, les fréquences,
ses cumuls croissant et décroissant simples et en %.
Effectifs Eff. Eff. Fréq. Fréq. Fréq.
Cum. Cum. Fréq en % cum. cum.
Modalités ni Crois. décrois. crois. décrois.
Xi Ni  Ni  fi fi % Fi  Fi 

0 4 4 15 0,27 26,67 0,27 1,00


1 7 11 11 0,47 46,67 0,73 0,73
2 2 13 4 0,13 13,33 0,87 0,27
3 2 15 2 0,13 13,33 1,00 0,13
Total 15 1,00 100,00

Interpréter : ECC (Effectif Cumulé Croissant) 11 ?


ECD (Effectif Cumulé Décroissant) 4 ?
Interprétation :
o 11 familles sur 15 ont au plus un animal
o 4 familles sur 15 ont au moins deux animaux

15
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Exemple précédent sur le nombre de salariés de 40 entreprises industrielles de la région ouest


africaine

Effectif Effectif Fréquence Fréquence


Fréquence cumulé cumulé cumulée cumulée
Classes Effectif Fréquence
en % croissant décroissant croissante décroissante
ECC ECD FCC FCD
20 - 36 5 0,125 12,5 5+0=5 35+5=40 12,5 100

36 - 52 14 0,350 35,0 5+14=19 21+14=35 47,5 87,5

52 - 68 14 0,350 35,0 19+14=33 7+14=21 82,5 52,5

68 - 84 4 0,100 10,0 33+4=37 3+4=7 90,5 17,5

84 - 100 3 0,075 7,5 37+3=40 3+0=3 100 7,5

Total 40 1 100 - - - -

Interprétez : Fréquence 10% ; FCD 87,5 % et FCC 90,5%


o Fréquence : 10% des entreprises industrielles disposent de 68 à moins de 84 salariés.
o FCD : 87,5% des entreprises industrielles ont plus de 36 salariés.
o FCC : 90,5% des entreprises industrielles ont moins de 84 salariés.

B. REPRESENTATIONS GRAPHIQUES D’UNE SERIE STATISTIQUE

Une représentation graphique permet souvent de mieux visualiser une série statistique. C’est donc
un mode d’expression qui permet « visuellement » de saisir et de mémoriser un certain nombre
d’informations. C’est pourquoi, lors de la présentation des résultats statistiques et
complémentairement aux tableaux, on utilise souvent une représentation graphique.
Suivant que la variable soit qualitative, quantitative discrète ou continue, la représentation
graphique est différente. C’est l’objet de ce sous chapitre.

1. Construction des graphiques

D’une façon générale, pour construire un graphique, certaines précautions préalables doivent être
prises. A cet effet, il faut :
- déterminer les intervalles de variation de la variable pour en déduire l’échelle adéquate ;
- choisir l’intervalle unité qui permet de représenter correctement le phénomène et qui assure la
meilleure utilisation de l’espace disponible ;
- indiquer de façon apparente le titre et la signification des axes.
En conclusion, il ne faut jamais oublier qu’un graphique pour être utile, doit se suffire à lui-même et
dispenser le lecteur de toute référence à un autre document.

16
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

• Variable quantitative discrète

Pour les variables quantitatives discrètes, la représentation graphique est le diagramme en


bâtons où la hauteur des bâtons correspond à l’effectif ni associé à chaque modalité de la variable
xi . Cette représentation se fait à l’aide d’un repère orthogonal :
En abscisse on a « les différentes modalités de la variable étudiée rangées dans l’ordre croissant »
puis en ordonnée « les effectifs ou fréquences relatives ».
Exemple : Répartition du personnel d’une entreprise en fonction du nombre d’enfants

Nombre d’enfants Nombre de personnes


f i en % FCC en % FCD en %
par personnes xi concernées ni
1 17 17,0 17 100
2 31 31,0 48 83
3 29 29,0 77 52
4 16 16,0 93 23
5 4 4,0 97 7
6 3 3,0 100 3
Total 100 100

Par ailleurs, la représentation graphique des effectifs ou des fréquences cumulées d’une variable
quantitative discrète s’effectue sous forme de graphique en escalier appelée diagramme en
escalier ou courbe cumulative.

En ordonnée, on porte les fréquences cumulées et en abscisse les modalités xi

• Variable quantitative continue

Pour les caractères quantitatifs continus, la représentation graphique est l’histogramme où la


hauteur du rectangle est proportionnelle à l’effectif ni c’est-à-dire à chaque classe de valeurs de la
variable, portée en abscisse, on fait correspondre un rectangle basé sur une classe. Ceci n’est vrai que
si l’intervalle de classe est constant. Dans ce cas l’aire comprise sous l’histogramme s’avère
proportionnelle à l’effectif total.

17
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Cette représentation se fait à l’aide d’un repère orthogonal : en abscisse on a « les différentes classes
de la variable étudiée rangées dans l’ordre croissant » puis en ordonnée « les effectifs ou fréquences
».
α) Cas où toutes les classes sont de mêmes amplitudes
Exemple : Une société publicitaire recense les sociétés avec lesquelles elle travaille. Elle les classe
en fonction du chiffre d’affaires dégagé en milliers de francs.

Fréquence
CA Effectifs
%
]15 – 20] 4 20
]20 – 25] 8 40
]25 – 30] 5 25
]30 – 35] 2 10
]35 – 40] 1 5
Total 20 100

9
8
7
6
Effectif

5
4
3
2
1
0
15 20 25 30 35 40
Chiffre d'affaires

A partir de ce diagramme on peut tracer le polygone des fréquences (ou effectifs) en joignant les
milieux des sommets des rectangles, c’est-à-dire les points correspondant aux centres des classes.

β) Cas où toutes les classes ne sont pas de mêmes amplitudes


En revanche lorsque les intervalles de classe sont inégaux, des modifications s’imposent pour
conserver cette proportionnalité. Dans ce cas, en ordonnée, au lieu de porter l’effectif, soit on indique
le rapport de la fréquence sur l’intervalle de classe (amplitude de chaque classe) ; soit
on utilise la formule suivante :

Effectif de la classe (ni )  amplitude de référence (c)


Effectif corrigé (ni' ) = ; soit
amplitude de la classe (k )

ni  c
ni' =
k

18
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

On prend comme amplitude de référence la plus petite ou la plus fréquente des amplitudes.
Ainsi la superficie de chaque rectangle représente alors l’effectif associé à chaque classe.
Exemple :
Reprenons le même exemple que précédemment mais avec un classement différent tel que :

CA Effectifs Fréquence % Effectifs rectifiés FCC FCD


15 – 20] 4 20 4 20 100
]20 – 25] 8 40 8 60 80
]25 – 32] 5 25 3,6 85 40
]32 – 40] 3 15 1,9 100 15
Total 20 100 - -

Histogramme ci-dessous erroné (Erreur de l’aire par rapport à l’effectif de la classe représenté).

Faux graphique

8
7
6
Effectifs

5
4
3
2
1
0
]15 – 20] ]20 – 25] ]25 – 32] ]32 – 40]

chiffre d'affaires

Histogramme ci-dessous correct (rectifié)

Remarque : Le polygone des effectifs est obtenu par des segments de droite. Une extrémité a pour
abscisse le centre de la classe et pour ordonnée la hauteur du rectangle associé.
Par ailleurs, la courbe de la fréquence cumulée croissante se construit en portant les points
correspondant à chaque classe à la limite supérieure de l’intervalle de classes. La présence
d’amplitude inégale n’entraîne aucune modification en ce qui concerne la construction de cette
courbe.

19
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

La courbe de la fréquence cumulée décroissante se construit en portant les points correspondant à


chaque classe à la limite inférieure de l’intervalle de classes.
Cependant on contrôle l’exactitude du graphique en vérifiant que l’intersection des 2 courbes a pour
abscisse la moitié de l’effectif.

Courbe cumulative FCD FCC


100
90
80
70
60
50
40
30
20
10
0
0 5 10 15 20 25 30 35 40

• Variable qualitative
On utilise généralement pour les variables qualitatives les représentations suivantes :

1. Diagramme circulaire ou Camembert

C’est un disque découpé en secteurs. L’effectif est représenté par ce disque. Chaque modalité est
représentée par un secteur circulaire dont l’aire ou la surface (l’angle au centre) est proportionnelle
Effectif de la mod alité
à l’effectif correspondant. L’angle de chaque modalité se calcule par :  360
Effectif total
soit : ni
 360 soit : f i  360 ou f i % 3,6 .
 ni

Exemple : Répartition du marché de l’électricité au Togo

Types d’entreprises Fréquence. Angles au

fi % Centre (en °) Entreprises


mixtes
30% Entreprises
publiques
Entreprises publiques 45 45  3,6 = 162 45%

Entreprises privées 25 25  3,6 = 90


30  3,6 = 108
Entreprises
Entreprises mixtes 30 privées
25%
TOTAL 100 360

20
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

2. Diagramme en barres ou en bandes

100%
Ce diagramme est constitué d’un empilement 90% Entreprises
de rectangles représentant chacun une 80% mixtes; 30
modalité. 70%

Fréquence
60% Entreprises
Même exemple : Répartition du marché de privées; 25
l’électricité au Togo. 50%
40%
30% Entreprises
20% publiques; 45
10%
0%

3. Tuyaux d’orgues

Chaque modalité est représentée par une colonne dont la hauteur est proportionnelle à son effectif
(ou à sa fréquence).

Exemple précédent : Répartition du marché de l’électricité au Togo

50
45
40 Entreprises
35 publiques;
45
30
25 Entreprises
mixtes; 30
20
Entreprises
15
privées; 25
10
5
0

21
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

CHAP III : CARACTERISTIQUES NUMERIQUES DES


DISTRIBUTIONS A UNE VARIABLE

Les tableaux statistiques et les représentations graphiques donnent une idée sommaire de la
distribution statistique. Cependant, la vraie physionomie d’une série statistique est donnée par des
paramètres chiffrés : les caractéristiques numériques. Elles sont au nombre de 4.
Il s’agit des :
- Caractéristiques de tendance centrale et de position,
- Caractéristiques de dispersion
- Caractéristiques de forme
- Caractéristiques de concentration

I. CARACTERISTIQUES DE TENDANCE ET DE POSITION

Trois caractéristiques de tendance centrale et de position sont utilisées de façon courante : le mode,
la médiane et la moyenne arithmétique. Cette dernière est, de loin, la plus largement employée.

A. Le mode

1. Définition
Le mode M 0 d’une série statistique est la valeur de la variable pour laquelle l’effectif ou la
fréquence est maximal c’est-à-dire le plus élevé ou le plus dominant.
Une série statistique peut présenter un seul mode (distribution unimodale) ou plusieurs modes
(distribution bi, tri, ou plurimodale, …). Comment se calcule le mode ?
2. Détermination pratique
a. Cas d’une variable discrète ou discontinue

Dans ce cas, le mode est défini avec précision et se détermine d’une manière très simple. C’est la
valeur de la variable qui correspond à l’effectif le plus élevé.

Sur le graphique de distribution, le mode correspond au « bâton » le plus élevé. Sa valeur est donnée
par l’axe des abscisses.

Exemple : Répartition du personnel d’une entreprise en fonction du nombre d’enfants : déterminer


le mode de la distribution.
Nombre d’enfants par personnel xi Effectif ni
0 17 L’effectif le plus élevé est 31 ; la
1 31 valeur de la variable qui correspond
2 29 à cet effectif est 1.
3 16
Le mode M 0 est alors égal à 1.
4 4
5 3
Total 100

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 22


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

b. Cas d’une variable continue


Dans ce cas, le mode s’applique à la classe qui correspond à l’effectif (ou la fréquence) le (la) plus
élevé(e) de la série statistique. On l’appelle « classe modale ».
Rappelons que la valeur du mode, dans ces conditions, dépend de l’amplitude des classes, et qu’il
faut vérifier l’égalité de ces intervalles de classes.
- Si toutes les classes sont de même amplitude, on calcule le mode par la formule ci-dessous.
- Si les classes n’ont pas la même amplitude (même si l’amplitude d’une seule classe diffère des autres),
il est obligatoire de corriger d’abord les effectifs en appliquant la formule précédente (utilisée dans
le cas de l’histogramme) avant de déterminer la classe modale.
Après avoir identifié la classe modale, on calcule le mode.

n0 − n1 d1
M 0 = L1 + k ou M 0 = L1 + k avec (d1 = n0 − n1 ); (d 2 = n0 − n2 )
(n0 − n1 ) + (n0 − n2 ) d1 + d 2

Avec
L1 : borne inférieure de la classe modale
k : amplitude de la classe modale
n0 : Effectif de la classe modale
n1 : effectif qui précède celui de la classe modale
n 2 : effectif qui suit celui de la classe modale

Exemple n°1. Une société publicitaire recense les sociétés avec lesquelles elle travaille. Elle les
classe en fonction du chiffre d’affaires dégagé en milliers de francs. Déterminer le mode.
CA en milliers de Résolution :
Effectifs Fréquence %
francs
]15 – 20] 4 20 1ère étape : Vérification des amplitudes des classes
]20 – 25] 8 40 (k = B − A) : amplitude commune k = 5 ; d’où
]25 – 30] 5 25 l’effectif le plus élevé étant égal à 8 alors, la classe
]30 – 35] 2 10 modale est ]20 - 25].
]35 – 40] 1 5 2è étape : calcul du mode qui est égal à :
Total 20 100

n0 − n1 8−4
M 0 = e0 + a = 20 + 5 = 22,86 milliers de francs
(n0 − n1 ) + (n0 − n2 ) (8 − 4) + (8 − 5)

Interprétation : le CA de la plupart des sociétés ou entreprises recensées est de 22 860 francs

Exemple n°2. Soit les notes du devoir de mathématiques des étudiants de la filière CGE d’une
grande école universitaire présentées dans le tableau suivant :

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 23


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Effectif Résolution :
Notes Effectifs
corrigé
0–4 10 5 1ère étape : Vérification des amplitudes des classes (k = B − A) : on
4–6 8 8 constate que les amplitudes des classes ne sont pas toutes identiques.
6–8 14 14 Pour ce faire, il faut d’abord corriger les effectifs avant de déterminer
8 – 12 20 10 la classe modale. La plus petite ou la plus fréquente des amplitudes
12 – 14 6 6 est 2. La 3e colonne indique les effectifs corrigés ; d’où l’effectif le plus
14 - 20 9 3 élevé est 14 ; alors, la classe modale est [6 – 8[.
Total 67 -
2è étape : calcul du mode qui est égal à :

n0 − n1 14 − 8
M 0 = e0 + a = 6 + [2  ] = 7,2
(n0 − n1 ) + (n0 − n2 ) (14 − 8) + (14 − 10)

Interprétation : la plupart des étudiants ont une note égale à 7,2.


Remarque : Si la distribution des valeurs est symétrique, la valeur du mode est proche de la
valeur de la moyenne arithmétique. Mo ≈ x

B. Les moyennes

1. Définition
La moyenne est la valeur de la variable qui en même temps qu’elle donne une idée générale sur la
distribution statistique peut remplacer toutes les variables sans pour autant modifier l’image
objective du phénomène à étudier. Quatre types de moyennes sont à distinguer :

• Les moyennes arithmétiques (utilisées plus en statistique)


• Les moyennes harmoniques (utilisées en mathématiques financières)
• Les moyennes quadratiques (utilisées aussi en statistique : moyenne d’ordre 2)
• Les moyennes géométriques (utilisées pour déterminer, l’indice moyen de croissance, le taux de
croissance, d’accroissement, …).
En statistique, seule la moyenne arithmétique est la plus utilisée.

Ainsi, la moyenne arithmétique d’une série statistique notée X est égale à la somme
des valeurs prises par cette variable, divisée par le nombre total d’observations.
2. Détermination pratique de la moyenne arithmétique
a. Définition moyenne arithmétique simple

Soit une distribution de n valeurs observées x1 ; x2 ; x3 ; .......xi ;.....; xk d’une variable quantitative X
, on définit sa moyenne observée x comme la moyenne arithmétique des n valeurs :
n

x1 + x 2 + x3 + .... + x k x i
1 n
X = = i =1 =  xi
N N N i =1
avec N le nombre total d’observations ou Effectif total.
Exemples :

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 24


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

1. Déterminer la note moyenne d’un étudiant qui a obtenu les notes suivantes en statistique :
17 – 08 – 15 – 12 – 13.

X =
x1 + x2 + x3 + ..........+ xk
=
x i
=
17 + 08 + 15 + 12 + 13
= 13
N N 5
2. 8 ouvriers d’un petit établissement ont reçu en janvier 1970 les salaires suivants : 750, 830, 910,
960, 960, 960, 910, 1080, 1080, 1250, 1350. Calculer le salaire moyen de ces ouvriers.
Résolution :

830 + 910 + 960 + 960 + 960 + 910 + 1080 + 1080 + 1250 + 1350
X = = 1029
10
Aussi peut-on préalablement grouper les observations ayant même valeur dans un tableau
statistique

Salaire Effectif
830 1
910 2
960 3
1080 2
1250 1
1350 1
Total 10

Ce serait une erreur grossière de poser et calculer le salaire moyen égal à


830 + 910 + 960 + 1080 + 1250 + 1350
X = = 1063,33
6
De ce fait, pour calculer ce salaire moyen, il faudrait pondérer les salaires par les effectifs
(830  1) + (910  2) + (960  3) + (1080 2) + (1250 1) + (1350 1)
correspondants : X = = 1029
(1 + 2 + 3 + 2 + 1 + 1)
Cette formule appliquée dans ce cas est dite moyenne arithmétique pondérée.

b. Définition : moyenne arithmétique pondérée

Soit une variable statistique pouvant prendre les valeurs : x1 ; x2 ; x3 ; .......xi ;.....; xk auxquelles
correspondent respectivement les effectifs n1 ; n2 ; n3 ; .......ni ;.....;nk . La moyenne arithmétique a
pour expression x :
n

n x + n2 x 2 + n3 x3 + .... + nk x k n x i i
1 n
X = 1 1
n1 + n3 + n3 + ..... + nk
= i =1
k
=  ni xi ; avec n = n1 + n2 + .... + nk
n
n i =1
i
i =1

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 25


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

k
n1 n n n
X = x1 + 2 x 2 + 3 x3 + ..... + k x k = f1 x1 + f 2 x 2 + f 3 x3 + ... + f k x k =  f i xi
 ni  n i  ni  ni i =1
k
avec f
i =1
i =1

Remarque : Une des propriétés de la moyenne arithmétique est que la somme des écarts à la
n
moyenne est nulle:  (x
i =1
i − x) = 0

➢ Cas d’une variable discrète :

Exemple : Répartition du personnel d’une entreprise en fonction du nombre d’enfants. Calculons


le nombre d’enfants moyen du personnel de cette entreprise.

Nombre d’enfants
Effectif
par personnes ni xi
xi ni
0 17 0
168
1 31 31 X = = 1,68
100
2 29 58
3 16 48 Ainsi, le nombre d’enfants moyen est de 1,68
4 4 16
5 3 15
Total 100 168

➢ Cas d’une variable continue


Ici les modalités sont des classes ou intervalles de classes. Pour déterminer la moyenne
B+ A
arithmétique, on procède d’abord au calcul de xi égal au centre de classe ( xi = ci = ). Ce qui
2
signifie que l’on ajoute une autre colonne au tableau statistique désignée colonne de xi . Ensuite on
1
calcule la moyenne arithmétique x = n x soit en utilisant la méthode de calcul direct, soit
 ni
i i

directement dans le tableau par ajout d’une colonne désignée colonne des ni xi

Application : Déterminer la taille moyenne de 19 joueurs d’une équipe de football.

Taille des joueurs Effectif ni Centre de classe


en cm ci = xi ni xi
150 – 160
des joueurs
1 155 155 X=
n xi i
=
3325
= 175
160 – 170 5 165 825 n i 19
170 – 180 7 175 1225
La taille moyenne des 19 joueurs est 175
180 – 190 5 185 925
cm
190 – 200 1 195 195
Total 19 3325

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 26


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

(155  1) + (165  5) + (175  7) + (185  5) + (195  1)


X= = 175 (Méthode de calcul direct)
(1 + 5 + 7 + 5 + 1)

C. La médiane ( M e )

La médiane M e est la valeur de la variable qui partage l’effectif en deux parties égales, les
éléments de la population étant rangés par ordre croissant.
C’est la valeur de la variable pour laquelle la fréquence cumulée est égale à 0,5 ou 50%. Elle
correspond donc au centre de la série statistique classée par ordre croissant, ou à la valeur pour
laquelle 50% des valeurs observées sont supérieures et 50% sont inférieures.

➢ Dans le cas d’une variable discrète simple la médiane est déterminée de la manière suivante :

• Dans une série comportant (2k + 1) observations et si n (le nombre d’observations est impair), alors
n = 2k + 1 et la médiane correspond à la valeur du milieu ( M e = xk +1 ) après avoir ordonné la série
par ordre croissant ou décroissant.

Exemple : Déterminer la note médiane d’un étudiant ayant obtenu les notes en statistique :
17 – 08 – 15 – 12 – 13
Ordonnons la série par ordre croissant : 08-12-13-15-17

n = 2k + 1 avec n = 5  2k + 1 = 5  k = 2 d’où la médiane M e = xk +1 = x3 = 13

• Dans une série comportant (2k ) observations et si n (le nombre d’observations est pair), il n’y a pas
à proprement parler la médiane mais un intervalle médian dont les extrémités correspondent aux
valeurs de la k ième et de la (k + 1) observation M e  ( xk − xk +1 ) après avoir ordonné la série par
ième

ordre croissant ou décroissant. Dans ce cas il peut être commode de prendre le milieu.
Exemple : Déterminer la note médiane d’un étudiant ayant obtenu les notes en statistique :
17 – 08 – 15 – 12 – 13 - 19
Ordonnons la série par ordre croissant : 08-12-13-15-17-19
n = 2k avec n = 6  2k = 6  k = 3 d’où la médiane
13 + 15
M e  [ x k − x k +1 ]  M e  [13 − 15] = = 14
2

➢ Dans le cas où les valeurs prises par le caractère étudié sont groupées en classe, on cherche la classe
contenant le ( n i / 2) ième individu appelée classe médiane. La classe médiane est alors celle qui

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 27


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

correspond au 1er effectif cumulé croissant strictement supérieur à la moitié des observations ou à la
1ère fréquence cumulée croissante (en %) strictement supérieure à 50%.
En supposant que tous les individus de cette classe sont uniformément répartis à l’intérieur, la
position exacte du ( n i / 2) è individu est déduite de la façon suivante par interpolation linéaire.

Si N 1 est l’effectif cumulé croissant qui précède celui de la classe contenant la médiane et si N 2 est
l’effectif cumulé croissant de la classe contenant la médiane.

Si [ L1 − L2 [ est la classe contenant la médiane alors, par interpolation linéaire, la médiane est telle
que : M e − L1 L − L1 1 2 ni − N1 ;
= 2  M e = L1 + ( L2 − L1 )
 ni − N N 2 − N 1 N 2 − N1
1
2

la formule devient : M e = L1 + k
1
2 n i − N1
ne

avec
L1 : borne inférieure de la classe médiane.
k : amplitude de la classe médiane.
 ni : Effectif total de la distribution
N 1 : Effectif cumulé croissant qui précède celui de la classe médiane
ne : effectif de la classe médiane

Remarque : Que les classes ou intervalles de classe aient ou non même amplitude, il
n’y a pas d’influence sur le résultat.

Exemples
CA 1 34
(Millions)
ni ECC
2
 ni =
2
= 17

05 - 15 3 3
M e − L1 L − L1 M e − 25 30 − 25 M e − 25 5
15 - 25 7 10 = 2  =  =
 ni − N N 2 − N1 17 − 10 22 − 10 7 12
25 - 30 12 22 2
1

30 - 35 8 30
35 - 45 4 34
M − 25 5 75
 =e
M = + 25 = 27,916667millions
e

Total 34 7 12 12

Autre méthode

( ni / 2) è =
34
= (17) è ; le 1er ECC  17 est 22 , d’où la classe médiane est [25 – 30[
2

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 28


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Par suite 1
 ni − N1 17 − 10
M e = L1 + k = 25 + (30 − 25) = 27,916667millions
2

ne 12

Interprétation
50% des entreprises les moins performantes réalisent un chiffre d’affaire compris entre 5 000 000
et 27 916 667 et 50% des entreprises les plus performantes réalisent un CA compris entre 27 916 667
et 45 000 000.

➢ Détermination graphique
On trace la courbe des fréquences cumulées croissantes et/ou décroissantes et on lit la valeur x pour
l’ordonnée égale à 50%. C’est aussi l’abscisse du point d’intersection des courbes cumulées
croissantes et décroissantes.

D. Autres caractéristiques de tendance centrale et de position : les quantiles

On appelle quantile d’ordre  la valeur notée x( ) de la variable telle que la proportion des
individus présentant un caractère inférieur ou égal à x( ) soit égale à  .
Exemple : la médiane est le quantile d’ordre 0,5.

1. Les quartiles

Ce sont les valeurs de la variable Q1 , Q2 , Q3 qui partagent l’effectif total en quatre parties égales et

de formule Qx = L1 + k
x
4 n i − N1
avec x = 1, 2, 3
nQx

2. Les déciles

Ce sont les valeurs de la variable D1 , D2 , .........., D9 qui partagent l’effectif total en 10 parties égales

et de formule D x = L1 + k
x
10 n i − N1
avec x = 1, 2, 3,4, 5, 6,7, 8, 9
n Dx

3. Les centiles ou percentiles

Ce sont les valeurs de la variable P1 , P2 , .........., P99 qui partagent l’effectif total en 100 parties égales

et de formule Px = e0 + a
x
100 n i − N1
avec x = 1, 2, 3,....., 99
n Px

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 29


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

II- CARACTERISTIQUES DE DISPERSION

Deux séries statistiques, bien qu’ayant des caractéristiques de tendance centrale identiques,
pourraient être fort différentes. Il est donc nécessaire pour différencier statistiquement ces deux
séries, de définir les caractéristiques de dispersion qui sont destinées à :
• Synthétiser la plus ou moins grande homogénéité des valeurs observées et
• Mettre en relief l’écart existant entre deux valeurs (étendue, intervalle interquartile) ou entre les
valeurs du caractère et une valeur caractéristique centrale (écart absolu moyen, écart-type)

1. Etendue (e)

C’est la différence entre la valeur maximale (la plus grande) X max et la valeur minimale (la plus petite)
X min des observations. Encore appelée intervalle de variation, ce paramètre est le plus simple,
mais aussi le moins significatif. L’étendue est trop sensible aux valeurs aberrantes.

e = X max − X min

Exemple précédent : calcul de l’étendue

CA
ni e = 45 − 5 = 40 millions
(Millions)
05 - 15 3
15 - 25 7
25 - 30 12
30 - 35 8
35 - 45 4
Total 34

2. Intervalle interquartile ;

L’intervalle interquartile d’une série statistique est égal à la différence entre les valeurs du troisième
Q3 et du premier quartile Q1 . C’est donc l’intervalle qui contient 50% des observations, en laissant
25% à droite et 25% à gauche. Q3 − Q1

3. Ecart absolu ( e )
a

C’est la moyenne des écarts en valeur absolue à la moyenne :

ea =
 n ( x − a)
i i
ou ea =
 ( x −a)
i 
avec a = x, M e , M o 
n i n

Cet écart est calculé par rapport à la moyenne, mais aussi on peut le calculer par rapport aux
caractéristiques de tendance centrale : le mode et la médiane. La valeur de cet écart est minimale
lorsqu’on le prend par rapport à la médiane.
Interprétation : Plus cet écart est grand plus la distribution est dispersée ; plus il est petit, plus la
distribution est concentrée autour de la caractéristique de tendance centrale choisie.

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 30


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

4. Variance V(x) et Ecart-type (  x


)
- Variance

La variance V (x) de la variable x est la moyenne arithmétique des carrés des écarts à la moyenne
n ( x − x ) 2 + n2 ( x 2 − x ) 2 + ...... + nk ( x k − x ) 2
arithmétique. V ( x) = 1 1  V ( x) =
 n (x − x)
i i
2

n1 + n2 + ..... + nk n i

V ( x) =
 n (x − x)
i i
2

=  f i ( xi − x ) 2
n i i

V ( x) =
 n (x
i
2
i − 2 xi x + x 2 )
=
n x i
2
i − 2 x  ni xi + x 2  ni
=
n xi
2
i
− (x)2
n i n i n i

V ( x) =
n x i
2
i
− ( x ) 2 = ( f i xi2 ) − ( x ) 2 V ( x) = ( x²) − ( x ) 2 (4)
n i

- Ecart-type
L’écart-type est donc la moyenne quadratique (moyenne d’ordre 2) des écarts à la moyenne
arithmétique. Pour cette raison, on le nomme parfois écart quadratique moyen. C’est la racine carrée

de la variance.  ( x) =
 n (x − x)
i i
2

;  ( x) = V ( x)
n i

C'est l'écart qui existe entre deux distributions.


L’écart-type pris isolément n’a pas un sens concret et ne prend de signification que pour comparer
deux distributions entre elles. Plus l’écart-type est grand, plus la distribution est dispersée autour de
la moyenne ; plus il est petit, plus la distribution est concentrée autour de la moyenne.
L’écart-type permet d’apprécier le risque qu’une valeur de la variable prise au hasard, soit proche
ou éloignée (en valeur positive ou en valeur négative) de la moyenne.

5. Coefficient de variation (CV)


Comparer deux distributions en terme de dispersion en comparant leur écart-type n’est possible que
si les deux variables sont de même ordre de grandeur. La valeur de l’écart-type est évidemment liée
à l’ordre de grandeur du caractère. Un simple changement d’échelle aura une influence sur la valeur
de l’écart-type alors que la distribution sera toujours la même. Pour comparer deux distributions
dont les ordres de grandeur sont différents, il fallait donc trouver un coefficient qui permettant de
relativiser les valeurs de dispersion. Ce coefficient appelé coefficient de variation permet alors de
faciliter les comparaisons, car il est une valeur « sans dimension », indépendante des unités de
x
mesure de xi . Son expression est la suivante : CV % =  100
x

Le CV permet d'apprécier la représentativité de la moyenne par rapport à l'ensemble des


observations. Il donne une bonne idée du degré d'homogénéité d'une série. Il faut qu'il soit le plus
faible possible (<15% en pratique) c’est-à-dire si CV  15% alors la distribution est homogène. Dans
le cas contraire, elle est hétérogène.

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 31


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

III- CARACTERISTIQUES DE FORME


1. Les moments
1 n r 1
On appelle moment d’ordre r la quantité m(r ) telle que : m(r ) =  xi = n x r
.
 ni
i i
n i =1 i
i
On appelle moment centré d’ordre r la quantité  (r ) telle que :
1 n 1
 (r ) =  ( xi − x ) r =  n (x − x)r
 ni
i i
n i =1 i
i
Les premiers moments centrés et non centrés sont égaux à :
m(0) = 1  (0) = 1
m(1) = x  (1) = 0
m(2) =  2 + x 2  (2) =  2
2. Relation entre Médiane, Mode et Moyenne

Ces trois caractéristiques ont un même objet ; résumer la série des observations en un nombre
unique qui décrira l’ordre de grandeur.
Dans le cas de distribution unimodale, la médiane est en général comprise entre la moyenne et le
mode.
• Si on a M 0  M e X alors la distribution est étalée à droite

• Plus rarement on a X M e M 0 , la distribution est étalée à gauche


• Dans le cas de distribution peu asymétriques, les trois caractéristiques sont presque confondues.
M 0 = M e= X

3. Coefficient d'asymétrie de Pearson (AS1) et (AS2)

Il existe une relation empirique valable pour les courbes unimodale peu asymétriques qui peut être
utile pour vérifier ses calculs :
(X − M 0 ) 3( X − M e )
AS1 = AS 2 =
X x
• Si AS1 et AS 2 >0; alors la distribution a une courbe étalée vers la droite
• Si AS1 et AS 2 <0; alors la distribution a une courbe étalée vers la gauche
• Si AS1 = AS 2 = 0 ; alors la distribution a une courbe normale (une symétrie parfaite)

4. Coefficient d’asymétrie de FISHER

Si une distribution est symétrique, ses différents moments centrés d’ordre impair sont nuls.
Considérant le 1er moment centré d’ordre impair  (3) , Fisher a proposé un indice pour évaluer
l’asymétrie de la courbe différentielle :
 (3) 1
1 = avec  (3) =  (x − x)3
3  ni
i

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 32


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Ce coefficient est sans dimension et invariant par changement d’échelle et d’origine et nul pour les
courbes symétriques.

Interprétation :
Si 1  0 alors la distribution est étalée à droite

Si 1  0 alors la distribution est étalée à gauche

Si 1 = 0 alors la distribution est normale

5. Le coefficient d’aplatissement de Fisher


Une distribution est plus ou moins aplatie selon que les fréquences des valeurs voisines des valeurs
centrales diffèrent peu ou beaucoup les unes par rapport aux autres.
 (4)  (4) 1
2 = = 4 avec  (4) =  (x − x)4
 (2) 2   ni
i

Ce coefficient est sans dimension et invariant par changement d’échelle et d’origine et nul pour une
distribution normale.

Interprétation :
• 2 = 3 , pour une distribution qui suit une loi normale centrée réduite.
• Si 2  3 , la concentration des valeurs de la série autour de la moyenne est forte: la distribution
moins aplatie que la distribution normale
• Si 2  3 , la concentration des valeurs autour de la moyenne est faible: la distribution est plus
aplatie que la distribution normale

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 33


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

IV – CARACTERISTIQUES DE CONCENTRATION.

La notion de concentration a été introduite par le statisticien italien Corrado Gini en 1912 à propos
de la distribution des salaires et des revenus.
Ainsi, l’indice de concentration est une mesure de la dispersion relative utilisée pour la description
de certaines distributions statistiques : distribution de salaires ou de revenus, distributions
d’entreprises suivant leur taille (nombre de salariés, chiffre d’affaires) etc. Cette caractéristique ne
s’applique qu’aux variables statistiques continues à valeurs positives.
Son calcul exige la connaissance pour chaque classe du nombre d’observations (nombre d’individus,
nombre d’entreprises…) et de la somme des valeurs correspondantes (masse des salaires, montant
du chiffre d’affaires).

1. Courbe de concentration, courbe de Gini

On observe un caractère X dont on connaît les fréquences f (i ) pour chaque classe ( i ). On porte en
abscisse la fréquence relative cumulée croissante des effectifs et en ordonnée la fréquence relative
cumulée croissante de la masse du caractère ( mi ) telle que mi = xi  ni

Exemple : Distribution des ouvriers selon le salaire (en milliers de FCFA)

Salaire Effectif
30 – 40 5
40 – 50 7
50 – 60 8
60 – 80 12
80 – 100 3

Total 35

Salaire Effectif f i en % FCC xi M i = xi ni MCC pi en % PCC


30 - 40 5 14,3 14,3 35 175 175 8,6 8,6
40 – 50 7 20 34,3 45 315 490 15,4 24
50 – 60 8 22,9 57,1 55 440 930 21,6 45,6
60 – 80 12 34,3 91,4 70 840 1770 41,2 86,8
80 – 100 3 8,6 100 90 270 2040 13,2 100
Total 35 100 2040 100

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 34


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Courbe de Gini
100

90

80

70

60

50

40

30

20

10

0
0 10 20 30 40 50 60 70 80 90 100

La courbe de Gini de par sa définition, se trouve toujours dans le carré de côté 100 et au-dessous de
la diagonale.
Interprétation : La courbe de Gini sert à étudier l’inégalité de la distribution.
1er cas : Tous les individus ont la même valeur du caractère ; la distribution est donc égalitaire, la
courbe est confondue avec la diagonale.
2ème cas : Tous les individus ont un caractère nul sauf un qui possède à lui seul la totalité de la masse
du caractère ; la courbe est confondue avec le cadre inférieur du carré.
3ème cas : C’est le cas que l’on rencontre le plus souvent puisque ces deux premiers exemples sont
extrêmes ; la courbe se trouve alors entre ces deux positions extrêmes.
Plus la courbe se rapproche de la diagonale, plus la distribution est proche de la distribution
égalitaire.
Plus la courbe se rapproche des bords inférieurs du carré, plus la distribution est inégalitaire et plus
la concentration sera importante.

2. La médiale

La médiale ( Mle ) est la valeur de la variable qui partage la masse totale ( mi ) en deux parties égales.
1 2 mi − M 1
Mle = e0 + a avec e0 = borne inférieure de la classe médiale
me

a = amplitude de la classe médiale ; me = masse de la classe médiale


M 1 = Masse cumulée croissante qui précède celle de la classe médiale
m i = Masse totale

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 35


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Exemple précédent : Calculons la médiale de cette distribution

Salaire Effectif f i en % FCC xi M i = xi ni MCC pi en % PCC


30 – 40 5 14,3 14,3 35 175 175 8,6 8,6
40 – 50 7 20,0 34,3 45 315 490 15,4 24,0
50 – 60 8 22,9 57,1 55 440 930 21,6 45,6
60 – 80 12 34,3 91,4 70 840 1770 41,2 86,8
80 – 100 3 8,6 100,0 90 270 2040 13,2 100,0
Total 35 100,0 2040 100,0

Cherchons d’abord la classe médiale

 2040 = 1020  Mle  60 − 80 D’après le cumul croissant de la masse.


1
1 2  mi =
2

1020 − 930
Mle = 60 + 20 = 62,14 . Calculons la médiane M
840 e

17,5 − 12
M e = 50 + 10 = 56,87  Mle  M e
8

Interprétation de la médiale

On calcule la différence M = Mle − M e M  0 . On compare cette valeur à l’étendue e de la


distribution.
Pour interpréter cette valeur, ne pas oublier que la médiane partage les effectifs en deux parties
égales alors que la médiale partage la masse globale du caractère en deux parties égales.

- Si M est « grand (supérieur) » par rapport à l’étendue e alors la distribution est fortement
inégalitaire et présente une forte concentration.

- Si M est « faible (inférieur) » par rapport à l’étendue e alors la distribution est plutôt égalitaire.

Rem : On a M = 0 (c’est-à-dire Me = Mle ) lorsque la distribution est parfaitement


égalitaire.

3. L’indice de Gini

L’indice de Gini I est le double de l’aire comprise entre la courbe de concentration et la diagonale.
1
IG = 1−
10000
 ( Fi − Fi −1 )(Pi + Pi−1 )
Fi = fréquence relative cumulée croissante de l’effectif
Pi = fréquence relative cumulée croissante de la masse

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 36


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Interprétation :

• Lorsque l’indice de Gini est proche de 0, la dispersion des observations est faible : on dit que la
distribution a une faible concentration.

• Lorsque l’indice de Gini est égal à zéro ( I G = 0 ), la courbe de Gini est confondue avec la diagonale
et correspond à une distribution parfaitement égalitaire.

• Lorsque l’indice de Gini est proche de 1, la dispersion des observations est grande : on dit que la
distribution a une forte concentration.

• Lorsque l’indice de Gini est égal à un ( I G = 1 ), cela correspond à l’inégalité absolue des différents
individus composant la population.

Exemple précédent : Calculons l’indice de Gini

Salaire ni f i en % FCC xi mi = xi ni MCC pi en % PCC


Fi C − Fi −1C Pi C + Pi −1C (a)  (b)
(a) (b)

30 – 40 5 14,3 14,3 35 175 175 8,6 8,6 14,3 8,6 122,5


40 – 50 7 20,0 34,3 45 315 490 15,4 24,0 20,0 32,6 652,0
50 – 60 8 22,9 57,1 55 440 930 21,6 45,6 22,9 69,6 1591,0
60 – 80 12 34,3 91,4 70 840 1770 41,2 86,8 34,3 132,4 4537,8
80 – 100 3 8,6 100,0 90 270 2040 13,2 100,0 8,6 186,8 1600,8
Total 35 100,0 2040 100,0 8504,2

1
IG = 1 −  8504,2 = 0,15
10000

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ 22 34 36 84 _ eakpalou@gmail.com 37


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Chapitre IV - STATISTIQUE DE DEPENDANCE

Introduction
L’étude unidimensionnelle des variables statistiques donne une idée tronquée (idée dont les
éléments importants sont supprimés) de la réalité car les phénomènes économiques sont les plus
souvent liés entre eux. C’est ainsi qu’on ne peut étudier la consommation sans le revenu, le chiffre
d’affaires sans les dépenses publicitaires, les quantités achetées sans le prix, la récolte sans la
quantité d’engrais fournie au sol, etc.
Pour analyser et étudier l’interaction entre ces phénomènes économiques, la statistique de
dépendance propose l’étude de la corrélation et de la régression.

I.– ETUDE DE LA CORRELATION ENTRE DEUX VARIABLES QUANTITATIVES

Monsieur Z se demande si les tonnages annuels des produits frais et du lait frais dépendent l’un de
l’autre.
Il se pose la même question quant au nombre de jours de livraison par semaine et le nombre total
de livraison associé.
Enfin, ayant comparé les livraisons hebdomadaires entre 1987 et 1990, il aimerait en faire la
prévision pour les années 1991 et 1992.

Pour savoir si deux variables quantitatives X et Y dépendent l’une de l’autre, deux méthodes sont
possibles :
- L’étude de la forme du nuage de points
- Le calcul d’un indicateur appelé coefficient de corrélation linéaire.

1- Le nuage de points
L’étude du nuage de points consiste à représenter graphiquement les observations des deux variables
X et Y puis analyser l’allure des points.

Soit un échantillon de taille n ayant comme mesures x1 , x2 ,, xn et y1 , y 2 ,, y n . On peut reporter
l’ensemble de ces points sur un graphique orthonormé et on obtient un nuage de points.

On porte les modalités xi de la variable X sur l’axe des abscisses (variable explicative ou
indépendante) et les modalités yi de la variable Y (variable expliquée ou dépendante). On obtient
des points M ( xi , yi ) représentant chacun une unité statistique : l’ensemble des points forme le
nuage de points de la série.

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 38


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Si le nuage de points forme une courbe, alors il existe une dépendance certaine entre les variables.
Si cette courbe est une droite, on parle de corrélation linéaire. Pas de dépendance dans le cas
contraire c’est-à-dire si le nuage de points n’a pas l’allure d’une courbe.
Ainsi, dans le cas d’une corrélation linéaire, l’une des deux variables se détermine en fonction de
l’autre par une relation du type y = ax + b ou x = a y + b avec « a et a  » des réels non nuls
(coefficients directeurs) et « b et b » des réels.

La droite que ‘suit’ le nuage de points s’appelle droite de régression.


Exemple : Une compagnie d’assurance veut comparer par région le démarchage à domicile et les
contrats à l’aide des informations suivantes du tableau ci-contre.
1- En utilisant les méthodes graphique et calcul de l’indicateur, étudier éventuellement l’existence de
la corrélation entre ses deux variables.
2- Après avoir identifié la variable explicative de la variable expliquée, déterminer les droites de
régression de y en x et de x en y .

Région Démarchage Contrats signés


1 20 10
2 60 30
3 40 18
4 30 15
5 90 45
6 50 25
7 80 35
8 70 30

Résolution :
Soit X la variable associée au nombre de démarchage. Soit Y la variable associée au nombre de
contrats signés.
Méthode par graphique : nuage de points

50
45
40
Y (contrats signés)

35
30
25
20
15
10
5
0
0 10 20 30 40 50 60 70 80 90 100
X (démarcharge)

Le nuage de points est « allongé » donc la corrélation linéaire existe. X et Y varient dans le même
sens donc la corrélation est positive.

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 39


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

On peut aussi par le calcul savoir s’il existe ou non une corrélation linéaire entre les variables X et
Y Pour cela, on calcule un indicateur appelé coefficient de corrélation linéaire.

2- Le coefficient de corrélation

Le Coefficient de corrélation linéaire permet par le calcul de montrer que 2 variables X et Y sont
liées de façon linéaire ou sont en corrélation linéaire.
Cependant, avant le calcul, il est nécessaire d’identifier ou de préciser la variable expliquée (encore
appelée variable dépendante ou endogène) de la variable explicative (c’est-à-dire variable
indépendante ou exogène).

On appelle coefficient de corrélation linéaire d’une série à 2 variables X et Y , le nombre réel r tel
que :
COV ( X , Y )
rxy = où  ( x) et  ( y ) sont les écarts-types respectifs de x et y ; COV ( X , Y ) désigne
 ( x). ( y )

la covariance de la série avec : COV  X , Y  =


 (x − x ) ( y
i i −y)
d’où
n

rxy =
 (x i − x ) ( yi − y )
(1) avec  ( x) =
 (x i − x )2
;  ( y) =
(y i − y )2
n  ( x)  ( y ) n n

rxy =
 (x − x ) ( y − y )
i i
(2) rxy =
x y i i −nx y
(3)
( ( x − x ) )( ( y − y ) )
i
2
i
2
( x 2
i − n x2 )( y 2
i − ny 2 )
xy − x y
rxy = (4)
 ( x)  ( y )
Exemple précédent suite : Procédons au calcul du coefficient de corrélation linéaire.
Régions xi yi xi − x yi − y (xi − x )( yi − y ) (xi − x )2 ( yi − y )2
1 20 10 -35 -16 560 1225 256
2 60 30 5 4 20 25 16
3 40 18 -15 -8 120 225 64
4 30 15 -25 -11 275 625 121
5 90 45 35 19 665 1225 361
6 50 25 -5 -1 5 25 1
7 80 35 25 9 225 625 81
8 70 30 15 4 60 225 16
Total 440 208 0 0 1930 4200 916

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 40


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

x=
x 440
i
=
= 55 y=
 yi = 208 = 26
n 8 n 8

rxy =
 ( xi − x ) ( y i − y ) =
1930
= 0,984
((
 ix − x ) 2
 i ( y − y )(
) 2
4200  916 )
a- Validité du coefficient
r n
Le coefficient de corrélation est valide s’il vérifie la formule suivante : M =  2,6
1− r 2
b- Interprétation

Pour interpréter le coefficient de corrélation, il faut calculer le coefficient de détermination D = rxy


2

et c’est ce dernier coefficient qui mesure la part imputable à la variable explicative dans l’application
de la variable expliquée.
Dans notre cas d’exemple D= (0,984) ² = 0,9682 soit 96,82% ; ce qui signifie que les contrats signés
(effet) sont expliqués à 96,82% par le démarchage (cause) autrement dit le démarchage permet donc
d’établir de nouveaux contrats.
c- Propriétés
➢ Le coefficient de corrélation est toujours compris entre -1 et 1 c’est-à-dire − 1  rxy 1
➢ Si rxy  0 alors il existe une relation inverse entre les 2 variables

➢ Si 0  rxy  0,4 alors la corrélation est faible

➢ Si 0,4  rxy  0,7 alors la corrélation est moyenne

➢ Si rxy  0,7 alors la corrélation est forte

➢ Si rxy = 0 alors pas de corrélation

Par rapport à l’application ; rxy = 0,98  0,7 : les 2 variables sont fortement corrélées.

d- Inégalité de BOUNIAKOVSKY

IB : ( a b )   a   b
i i
2 2
i i
2

Posons ai = xi − x et bi = yi − y alors

IB : ( ( x i − x ) ( y i − y ) )   ( xi − x ) 2   ( y i − y ) 2
2

( ( x − x )( y − y ))
2
 

2
 ( xi − x )( y i − y )  1
 1  
i i

(  ( x − x )   ( y − y)
i
2
i
2
)
2
 ( ( xi − x ) 2 )( ( y i − y ) 2 ) 
 

 rxy2  1  − 1  rxy  1

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 41


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

II.– ETUDE DE LA REGRESSION

Soit un échantillon de taille n ayant comme mesures x1 , x2 ,, xn et y1 , y 2 ,, y n . On peut reporter
l’ensemble de ces points sur un graphique orthonormé et on obtient un nuage de points. Sur ce
graphique, on peut souvent tracer une courbe épousant au mieux les données, c’est la courbe
d’ajustement. Il existe deux types d’ajustement : ajustement linéaire et ajustement non linéaire.

A- CAS DE L’AJUSTEMENT LINEAIRE


Deux méthodes de détermination de l’équation de droite sont à distinguer. Il s’agit de :
1. Méthode des points stratégiques

a. Méthode des points extrêmes

Elle consiste à faire l’hypothèse selon laquelle la droite de régression passe par les points extrêmes
A et B, les coordonnées de ces 2 points doivent vérifier l’équation de la droite yi = axi + b .

Application :
xi yi A (2, 5) et B (21, 30) yi = axi + b
2 5
5 = 2a + b
5 12   a = 1,316; b = 2,368  yi =1,316xi + 2,368
30 = 21a + b
11 19
12 20
15 25
21 30

b. Méthode de Mayer ou de double moyenne

On partage le nuage de points de la distribution en deux nuages de points ayant ou non le même
nombre de points. On détermine pour chaque nuage le point moyen. En joignant ces 2 points, on
obtient une droite appelée droite de Mayer.
La méthode de Mayer est un ajustement affine de la série. Elle permet donc de faire des prévisions.

Reprenons l’application précédente.

xi yi

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 42


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

2 5  2 + 5 + 11 5 + 12 + 19 
A ( x1 , y1 ) A ,   A (6 ,12)
5 12  3 3 
11 19
 12 + 15 + 21 20 + 25 + 30 
12 20 B (x2 , y 2 ) B ,   B (16, 25)
15 25  3 3 
21 30
12 = 6a + b
  a = 1,3; b = 4,2  yi =1,3xi + 4,2
25 = 16a + b

2. Méthode des moindres carrés

La méthode des moindres carrés consiste à minimiser la somme des erreurs au carré c’est-à-dire la
différence entre la valeur réelle et la valeur ajustée.

yˆ i = axi + b

S =  ( yˆ i − yi ) 2 =  (axi + b − yi ) 2

S S
=0 ; =0
a b

a xi2 + b xi =  xi yi  a x 2 + bx = xy

a xi + nb =  yi  ax + b =y

xy − x  y xy − x  y y
a= ; b = y − ax or rxy =  a=  rxy
 2
x  ( x)  ( y ) x

xy − x  y
• La droite de régression (D) notée D y x d’équation yˆ = ax + b où a = est une droite de y
 x2
en x (c’est-à-dire y en fonction de x ).

• Concernant la droite de régression de x en y (c’est-à-dire x en fonction de y ), le coefficient a de

xy − x  y
la droite notée Dx y d’équation xˆ = a y + b est déterminé par la formule suivante : a  =
 y2
x
ou a  =  rxy ; b = x − a y
y

• Connaissant les coefficients a et a  le coefficient de corrélation peut être déterminé par la formule

suivante : rxy = aa 

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 43


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Application 1 : Déterminer la droite de régression de la distribution suivante par la méthode des


moindres carrée.

xi yi xiyi xi² 66 111


x= = 11 y= = 18,5
2 5 6 6
10 4
5 12 1524 960
60 25 xy = = 254 x 2 = = 160
11 19 209 121 6 6
12 20 240 144 254 −1118,5 50,5
a= = = 1,3
15 25 375 225 160 −11² 39
21 30 630 441
66 111 1524 960 b = y − ax = 18,5 − 1,3  11 = 4,2  yˆ i = 1,3xi + 4,2

B- CAS DE L’AJUSTEMENT NON LINEAIRE

Dans certains cas, l’ajustement à une fonction linéaire n’est pas adéquat : un ajustement des données
à une fonction non linéaire doit être envisagé. Les deux cas que nous considérons sont ceux où on
peut se ramener par simple transformation à un ajustement affine.

1. Ajustement à une fonction puissance

Supposons que les variables statistiques x et y liées par une relation de la forme y = bx .
a

Dans ce cas, cette équation peut être transformée en prenant le logarithme (peu importe la base, le
logarithme naturel) :
ln ( y) = ln (bx a ) = ln (b) + ln ( x a ) = ln (b) + a ln ( x)
En effectuant les changements de variables suivants Y = ln ( y ); X = ln ( x); B = ln (b) nous nous
ramenons au cas d’un ajustement linéaire : Y = aX + B .
De ce fait, on applique les mêmes méthodes de moindres carrés comme pour la détermination des
réels a et b . L’équation de droite déterminée sera ramenée sous la forme de fonction puissance
par changements de variables réciproques.
2. Ajustement à une fonction exponentielle

Supposons que les variables statistiques x et y liées par une relation de la forme y = be .
ax

Dans ce cas, cette équation peut être transformée en passant aux logarithmes :
ln ( y) = ln (beax ) = ln (b) + ln (e ax ) = ln (b) + a x

En effectuant les changements de variables suivants Y = ln ( y ); B = ln (b) nous nous ramenons


au cas d’un ajustement linéaire : Y = ax + B .
En appliquant les mêmes méthodes de moindres carrés, on obtient l’équation de droite. En passant
par le changement de variables réciproque, on ramène l’équation de droite déterminée sous sa forme
initiale.

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 44


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

III. – LA PREVISION

Après avoir vérifié l’existence de la corrélation linéaire par le calcul de rxy , on trace une ou les deux
droites de régression. Celles-ci nous servent alors, connaissant la valeur d’une des variables, d’en
déduire la valeur associée de l’autre variable. Ceci nous permet par exemple d’évaluer l’augmentation
de l’une des variables, connaissant l’augmentation de l’autre.

Exemple : La société Manuella a relevé ses dépenses publicitaires et son chiffre d’affaires entre
1980 et 1984 dans le tableau suivant (valeurs exprimées en millions de francs) :

Années Chiffre Dépenses


d’affaires publicitaires
1980 5 0,25
1981 8 0,30
1982 10 0,32
1983 12 0,35
1984 16 0,38

Le chiffre d’affaires pour l’année 1985 est de 20 millions de francs. Quelles sont les dépenses
publicitaires prévisionnelles correspondantes ?

Résolution :

Compte tenu de la question, les variables à considérer sont :


- les dépenses publicitaires désignées par X : variable explicative
- le chiffre d’affaire désigné par Y : variable expliquée.

Vérifions l’existence de la corrélation linéaire entre ces deux variables par le calcul du coefficient de
xy − x • y
corrélation rxy tel que rxy =
 ( x)  ( y )

yi xi xi y i y i2 xi2 51 1,6
y= = 10,2 x= = 0,32
5 0,25 1,25 25 0,0625 5 5
8 0,3 2,4 64 0,09
10 0,32 3,2 100 0,1024 17,13
xy = = 3,426
12 0,35 4,2 144 0,1225 5
16 0,38 6,08 256 0,1444 589
y2 = = 117,8
51 1,6 17,13 589 0,5218 5

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 45


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

0,5218
x2 = = 0,10436
5

 y = 117,8 − 10,2² = 3,71  x = 0,10436 − 0,32² = 0,044

xy − x • y 3,426 − 10,2  0,32


rxy = = = 0,99
 ( x)  ( y ) 3,71  0,044
Les variables X et Y sont donc liées linéairement.
Déterminons l’équation de la droite de régression ( D y x ) soit Y en fonction de X.

3,426 −10,2  0,32 0,162


a= = = 82,65 b = y − ax = 10,2 − 82,65  0,32 = −16,248
0,10436 − 0,32² 0,00196
yˆ i + 16,248 20 + 16,248
yˆ i = 82,65xi − 16,248  xi = = = 0,44 .
82,65 82,65

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 46


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Chapitre VI – INDICES

I. – GENERALITES
Pour l’étude des phénomènes économiques et sociaux, on a souvent besoin de décrire les variations
de grandeurs simples (par exemple, prix du riz, production de fer, exportation d’automobile, taux de
fécondité etc.). Ces comparaisons, dans le temps et dans l’espace, se font généralement en effectuant
le rapport des grandeurs considérées : on parle d’indices statistiques élémentaires.
Mais il est encore plus important d’être en mesure de suivre les évolutions de grandeurs complexes
(le niveau général des prix, la production industrielle, les importations, etc.). Celles-ci peuvent être
résumées par telles ou telles caractéristiques de tendance centrale des indices élémentaires qui leur
correspondent : on parle alors d’indice synthétique.

1. Définition
L’indice est un indicateur économique qui permet de mesurer, de comparer et d’analyser l’évolution
d’un phénomène économique dans le temps et dans l’espace.

2. Types d’indice
On distingue deux types d’indice :
- Indice élémentaire ou indice simple
- Indice synthétique ou indice composé

II.– ETUDE DES INDICES ELEMENTAIRES

1) Définition
L’indice simple caractérise l’évolution d’un seul produit entre deux dates données. L’indice simple
noté I 1 0 d’une valeur d’un produit à la date t1 , base 100 à la date t 0 est :

P1
I1 / 0 =  100
P0

où P1 est la valeur du produit à la date t1 et P0 la valeur du produit à la date t 0 , date de référence ou


de base. La valeur a donc évolué de (I1/0 – 100) % de t 0 à t1

Exemple : Le prix du pain en 1980 est de 30F. Il vaut 75F en 2003. Calculer l’indice du pain en
2003 base 100 1980.
Résolution :

P2003 75
I 2003 / 1980 =  100 =  100 = 250
P1980 30

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 47


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Le prix de la baguette du pain de 1980 à 2003 a augmenté de :


(I2003/1980 – 100) % = (250 – 100) % = 150%.

2) Propriétés
a. Circularité
I2 0 P2 P1 P2
I 2 0 = I 2 1  I1 0  I 2 1 = Preuve : I 2 / 1  I 1 / 0 =  = = I2 0
I1 0 P1 P0 P0
b. Réversibilité
1 P0 1
I 0 /1 =  =
I1 / 0 P1 P1
P0

III – ETUDE D’INDICE SYNTHETIQUE

1. Définition
L’indice synthétique ou indice composé caractérise l’évolution d’un groupe de produits entre deux
dates de données ; dont l’une est la date de base et correspond à la valeur 100 de l’indice. Les indices
se calculent comme des moyennes arithmétiques pondérées.
Plusieurs types de calculs d’indices sont possibles.

2. – Types d’indice synthétiques


Généralement, on distingue l’indice des prix et de quantité de LASPEYRES et de PAASCHE.

a. Variation d’un seul paramètre


L’indice synthétique de la moyenne des indices simples correspond à la moyenne arithmétique des
indices simples connus ou préalablement calculés.

Somme des indices simples


Indice synthétique =
Nombre d ' indices simples

Exemple : La société Belle Fleur a fabriqué au cours du premier trimestre, 5 sortes de vêtements.
Elle souhaiterait évaluer sa progression. Elle recense les fabrications dans le tableau suivant
Janvier Février Mars
Pantalons 50 150 130
Jupes 20 20 50
Vestes 100 150 100
Chemises 40 80 30
T-shirts 100 80 150

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 48


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Résolution :
Janvier Février Mars Indice Fév. Indice Mars
Pantalons 50 150 130 100  150 50 = 300 100  130 50 = 260
Jupes 20 20 50 100 250
Vestes 100 150 100 150 100
Chemises 40 80 30
200 75
T-shirts 100 80 150 80 150
830 835

Prenons le mois de janvier comme période de base et calculons les indices simples pour Fév. puis
mars.
L’indice synthétique de fabrication des vêtements en février, base 100 en janvier est de :
830 / 5 = 166 . Celui en mars base 100 en janvier est de : 835 / 5 = 167 .
Les fabrications ont progressé de 66% de janvier à février et de 67% de janvier à mars.

b. Variation de deux paramètres

Soient I 1 0 les indices à la date t1 (période courante) base 100 à la date t 0 (période de base)

Soient P0 les prix unitaires et Q0 les quantités à la date t 0 (période de base)


Soient P1 les prix unitaires et Q1 les quantités à la date t1 (période courante)

1. Indice de PRIX :

I 1P0 =
 P  Q  100
1

P Q 0

• Si la quantité est relative à la période de base alors il s’agit d’un indice prix de Laspeyres

I1P0 ( L) =
P Q1 0
 100
P Q0 0

• Si la quantité est relative à la période courante alors il s’agit d’un indice prix de Paasche

I 1P0 ( Pa ) =
P Q1 1
 100
P Q0 1

• Indice prix de Fisher

I FP = I1P0 ( L)  I1P0 ( Pa )

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 49


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

2. Indice de QUANTITE :

I 1q0 =
P Q 1
 100
P Q 0

• Si le prix est relatif à la période de base alors il s’agit d’un indice quantité de Laspeyres

I1q0 ( L) =
P Q 0 1
 100
P Q 0 0

• Si le prix est relatif à la période courante alors il s’agit d’un indice quantité de Paasche

I 1q0 ( Pa ) =
P Q 1 1
 100
P Q 1 0

• Indice quantité de Fisher

I Fq = I1q0 ( L)  I1q0 ( Pa )
3. Indice de Valeur

Iv =
P Q 1 1
 100 (1) Iv =
I 1P0 ( L)  I 1q0 ( Pa )
(2)
P Q 0 0 100
I1P0 ( Pa )  I1q0 ( L)
Iv = (3)
100

Remarque : Ne pas confondre Indice de Fisher et Indice de valeur.


Exemple : Un agent commercial compare ses dépenses en hôtels et restauration en 1988 et 1992.
1988 1992
Prix moyen Prix moyen
Quantité Quantité
unitaire en F unitaire en F
Hôtel 120 80 90 100
Restaurants 200 50 150 70
Consommations 40 20 50 60
dans les cafés

Calculer l’indice de prix de Laspeyres et de Paasche et de quantité ; base 100 1988.


En déduire l’indice de valeur.
Résolution
1988 1992

Q0 P0 Q1 P1 P0 Q0 P1Q0 P0 Q1 P1Q1
Hôtel 120 80 90 100 9600 12000 7200 9000
Restaurants 200 50 150 70 10000 14000 7500 10500
Consommations
dans les cafés 40 20 50 60 800 2400 1000 3000
Total
20400 28400 15700 22500
Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 50
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Calcul des indices de prix et de quantité de Laspeyres

I 1P0 ( L) =
 P Q  100 = 28400  100 = 139,22
1 0

P Q 0 20400
0

I 1q0 ( L) =
 Q .P  100 = 15700  100 = 76,96
1 0

 Q .P 0 20400
0

Calcul des indices de prix et de quantité de Paasche

I 1P0 ( Pa ) =
 Q .P  100 = 22500  100 = 143,31
1 1

 Q .P 1 15700 0

I 1q0 (P ) =
 Q .P  100 = 22500  100 = 79,22
1 1

 Q .P
a
0 28400 1

Déduisons l’indice de valeur

Iv =
P Q 1 1
 100 =
22500
 100 = 110,29 (1)
P Q0 0 20400

I1P0 ( L)  I1q0 ( Pa ) 139,22  79,22


Iv = = = 110,29 (2)
100 100

I1P0 ( Pa )  I1q0 ( L) 143,31 76,96


Iv = = = 110,29 (3)
100 100

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 51


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Chapitre VII – SERIES CHRONOLOGIQUES

I. – GENERALITES

1- Définition
On appelle série chronologique, série temporelle ou chronique une suite d’observations chiffrées
ordonnées dans le temps. C’est une série statistique à deux variables quantitatives dont l’une est une
mesure de temps et l’autre une variable numérique yt prenant ses valeurs aux instants t . C’est donc
une série bidimensionnelle (t , yt ) . Les valeurs de la composante t sont rangées dans l’ordre
chronologique.
Le but de l’analyse des séries chronologiques est d’analyser et d’isoler les facteurs qui commandent
l’évolution du phénomène étudié au cours du temps puis de construire un modèle à vocation
prévisionnelle.
Quelques exemples de séries évoluant en fonction du temps : évolution d’indices, de consommation
d’un bien, l’indice des prix à la consommation (Economie) ; Population urbaine, rurale, d’un pays,
comportement des familles : naissance, mariage (Démographie).

En pratique, la série chronologique ( yt ) est donnée sous forme d’un tableau bidimensionnel où la
date peut être remplacée par le n° d’observation t .

La fréquence des observations peut être journalière, hebdomadaire, mensuelle, trimestrielle,


annuelle ou autre.

Exemple : considérons la série statistique suivante qui montre l’évolution du chiffre d’affaires (en
millions de francs) trimestriel d’une entreprise au cours des 4 années consécutives :
Année N Année N+1 Année N+2 Année N+3

Trimestres 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
CA 8 10 7 30 13 14 8 40 16 18 11 50 20 20 14 60

2- Les composantes des séries temporelles


On considère qu’une série ( yt ) est la résultante de différentes composantes fondamentales :

➢ La composante extra saisonnière ou conjoncturelle encore appelée tendance ou Trend ( C t )


représente l’évolution à long terme de la série ( yt ) étudiée : elle traduit le comportement « moyen »
de la série ;

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 52


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

➢ la composante saisonnière ou saisonnalité ( S t ) correspond à un phénomène qui se répète à


intervalles de temps réguliers (périodique). En général, c’est un phénomène saisonnier d’où le terme
de variations saisonnières (période mensuelle, journalière, horaire…) ;

➢ la composante résiduelle (bruit), accidentelle ou aléatoire (  t ) : ce sont des fluctuations irrégulières,


en général de faible intensité mais de nature aléatoire. Elles proviennent de causes imprévisibles
(catastrophe naturelle, grève, …).

Yt = f (Ct , S t ,  t )

Certains phénomènes économiques étudiés à très long terme présentent une composante cyclique
(cycles d’activité). Cette composante traduit les oscillations autour de la tendance générale. Ces
oscillations sont approximativement périodiques (succession de phases : prospérité, crise,
dépression, reprise).

3- Les modèles de composition


En général, une série chronologique est représentée dans un tableau à double entrée de diverses
manières ; soit : en ligne : l’année ; en colonne : le mois, le trimestre, etc. ou bien l’inverse.

Les modèles de composition les plus simples sont les schémas additifs et multiplicatifs.

a. Schéma additif Yt = Ct + S t +  t , avec t = 1,, n .

Dans le modèle additif, l'amplitude de la composante saisonnière et du bruit reste constante au cours
du temps. Ceci se traduit graphiquement par des fluctuations autour de la tendance d'amplitude
constante.
p n
En supposant que  S j = 0 et  et = 0 , les composantes ( St ) et ( et ) sont centrées et donc toute
j =1 t =1

l’information concernant la tendance c’est-à-dire le comportement « moyen » est uniquement


contenu dans la composante ( C t ).

Exemple : Ventes (en milliers) d’un produit P de 1995 à 1998


1995 1996 1997 1998
1er trimestre 42 46 67 79
2ème trimestre 60 75 94 110
3ème trimestre 35 50 70 88
4ème trimestre 21 40 56 73

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 53


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

120

100

Ventes (en milliers)


80

60

40

20

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Trim es tres de 1995 à 1998

b. Schéma multiplicatif
Yt = Ct  S t   t , avec t = 1,, n .

Dans ce modèle, l'amplitude de la composante saisonnière et du bruit n'est plus constante au cours
du temps : elles varient au cours du temps proportionnellement à la tendance ( yt ).

p p
1 n n
Supposons que  S j = p et
j =1
 et = 1 , Yt = Ct  (1 + st )  (1 + et ) avec
n t =1
 S j = 0 et
j =1
e
t =1
t =0

Exemple : Ventes (en milliers) d’un produit Q de 1995 à 1998

1995 1996 1997 1998


1er trimestre 36 50 62 78
2ème trimestre 50 69 89 120
3ème trimestre 31 38 50 69
4ème trimestre 21 24 30 37

140

120
Ventes (en milliers)

100

80

60

40

20

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Trim es tres de 1995 à 1998

4- Les méthodes de décomposition d’une série chronologique

Décomposer une série chronologique revient donc à estimer pour chaque date d’observation ou
période, les valeurs de la composante extra saisonnière C t et de la composante saisonnière S t . Deux
grandes catégories de méthodes sont utilisées : les méthodes analytiques et les méthodes empiriques.

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 54


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

II. – TENDANCE GENERALE OU TREND D’UNE SERIE CHRONOLOGIQUE

Le trend ou tendance générale indique l’évolution de la série chronologique et permet d’établir des
prévisions. Pour dégager la tendance générale, il faut éliminer ou atténuer les variations. Différentes
méthodes sont possibles suivant que la tendance est linéaire (calcul du coefficient de corrélation) ou
non.

A. Méthode empirique : les moyennes mobiles

Cette méthode est la plus souvent utilisée pour l’analyse des séries temporelles. Elle a pour but de
déterminer le trend par le calcul des moyennes mobiles. Elle permet de lisser la série c’est-à-dire
d’atténuer les « pointes ».
Principe : on remplace la série chronologique par une nouvelle série chronologique composée des
moyennes arithmétiques des modalités de la série initiale.
Calcul : La 1ère moyenne arithmétique est calculée à partir d’un nombre donné des 1 ères modalités. La
suivante se calcule en décalant les modalités d’un rang, etc.

y1 + y 2 + ........ + y k y + y 3 + ......y k +1 y + y n − k +1 + .........+ y n


puis 2 jusqu ' à n − k
k k k
En théorie, chaque moyenne mobile doit se placer à la période médiane de la série des valeurs
considérées dans son calcul. Ainsi, chaque moyenne mobile calculée est affectée à la période suivant
immédiatement à la période médiane.
Remarque : l’inconvénient des moyennes mobiles est que l’on perd des informations en début et en
fin de série.
Intérêt : on atténue par cette méthode les « pointes » de la série initiale. On dit que l’on a lissé la
série chronologique (on parle aussi de lissage).

Exemple : Au cours des quatre derniers exercices, le CA (en millions de F) d’un groupe français de
communication et de tourisme a évolué de la manière suivante :

1987 1988 1989 1990


1er trimestre 1,8 2,3 2,9 3,3 Déterminer le Trend par la méthode
2ème trimestre 1,4 1,8 2,8 2,7 de calcul des moyennes mobiles
3ème trimestre 2,3 2,8 3,2 3,8
d’ordre 4.
4ème trimestre 1,5 1,7 2,1 1,8

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 55


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Résolution :
Année Trim. Période CA Totaux mobiles Moyennes mobiles
1 1 1,8
1987 2 2 1,4
3 3 2,3 1,750
4 4 1,5 7,0 1,875
1 5 2,3 7,5 1,975
1988 2 6 1,8 7,9 2,100
3 7 2,8 8,4 2,150
4 8 1,7 8,6 2,300
1 9 2,9 9,2 2,550
1989 2 10 2,8 10,2 2,650
3 11 3,2 10,6 2,750
4 12 2,1 11,0 2,850
1 13 3,3 11,4 2,825
1990 2 14 2,7 11,3 2,975
3 15 3,8 11,9 2,900
4 16 1,8 11,6

Donnée initiale Donnée tendancielle


4,0

3,5

3,0

2,5

2,0

1,5

1,0

0,5

0,0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

B. Méthode analytique : méthode de Mayer ou de double moyenne


Principe : on partage le nuage de points de la série chronologique en deux nuages de points, ayant
ou non le même de points. On détermine pour chaque nuage le point moyen. En joignant ces 2 points,
on obtient une droite de tendance appelée droite de Mayer.
Calcul : le point moyen d’un nuage de points a pour :
a. abscisse : la moyenne des abscisses des points du nuage
b. ordonnée : la moyenne des ordonnées des points du nuage
Intérêt : on élimine par cette méthode les « pointes » de la série chronologique. On dit que l’on a
ajusté linéairement la série chronologique (on parle d’ajustement linéaire ou affine).
On pourra établir des prévisions du fait de la relation linéaire créée entre les deux variables.
Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 56
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Exemple : Un important fabricant de vêtement relève entre 1980 et 1989, le nombre de succursales
ouvertes dans son pays et son chiffre d’affaires, qu’il consigne dans le tableau suivant :

C.A.
Années Périodes ( xi ) Nombre de succursales ( yi ) '
(en milliers de F) ( yi )
1980 1 10 700
1981 2 20 700
1982 3 20 500
1983 4 20 600
1984 5 40 400
1985 6 30 400
1986 7 40 500
1987 8 60 200
1988 9 60 300
1989 10 50 300

1- Etudier l’évolution de 2 séries chronologiques par la méthode de Mayer


2- Si la tendance se maintient, trouver le nombre de succursales en 1991 et son CA en 1990.

Résolution

1. a- série chronologique associée aux succursales

c. 1er nuage : 1  xi  5 ; on a les couples (1 ;10), (2 ;20), (3 ;20), (4 ;20), (5 ;40)

1+ 2 + 3 + 4 + 5 
 =3 
Le point moyen Z 1 a pour coordonnées : Z 1  5 
 10 + 20 + 20 + 20 + 40 
 = 22 
 5 

d. 2e nuage : 6  xi  10 ; les couples sont (6 ;30), (7 ;40), (8 ;60), (9 ;60), (10 ;50)

 6 + 7 + 8 + 9 + 10 
 =8 
Le point moyen Z 2 a pour coordonnées : Z 2  5 
 30 + 40 + 60 + 60 + 50 
 = 48 
 5 

La droite ( Z 1 , Z 2 ) est la droite de tendance d’équation yi = axi + b

22 = 3a + b
  a = 5,2; b = 6,4 . D’où yi = 5,2 xi + 6,4
48 = 8a + b

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 57


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

b- série chronologique associée au chiffre d’affaires


Même procédure de calcul

1+ 2 + 3 + 4 + 5   6 + 7 + 8 + 9 + 10 
 =3   =8 
C1   C  
5 5
 700 + 700 + 500 + 600 + 400  2
 400 + 500 + 200 + 300 + 300 
 = 580   = 340 
 5   5 

580 = 3a + b
  a = −48; b = 724 . D’où y ' i = −48xi + 724
340 = 8a + b
Conclusion : le nombre de succursales est en progression (car le signe du coefficient directeur « a »
est positif) alors que le C.A. est en régression (le coefficient directeur a un signe négatif).

2. Le nombre théorique de succursales en 1991

en 1991 xi = 11 d’où yi = 68,8 . Il peut donc prévoir 69 succursales.

Quant au CA, en 1990 xi = 10 , yi' = 196 millionsde F .

C. Méthode analytique : méthode de moindres carrés

Principe : on cherche la droite (D) d’équation yi = axi + b , la plus proche du maximum des points.

cov( x, y ) xy − x  y
Avec a = = ; b = y − ax
V ( x) x 2 − (x)2

Exemple : Coût de la construction, indice INSEE de base 100 au 4e trimestre 1953

1987 1988 1989 1990


1er Trimestre 884 908 929 939
2e 889 912 924 951
3e 895 919 925 956
4e 890 919 927 952

1. Etudier l’évolution de l’indice INSEE par la méthode de moindres carrés.


2. Si la tendance se maintient, quel devrait être l’indice INSEE au 4 e trimestre 1991 ? au 2e trimestre
1992 ?

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 58


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Résolution

Période Indice 136


x= = 8,5
Année Trim. x y xy x 2
16
1 1 884 884 1 14719
y= = 919,9375
1987 2 2 889 1778 4 16
3 3 895 2685 9
126697
4 4 890 3560 16 xy = = 7918,5625
16
1 5 908 4540 25
1496
2 6 912 5472 36 x² = = 93,5
16
1988 3 7 919 6433 49
7918,5625 − 8,5  919,9375
4 8 919 7352 64 a= = 4,66
93,5 − (8,5) 2
1 9 929 8361 81
1989 2 10 924 9240 100 b = 919,9375 − 4,66  8,5 = 880,3
3 11 925 10175 121
Equation de droite : y = 4,66 x + 880,3
4 12 927 11124 144
Le coefficient directeur étant positif ( 4,66  0
1 13 939 12207 169
1990 2 14 951 13314 196 ) signifie que l’indice INSEE est en
3 15 956 14340 225 augmentation.
4 16 952 15232 256
TOTAL 136 14719 126697 1496

2. Prévisions
* 4e trimestre 1991 correspond à la période 20 soit x = 20 . y = 4,66  20 + 880,3 = 973,56

L’indice INSEE au 4e trim. 1991 sera 973


* 2e Trim. 1992 correspond à la période 22 soit x = 22  y = 982,85

III. – VARIATIONS SAISONNIERES D’UNE SERIE CHRONOLOGIQUE


Les variations saisonnières sont des fluctuations périodiques qui se produisent régulièrement.
Autrement dit ce sont les variations qui se répètent chaque année à la même période.
Le moyen le plus simple pour montrer l’existence de variations saisonnières est de fractionner la
série en séries annuelles, puis de superposer leur représentation graphique. Si les représentations
graphiques sont semblables, il y a variations saisonnières.
Pour évaluer correctement une série chronologique, il faut étudier les variations saisonnières et
obtenir à partir de la série initiale (données brutes) une nouvelle série appelée série corrigée des
variations saisonnières. Dans ce cas on calcule les coefficients saisonniers.
Des méthodes permettent de calculer ces coefficients suivant que le modèle est additif ou
multiplicatif.

A. Méthode des écarts à la tendance


Elle se fait en quatre étapes :
Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 59
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

1ère étape : étude de la tendance par le lissage des séries en utilisant la méthode de calcul des
moyennes mobiles. On obtient des valeurs appelées données tendancielles.
2e étape : remplacement de chaque donnée tendancielle de la série par le calcul d’un coefficient
partiel d i défini par : d = donnée brute − donnée tendancielle
i

3e étape : calcul des coefficients saisonniers comme moyenne arithmétique des coefficients partiels
d i pour chaque période (généralement mensuellement ou trimestrielle).
4e étape : modification éventuelle des coefficients saisonniers afin que leur somme soit égale à 0.
La série corrigée des variations saisonnières s’obtient alors ainsi :

Série corrigée = donnée brute – coefficient saisonnier.

Exemple : Le CA (en millions de F) de la société Junior entre 1980 et 1983 est le suivant :
1980 1981 1982 1983 Désaisonnaliser cette série par la méthode des
1er Trimestre 90 120 200 300 écarts à la tendance.
2e 160 100 80 90
3e 300 290 310 350
4e 320 260 240 230

Résolution

CA Totaux Moyennes mobiles (donnée


Année Trim. Période (donnée brute) mobiles tendancielle) di
1 1 90 - -
1980 2 2 160 - -
3 3 300 217,5 82,5
4 4 320 870,0 225,0 95,0
1 5 120 900,0 210,0 -90,0
1981 2 6 100 840,0 207,5 -107,5
3 7 290 830,0 192,5 97,5
4 8 260 770,0 212,5 47,5
1 9 200 850,0 207,5 -7,5
1982 2 10 80 830,0 212,5 -132,5
3 11 310 850,0 207,5 102,5
4 12 240 830,0 232,5 7,5
1 13 300 930,0 235,0 65,0
1983 2 14 90 940,0 245,0 -155,0
3 15 350 980,0 242,5 107,5
4 16 230 970,0 - -

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 60


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

1980 1981 1982 1983 calcul de coefficients


saisonniers Coefficient.
1er Trimestre - -90,0 -7,5 65,0 (-90,0-7,5+65)/3 -10,83
2e - -107,5 -132,5 -155,0 (-107,5-132,5-155,0)/3 -131,67
3e 82,5 97,5 102,5 107,5 (82,5+97,5+102,5+107,5)/4 97,50
4e 95,0 47,5 7,5 - (95,5+47,5+7,5)/3 50,00
TOTAL 5,00

En principe, la somme des coefficients saisonniers est égale à 0.


Dans notre exemple la somme est égale à 5 donc il doit être modifié d’où la 4e étape.
Pour modifier, on fait le rapport 5 par 4 (5/4 = 1,25), ensuite on retranche le résultat (1,25 par
exemple) de chaque coefficient déjà calculé. Nous obtenons le résultat suivant :

Coefficient Coefficient Nouveau La série corrigée devient :


calculé. modifié coefficient.
-10,83 (-10,83-1,25) -12,08
-131,67 (-131,67-1,25) -132,92
97,50 (97,50-1,25) 96,25
50,00 (50,00-1,25) 48,75
5,00 Total 0,00

Série initiale (donnée


Coefficient Série corrigée
brute)
1980 1981 1982 1983 1980 1981 1982 1983
1er Trimestre 90 120 200 300 -12,08 102 132 212 312
2e 160 100 80 90 -132,92 293 233 213 223
3e 300 290 310 350 96,25 204 194 214 254
4e 320 260 240 230 48,75 271 211 191 181

Série initiale Série corrigée Donnée tendancielle

400
Chiffre d'affaires (en millions de F)

350
300
250
200
150
100
50
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Trimestres (années 1980 à1983)

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 61


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

B. Méthode du rapport à la tendance par la méthode des moindres carrés

Cette méthode se fait en 5 étapes :


1. 1ère étape : étude de la tendance en ajustant la série par une droite de tendance (MMC).
2. 2e étape : remplacement de chaque valeur de la série par la valeur associée appelée donnée
tendancielle de la série calculée à partir de l’équation de la droite de tendance
donnée brute y
3. 3e étape : calcul de coefficient partiel ri défini par : ri = = i'
donnée tendancielle yi
4. 4e étape : calcul des coefficients saisonniers comme moyenne arithmétique des coefficients partiels
ri pour chaque période (généralement mensuellement ou trimestrielle).
5. 5e étape : modification éventuelle des coefficients saisonniers afin que leur somme soit égale au
nombre de périodes (12 si mensuelles ; 4 si trimestre). Si ce n’est pas le cas, on modifie chaque
coefficient en le multipliant par le nombre de périodes divisé par la somme trouvée.
6. La série corrigée des variations saisonnières s’obtient alors ainsi :

Série corrigée = (donnée brute / coefficient saisonnier

Exemple : Une entreprise fabrique des réfrigérateurs. Ses ventes ont été entre 1988 et 1990 les
suivantes :
1988 1989 1990 Désaisonnaliser cette série par la méthode des moindres
1er Trimestre 650 700 800 carrés.
2e 700 800 1000
3e 1050 1150 1400
4e 750 800 1100

Résolution

Période yi
Année Trim. CA Y XY X² Yˆ ri =
X yˆ i
1 1 650 650 1 681 0,95
1988 2 2 700 1400 4 722 0,97
3 3 1050 3150 9 763 1,38
4 4 750 3000 16 804 0,93
1 5 700 3500 25 845 0,83
1989 2 6 800 4800 36 886 0,90
3 7 1150 8050 49 927 1,24
4 8 800 6400 64 968 0,83
1 9 800 7200 81 1009 0,79
1990 2 10 1000 10000 100 1050 0,95
3 11 1400 15400 121 1091 1,28
4 12 1100 13200 144 1132 0,97

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 62


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

78 10900 76750 650 x = 6,5

y = 908,3

x y = 6395,8

x 2 = 54,2
a = 41
b = 640

yˆ = 41 x + 640

1988 1989 1990 calcul de coefficients saisonniers coefficient


1er Trimestre 0,95 0,83 0,79 (0,95+0,83+0,79)/3 0,85
2e 0,97 0,90 0,95 (0,97+0,90+0,95)/3 0,94
3e 1,38 1,24 1,28 (1,38+1,24+1,28)/3 1,30
4e 0,93 0,83 0,97 (0,93+0,83+0,97)/3 0,91
TOTAL 4,00

La somme des coefficients saisonniers doit toujours être égale au nombre de périodes (4 si trim.) ;
ce qui est vérifié ; donc pas de modification des coefficients saisonniers.
La série corrigée des variations saisonnières est alors en arrondissant à la valeur entière :

Série initiale Série corrigée


1988 1989 1990 coefficient 1988 1989 1990
1er Trimestre 650 700 800 0,85 765 824 941
2e 700 800 1000 0,94 743 850 1 062
3e 1050 1150 1400 1,30 808 885 1 077
4e 750 800 1100 0,91 824 879 1 208

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 63


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Série initiale Série corrigée Donnée tendancielle

Chiffre d'affaires (en milliers) 1600


1400
1200
1000
800
600
400
200
0
1 2 3 4 5 6 7 8 9 10 11 12
Trimestres (années de 1988 à 1990)

Autre exemple : Coût de la construction, indice INSEE de base 100 au 4e trimestre 1953
1987 1988 1989 1990
1er Trimestre 884 908 929 939
2e 889 912 924 951
3e 895 919 925 956
4e 890 919 927 952

1. Etudier l’évolution de l’indice INSEE par la méthode de moindres carrés.


2. Désaisonnaliser cette série.

Résolution :
1. L’équation de la droite de régression calculée précédemment : yˆ = 4,66 x + 880,3

y
a. Calcul des données tendancielles et du coefficient ri =

1987 1988 1989 1990

y y y y
y ŷ ri = y ŷ ri = y ŷ ri = y ŷ ri =
yˆ yˆ yˆ yˆ
1er Trim. 884 885 0,999 908 904 1,004 929 922 1,008 939 941 0,998
2e 889 890 0,999 912 908 1,004 924 927 0,997 951 946 1,005
3e 895 894 1,001 919 913 1,007 925 932 0,992 956 950 1,006
4e 890 899 0,990 919 918 1,001 927 936 0,990 952 955 0,997

b. Calcul des coefficients saisonniers C i par trimestre

Ci = (r1987 + r1988 + r1989 + r1990 ) / 4


1987 1988 1989 1990
Ci
ri ri ri ri
1er Trim. 0,999 1,004 1,008 0,998 1,002
Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 64
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

2e 0,999 1,004 0,997 1,005 1,001


3e 1,001 1,007 0,992 1,006 1,002
4e 0,99 1,001 0,99 0,997 0,995

y
c. Calcul des séries corrigées CVS =
Ci
Série initiale Série corrigée

1987 1988 1989 1990 coefficient 1987 1988 1989 1990

1er Trim. 884 908 929 939 1,002 882 906 927 937
2e 889 912 924 951 1,001 888 911 923 950
3e 895 919 925 956 1,002 893 917 923 954
4e 890 919 927 952 0,995 894 924 932 957

C. Autre méthode de détermination des coefficients saisonniers


1- Définition
Les coefficients saisonniers indiquent la moyenne des variations saisonnières ou leur importance.
Ils sont calculés de façon mensuelle ou trimestrielle. Leur détermination se réalise sur la base de
plusieurs années et on obtient, par le calcul, un coefficient pour chaque trimestre ou chaque mois.
Ces coefficients permettent de déterminer la saisonnalité des ventes sur l’année, c’est-à-dire
connaître avec précision combien représentent les ventes d’un trimestre, par exemple, dans le CA
annuel de l’entreprise.
Le calcul des coefficients saisonniers sert principalement dans deux cas :
e. Lors de l’analyse de la saisonnalité des ventes d’une entreprise pour pouvoir proposer des solutions
et ainsi désaisonnaliser les ventes
f. Lors du calcul des prévisions des ventes trimestrielles (ou mensuelles)

2- Détermination des coefficients saisonniers : méthode des moyennes


➢ 1ère étape : calcul du Chiffre d’Affaires (ou vente) moyen par trimestre
➢ 2e étape : calcul de la moyenne générale de tous les trimestres
➢ 3e étape : calcul des coefficients saisonniers
Moyenne du 1er trimestre
Coefficient du 1 trimestre =
er

Moyenne des moyennes

➢ 4e étape : prévision des ventes trimestrielles N+1


Les coefficients déterminés peuvent alors être utilisés pour des prévisions des ventes afin
d’appliquer la saisonnalité. Pour obtenir le chiffre d’affaires d’un trimestre par exemple, il suffira
de faire :

CA annuel
 coefficient saisonnier du trimestre
4 (trimestres)
Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 65
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

➢ 5e étape : analyse
Si l’entreprise ne connaissait pas de ventes saisonnières mais régulières, le coefficient de chaque mois
serait égal à 1 et le total serait égal à 4.
Si le coefficient saisonnier est >1, l’activité du trimestre ou du mois est considérée comme supérieure
à la moyenne. Il s’agira des moments de l’année où l’entreprise vendra le plus : c’est la haute saison.
Si le coefficient saisonnier est < 1, le CA du trimestre ou du mois est inférieur à la moyenne. Il s’agira
des moments de l’année où l’entreprise vendra le moins : c’est la basse saison.
Plus les coefficients seront éloignés de 1 et plus l’activité de l’entreprise sera saisonnière.

IV – PREVISIONS

Pour effectuer des prévisions, il faut pouvoir déterminer une droite de tendance. De ce fait il faut
donc une série dont le coefficient de corrélation vérifie la propriété suivante − 1  r  1 . Enfin si
nécessaire, il faut saisonnaliser la prévision. Suivant la série chronologique initiale, les méthodes
employées pour effectuer des prévisions sont différentes.

Cas où la série a des variations saisonnières et une tendance linéaire


A partir de la série initiale, on détermine la droite de tendance soit par la méthode de Mayer, soit par
la méthode des moindres carrés (plus précise). On utilise l’équation de la droite pour les prévisions.
Ensuite on détermine les coefficients saisonniers par rapport au Trend. Enfin on applique les
variations saisonnières aux prévisions en multipliant la prévision par le coefficient saisonnier
correspondant.
Exemple : Faire la prévision des exportations (en milliers) de matériels HI-FI pour le 1er semestre
1990 à l’aide du tableau ci-dessous
1985 1986 1987 1988
1er Trim. 20 60 70 120
2e 30 90 80 130
3e 30 100 80 140
4e 40 110 90 140

Résolution

Période Matériels y
Année Trim. y xy x2 y2 y ' i = 7,5xi + 19,3 ri =
x y 'i
1 1 20 20 1 400 26,8 0,747
1985 2 2 30 60 4 900 34,3 0,875
3 3 30 90 9 900 41,8 0,718
4 4 40 160 16 1600 49,3 0,811
1 5 60 300 25 3600 56,8 1,056
2 6 90 540 36 8100 64,3 1,399
1986 3 7 100 700 49 10000 71,9 1,392
4 8 110 880 64 12100 79,4 1,386
1 9 70 630 81 4900 86,9 0,806

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 66


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

1987 2 10 80 800 100 6400 94,4 0,847


3 11 80 880 121 6400 101,9 0,785
4 12 90 1080 144 8100 109,4 0,822
1 13 120 1560 169 14400 116,9 1,026
1988 2 14 130 1820 196 16900 124,5 1,045
3 15 140 2100 225 19600 132 1,061
4 16 140 2240 256 19600 139,5 1,004

TOTAL 136 1330 13860 1496 133900


xy − x • y
rxy = = 0,907 a = 7,51. b = 19,3 yˆ i = 7,5xi + 19,3
 x • y
Prévision pour le 1er semestre 1990
1er Trimestre 1990 x = 21 yˆ i = 7,5  21 + 19,3 = 177,06
2e Trimestre 1990 x = 22 yˆ i = 7,5  22 + 19,3 = 184,57

1985 1986 1987 1988 Coefficient Saisonnier Coefficient modifié


1er Trim. 0,75 1,06 0,81 1,03 0,909 0,921
2e 0,88 1,4 0,85 1,04 1,042 1,056
3 e 0,72 1,39 0,78 1,06 0,989 1,003
4e 0,81 1,39 0,82 1,00 1,006 1,020
3,945 4,000
Application des variations saisonnières
Le coefficient saisonnier du 1er trimestre est 0,921 ; celui du 2e trimestre est de 1,056 donc si la
tendance se maintient, 177,06  0,921 = 156,109 soit 156109 matériels HIFI seront exportés au 1er

trimestre 1990 et 184,57  1,056 = 177,072 soit 177072 matériels.

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 67


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

EXERCICES D’APPLICATIONS

Exercice 1 : On a relevé, ci-dessous, le nombre de photocopies tirées, en une journée dans un


bureau d’expertise comptable.
90 65 79 78 77 71 81 90 77 82 51 58 80 82 81 92 81 82 77
80 58 51 82 77 96 77 71 97 61 62 76 70 68 83 73 87 69 74
53 67 66 70 67 75 74 78 81 78 77 75 89 77 72 86 74 84 75
77 87 80 72 82 96 76 72 89 57 48 86 74 80 102 82 56 62
1- Dresser le tableau T1 des effectifs en ordonnant selon les valeurs croissantes du caractère.
2- On procède maintenant au groupement des données en classe :
a. Dresser le tableau T2 faisant apparaître les effectifs, les fréquences, le cumul croissant de ces
dernières, les classes ayant un intervalle constant d’amplitude 5.
b. Dresser le tableau T3 des effectifs, les classes ayant un intervalle constant d’amplitude 10.
c. Dresser le tableau T4 des effectifs, les classes ayant un intervalle constant d’amplitude 20.
3- Représenter par un histogramme T3.
NB : Arrondir à 2 chiffres après la virgule.
Echelle : Axe des abscisses : 1 cm → 5 (à partir de la borne gauche de la première classe)
Axe des ordonnées : 2 cm → 5

Exercice 2 : - La distribution du personnel d’une entreprise en fonction des niveaux d’indices de


rémunération est présentée dans le tableau ci-contre :
1- Représenter graphiquement la distribution de cette série en effectifs ?
2- Tracer sur le même repère les diagrammes cumulés croissant et décroissant en fréquences.
Echelle : Axe des abscisses : 2 cm → 100 Axe des ordonnées : 2 cm → 5

Niveaux d’indices 200 250 300 350 400 450 500 550

Effectifs 15 27 32 12 7 4 2 1

Exercice 3 :
L’analyse de la situation des rayons d’un supermarché est représentée par le tableau ci-contre :
Représenter :
1 - par un diagramme circulaire.
2 - par un diagramme à bandes
Rayons Surface en m²

Epicerie 360
Liquides 265
Produits frais 250
Non alimentaires 125
68

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Exercice 4 : Lors du dernier Certificat Préparatoire aux Etudes Comptables et Financières, les
membres du jury décidèrent de prendre un échantillon de 30 copies anonymes parmi celles des
candidats aux épreuves :
- n°1
- n°2
- n°3
Les résultats de cet échantillonnage furent les suivantes :
Classe des notes Nombre de candidats (Effectif)
obtenues sur 20 Epreuve n°1 Epreuve n°2 Epreuve n°3
3-5 - 3 -
5-7 9 4 2
7-9 11 3 7
9 -11 3 9 8
11-13 2 4 2
13-15 3 5 9
15-17 2 2 2

a) Déterminer, pour chaque épreuve : le mode, la médiane, la moyenne arithmétique des différentes
notes de l’échantillon
b) Déterminer, pour chaque épreuve : l’étendue, les deux quartiles et l’intervalle interquartile ; l’écart
type de la distribution.

Exercice 5 :
Une étude réalisée dans un village-vacances a permis d’obtenir la distribution suivante de l’âge des
adultes séjournant au cours du mois d’août :
Classes 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70
Effectifs 27 38 21 10 4
a- Calculer la moyenne arithmétique
b- Calculer l’écart-type
c- Déterminer le coefficient de variation

Exercice 6 : Le directeur d’une société a décidé de réviser à la hausse le taux horaire ses heures
supplémentaires. Afin de connaître l’impact de cette mesure, il veut d’abord connaître la médiane et
la moyenne. Le tableau suivant a été obtenu :
Série 1 2 3 4 5 6
Effectif 2 3 8 5 7 10
Déterminer le mode, la médiane et la moyenne de cette série.
69

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Exercice 7 : Prime de fin d’année des employés d’une entreprise :


Prime en FCFA ] 1500-1600] ] 1600-1800] ] 1800-2000] ] 2000-2500] ] 2500-3000]
Nombre d’employés 15 10 25 25 10
1- Représenter graphiquement cette distribution
2- Déterminer le mode, la médiane et la moyenne arithmétique de cette distribution
3- Combien d’employés ont une prime inférieure à 1940 ?
4- a) Quelle somme minimum ont reçu 25% des employés ?
b) Quelle somme maximum ont reçu 25% des employés ?
c) En déduire le pourcentage d’employés ayant reçu une prime comprise entre 1725 et 2275.
5- Déterminer le coefficient de variation de cette distribution.

Exercice 8 : Dans la ville, à la même heure et dans les mêmes conditions, on a mesuré la
température pendant trois semaines, les observations recueillies jour après jour étant les suivantes
(en degrés Celsius) :
11° ; 10° ; 10° 12° 10° 13° 12° 10° 12° 14° 16° 15° 16° 14° 12° 10° 14° 16° 14° 16° 16°.
1 - Déterminer la température moyenne et la température médiane.
2 – Déterminer le mode et les quartiles
3 – Déterminer l’étendue, l’intervalle interquartile, l’écart absolu moyen par rapport à la moyenne
arithmétique et l’écart-type ;
4 – Déterminer le coefficient de variation.

Exercice 9 : Question de cours


Quelle différence mettez-vous entre :
- Les statistiques et la statistique ?
- le sondage et le recensement ?

Exercice 10 :
Un organisme d’enquête et de sondage a réalisé une enquête, pour le compte d’un syndicat de
Personnel, sur le nombre de salariés de 40 entreprises industrielles de la région ouest africaine. Le
dépouillement des questionnaires a donné les résultats suivants :

32 58 59 52 53 43 37 39 86 40

51 30 52 50 51 36 79 63 64 48

82 53 24 59 20 44 45 45 41 75

90 61 55 22 56 47 76 62 66 100

a. Définir la population, l’unité statistique, le caractère et les modalités de cette distribution.

70

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

b. A partir des données de l’enquête, établir la distribution des entreprises selon le nombre de
salariés dans un tableau de 5 classes.
c. Tracer le diagramme différentiel de cette distribution et commenter
d. Définir la fonction de répartition et tracer les courbes cumulatives

Exercice 11 :
Un sondage a été effectué sur 100 personnes à la sortie d’une grande surface sur le choix du café. Il
fallait répondre à la question :
« Quel type de café prenez-vous ? 100% Arabica (code A), 100% Robusta (code R), 50% Arabica et
50% Robusta (code C) ».
Les réponses obtenues ont été les suivantes :
R A A A R R R C R R C A R C R A A A C C
R R C C C R R A A C A R C A C R A C R R
C C A R R A A C R A C R R C C A A R C A
C R R C A A C C R A R R R C A A A C C C
R A R A C A R C C C A A R R R C R A C A

a. Définir la population, le caractère, les modalités et le type de caractère (variable)


b. Dresser le tableau de cette distribution
c. Représenter cette distribution par un diagramme circulaire et commenter.
Exercice 12
Une enquête réalisée par la Chambre de Commerce, d’Industrie et d’Agriculture sur 20 entreprises
a donné les résultats suivants :
Répartition des entreprises selon le nombre d’ouvriers.
Classe 0-2 2-4 4-6 6-8 8-10
Effectifs n1 5 6 n4 2

Déterminer la proportion des entreprises employant moins de 2 ouvriers et la proportion des


entreprises utilisant entre 6 et 8 ouvriers sachant que la moyenne arithmétique de la distribution est
égale à 4,7.

Exercice 13
Les primes de fin d’année des employés d’une entreprise sont consignées dans le tableau suivant :
Prime en FCFA ] 1500-1600] ] 1600-1800] ] 1800-2000] ] 2000-2500] ] 2500-3000]
Nombre d’employés 10 20 25 25 20
a) Déterminer graphiquement et par calcul la médiane de cette distribution et conclure
b) Déterminer le mode et la moyenne arithmétique de cette distribution.
71

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

c) Quelle est la forme de la courbe ?


d) Combien d’employés ont une prime inférieure ou égale à 1960 ?
e) Calculer et interpréter la médiale
f) Tracer la courbe de Lorenzo Gini, calculer et interpréter son indice
Exercice 14
Nombre de tués dans un accident de la route en 2002.
0 - 14 ans 246 15 - 24 ans 1855 25 - 44 ans 2435
45 - 64 ans 1356 65 ans et plus 1265

1) Donner la distribution en fréquence.


2) Quelle est la modalité de plus grand effectif ?
3) Dans quelle tranche d’âge se situe une personne de 24 ans et demi ? Comment aurait-il fallu
représenter les modalités pour éviter les ambiguïtés ?
On suppose que le nombre de personnes tuées de plus de 84 ans est suffisamment faible pour être
négligé.
4) Tracer l’histogramme des distributions et discuter le résultat obtenu.
5) Tracer la courbe de la fonction de distribution cumulée.
6) Déterminer graphiquement et par le calcul la médiane.
7) Calculer la moyenne et l’écart type.
8) Donner l’allure des courbes par autres méthodes

Exercice 15 : Le tableau suivant donne la distance de freinage d’un véhicule roulant sur route
sèche en fonction de sa vitesse.
vitesse en km/h 40 50 60 70 80 90 100 110
distance en m 8 14 18 24 32 40 48 58
a) Représenter cette série statistique par un nuage de points. Calculer la vitesse moyenne et la
distance moyenne.
b) En utilisant la méthode des moindres carrées, déterminer l’équation de la droite représentant la
distance en fonction de la vitesse.
c) Estimer, à l’aide de cette équation, la distance de freinage d’un véhicule roulant à 120km/h ?

Exercice 16 : Une population statistique se présente comme suit :


Valeur de la variable [0; 4[ [4;10[ [10; 20[ [20; 40[
Effectifs 4 20 14 2
a) Calculer la moyenne et la variance.

72

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

b) Chacune des classes de la distribution précédente est divisée en deux classes de même amplitude,
auxquelles on fait correspondre un effectif moitié de l’effectif initial de la classe qui a été divisée.
Faire un nouveau tableau. Comment sont modifiées la moyenne et la variance ?

Exercice 17
Le montant global en milliards de francs des exportations et la part de la construction automobile
dans le commerce extérieur français pour les années 1970 à 1979 étaient les suivants :
Années 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979

Commerce global xi 25 30 33 40 55 56 67 78 86 105


X
i

Construction automobile yi 6 7 8 9 11 14 18 21 24 28

1- Représenter le nuage de points. On prendra en abscisses 1 cm pour 10 milliards de francs, l’origine


sur cet axe est le point d’abscisse 20 milliards ; et en ordonnées 1 cm pour 2 milliards de francs,
l’origine sur cet axe est le point d’ordonnée 2 milliards.
−2
2- Calculer le coefficient de corrélation linéaire (valeur approchée à 10 près). Conclure.
3- Déterminer une équation de la droite de régression ( D1 ) de y en x et une équation de la droite de
−2
régression ( D2 ) de x en y (les coefficients numériques seront arrondis à 10 près).
4- Déterminer les coordonnées de deux points de chacune des droites ( D1 ) et ( D2 ), puis tracer ( D1 )
et ( D2 ) sur le graphique de la question 1°. Quelle remarque peut-on faire ? Pouvait-on s’en douter ?
(Justifier).

Exercice 18
On a procédé à l’ajustement affine d’un nuage de points (X, Y). Les équations obtenues sont les
suivantes : Droite d’ajustement de y en x , D : y = x + 30

Droite d’ajustement de x en y , D : x = 1 4 y + 60
1. Calculer le coefficient de corrélation linéaire.
2. Calculer la covariance entre x et y et l’écart type de x , sachant que la variance de y est égale à 36.
3. Calculer coefficient de variation de x .

Exercice 19
Réactualisant régulièrement les remboursements de frais de déplacement de ses collaborateurs, le
directeur s’intéresse à l’évolution des prix de différents carburants qui sont les suivants (prix TTC) :
Super plombé Super sans plomb Gazole
Avril 1991 5,31 5,08 3,45
Mai 1991 5,35 5,13 3,47
Juin 1991 5,38 5,16 3,49

73

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

Calculer et interpréter les indices simples relatifs à chaque carburant en Juin 91 :


a) base 100 en avril 91
b) base 100 en mai 91.

Exercice 20
Soit six espèces de poissons dont nous avons relevé le prix et les quantités vendues par le même
poissonnier entre le 1er septembre 1991 et le 1er septembre 1992.

01/09/1991 01/09/1992
Prix Quantité Prix Quantité
Baudroie (lotte) 136,40 2,60 130,70 2,70
Cabillaud 77,55 28,60 79,10 18,30
Lieu noir 45,20 35,40 41,80 44,20

Maquereau 19,15 16,80 21,30 21,10


Merlan 31,55 23,20 32,90 25,30
Sardine 16,90 22,30 19,20 21,70

1) Calculer l’indice I de Laspeyres (base 100 :1991) correspondant aux prix, aux quantités, aux valeurs
globales
2) Calculer l’indice I de Paasche (base 100 :1991) correspondant aux prix, aux quantités, aux valeurs
globales
3) Vérifier, avec les valeurs obtenues, que :
Indice de Laspeyres prix multiplié (X) par Indice de Paasche quantités = Indice de Laspeyres
quantités multiplié (X) par Indice de Paasche prix = Indice valeurs globales.

Exercice 21
Pour une grande mutuelle ivoirienne, le taux de souscription d’un contrat d’assurance depuis l'année
1999, est donné dans le tableau suivant :

Année Rang de l’année Taux de


xi souscription yi (%)
1999 1 76,95
2000 2 77,38
2001 3 78,18
2002 4 79,31
2003 5 80,00

74

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com


Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures

1) Représenter cette série chronologique.


2) On estime qu'une courbe voisine de la représentation graphique de la série chronologique est une
droite D d'équation : y = 0,8 x + 76 . Tracer cette droite dans le repère précédent.
3) On suppose que la tendance ne change pas.
a) Donner une estimation du taux de souscription pour l'année 2005.
(On utilisera l'équation de D.)
b) À partir de quelle année peut-on prévoir un taux de souscription supérieur à 85 % ?

Exercice 22 : Le tableau ci-dessous donne l'évolution du chiffre d'affaires (en milliards d’euros)
d’un secteur de production des années 1995 à 2001.
Années 1995 1996 1997 1998 1999 2000 2001
Rang de l'année 1 2 3 4 5 6 7
Chiffre d'affaires 69 72 75 81,7 88,6 91,6 93,5

l) Représenter cette série chronologique.


2) En prenant pour année de référence 1995, déterminer les indices des chiffres d'affaires de 1996 à
2001.
3) On suppose que l'évolution du chiffre d'affaires se poursuit linéairement cette évolution est
donnée par la droite d'équation : y = 4,5 x + 63,62 où x est le rang de l'année et y le chiffre d'affaires
en milliards.
a) Tracer cette droite.
b) Donner une estimation du chiffre d'affaires en l'an 2010. Quel serait alors l'indice correspondant
en prenant 1995 pour année de base ?

75

Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com

Vous aimerez peut-être aussi