Vous êtes sur la page 1sur 177

UE FONDAMENTALES

SOUS-UE MCV112.TECHNIQUES QUANTITATIVES


DE GESTION

EC MCV1122.

STATISTIQUES

NIVEAU 1
CLASSE: BTS MARKETING-COMMERCE-VENTE (MCV)
SEMESTRE 1
VOLUME HORAIRE: 30 heures

EQUIPE PEDAGOGIQUE:

NJOCKE (CC) CM 18 h ; TD 00 h
TAKUNCHI (VAC) CM 00 h ; TD 06 h ; TPE 06 h)

Martin NJOCKE, Docteur en Economie Page 1


SOMMAIRE

Martin NJOCKE, Docteur en Economie Page 2


OBJECTIFS GENERAUX

OBJECTIFS SPECIFIQUES

Martin NJOCKE, Docteur en Economie Page 3


FICHE DE PROGRESSION
PROCESSUS GÉNÉRAL DU DÉROULEMENT DE CHAQUE COURS

1- Présentation de l’objet du cours :


2- Rappels du cours précédent :
3- Question sur la qualité du cours :
4- Libellé du nouveau cours
5- Proposer :
a. D’exercices à faire à la maison (exposés ; …) ;
b. Un exercice durant le CM pour mieux illustrer le cours ?

SEQUENCES THEMES DEVELOPPES DUREE

1. 4 h 00

2. 4 h 00

3. 4 h 00

4. 8 h 00

TOTAL 24 h 00

Martin NJOCKE, Docteur en Economie Page 4


SOURCES DOCUMENTAIRES

Martin NJOCKE, Docteur en Economie Page 5


CONTENU DU COURS

INTRODUCTION
Cette introduction est organisée en deux parties qui sont les suivantes :

- Statistique et Economie ;
- Objet de l’analyse statistique.

I) Statistique et Economie

La statistique est une activité qui consiste à recueillir des données relatives à tel ou tel
phénomène, à les présenter, à les exploiter par un traitement adapté et enfin à interpréter les
résultats obtenus ; tout cela dans le but de prendre des décisions les plus rationnelles et les
plus économiques, d’éclairer les actions humaines et de faire progresser la connaissance des
phénomènes étudiés. Il faut distinguer :

*Les statistiques : ce sont les données quantitatives recueillies par un chercheur, un


technicien de laboratoire, un gérant d’usine, un banquier, un assureur, ou par les organismes
spécialisés : ONU, OCDE, OMS, FAO, etc. Les statistiques existent depuis fort longtemps :
Juifs et Romains procédaient à des recensements 2000 ans avant J.C.

*La statistique : c’est une branche de la mathématique, au même titre que l’Algèbre, la
Géométrie, etc. Elle se divise en deux :

- La Statistique descriptive : elle aide à résumer l’information contenue dans une série
d’observations, en élaborant des tableaux récapitulatifs, en construisant des graphiques
convenables et en calculant des caractéristiques significatives ;
- La Statistique mathématique : elle aide à la prise de décisions relatives à des
paramètres inconnus en se basant sur le calcul des probabilités.

Notre époque se caractérise en effet par les progrès de l’information. Les statistiques se
multiplient dans tous les domaines et forment des bases d’analyses quantitatives complexes,
rendues possibles par le développement des calculateurs électroniques. La statistique apparaît
à la fois comme une technique au service des sciences et plus généralement des activités

Martin NJOCKE, Docteur en Economie Page 6


humaines, et comme une science d’observation, de synthèse et d’interprétation des grandeurs
et des mécanismes observés.

Dans le domaine économique, la statistique revêt une importance considérable. Même lorsque
les méthodes statistiques ne sont pas conçues à des fins expressément économiques « elles
font partie des outils de l’analyse économique » (Schumpeter).

Les statistiques et la statistique sont devenues indispensables à la politique économique des


pouvoirs publics comme des entreprises : « le statisticien n’observe et ne décrit que pour
expliquer et pour prévoir et il ne prévoit que pour éclairer l’action. Et dans cette chaîne
d’analyses, et dans cette construction, les divers éléments se commandent les uns les autres.
C’est lorsque l’homme d’action exprime ses revendications qu’il permet au statisticien, placé
devant l’ensemble infiniment complexe des faits, de choisir ce qu’il faut observer et de choisir
ses méthodes d’investigation » (C. Gruson).

On voit ainsi que partout où l’on recueille des données, l’analyse scientifique de ces données
fait appel à la statistique, qui s’applique par conséquent à tous les domaines d’investigation
quantitative : études économiques, sociologiques, agronomiques, industrielles, gestion,
marketing, le monde des affaires, etc.

Son champ d’application en Médecine et en biologie est assez vaste. Dans ce cas, on utilise le
terme de bio-statistique.

II) Objet de l’analyse statistique

L’analyse statistique a deux buts :

*Fournir au moyen d’un nombre limité de caractéristiques, une description simple et aussi
complète que possible d’un ensemble (ou population) d’unités (ou éléments) envisagées sous
l’angle d’un caractère donné.

Ainsi, l’on peut se proposer d’étudier les salariés camerounais (ensemble) en fonction du
salaire qui leur est versé (caractère).

Il est évident – mais l’on ne saurait trop insister sur ce point – qu’une telle étude n’aura un
sens précis que si l’on a pris soin, de définir sans ambiguïté :

- L’unité statistique, c'est-à-dire ce que l’on entend par salarié : faut-il y comprendre les
fonctionnaires, les agents rémunérés au pourcentage… ?

Martin NJOCKE, Docteur en Economie Page 7


- Le caractère étudié, c'est-à-dire ce que l’on entend par salaire : s’agit-il du salaire brut
ou net, y compris ou non les avantages en nature, du salaire horaire, mensuel… ?

Exemples

i. On veut étudier le nombre d’enfants par famille dans la ville de Douala. Nous
devons recueillir des données relatives au nombre d’enfants de familles
concernées. La population est l’ensemble des familles de la ville de Douala ;
un individu dans chaque famille est une unité statistique.
ii. On veut étudier le dosage d’un produit dans le sang des malades suivant le
même traitement. La population est l’ensemble des malades et chaque malade
est un individu ou une unité statistique.
iii. Un médecin veut étudier l’habitude de fumer du tabac des femmes enceintes
qu’il suit dans sa clinique. La population est l’ensemble des femmes enceintes
suivies, chacune d’elles est un individu ou une unité statistique.

*Interpréter les caractéristiques ainsi déterminées en vue d’en tirer les conclusions quant à
l’ensemble étudié.

Il peut s’agir, par exemple :

- D’induire des propriétés d’une collectivité limitée d’unités (ou échantillon), celles de
l’ensemble dont ces unités ont été extraites (problèmes d’échantillonnage) ;
- De rechercher la liaison existant entre deux ou plusieurs séries de données (problèmes
de corrélation).

Ainsi, le statisticien, placé devant les données complexes –et souvent médiocre – fournies par
l’observation des phénomènes, s’attache, en premier lieu, à les schématiser, ce qui implique,
de prime abord, des options délicates, et qui ne peuvent être arbitraires ; il cherche ensuite à
expliquer ces phénomènes –ou, plus exactement à tester des hypothèses explicatives – en
dégageant les relations entre les diverses variables.

L’analyse statistique n’est pas une fin en soi : qu’il s’agisse de schématiser ou d’expliquer,
elle doit toujours œuvrer dans le sens défini par une autre science (biologie, psychologie,
économie, etc.) ; mais dans ce rôle, elle est aussi indispensable pour les examens de
laboratoire en médecine.

Martin NJOCKE, Docteur en Economie Page 8


CHAPITRE 1 : CONCEPTS DE BASE
Un caractère ou variable statistique est ce que l’on cherche à observer, ou à mesurer sur
chaque individu de la population ou de l’échantillon. La population peut être étudiée selon un
ou plusieurs caractères qui représentent les particularités susceptibles d’être mises en
évidence.Un caractère sera désigné par l’une des lettres majuscules X, Y, Z, etc.

Exemple 1

i. X : « nombre d’enfants »
ii. Y : « quantité de produit dans le sang »
iii. Z : « habitude face au tabac ».

Les états tabulés les plus simples à un ou deux caractères, sont présentés dans ce chapitre de
façon plus développée, après avoir introduit une notation commode, les symboles Σ et Π .

I. Notations

I.1. L’opérateur Σ (sigma)

La statistique recourt à un symbole pour désigner l’opération « somme » : l’opérateur


sigma, noté Σ .

x
Si un caractère quantitatif prend les valeurs x 1 , x 2 , 3 , au lieu d’écrire la somme sous la

forme
x 1 + x 2 + x 3 , on écrit :

3
∑ xi x i , i variant de 1 à 3 ».
i=1 qui se lit « somme de

Plus généralement, si le caractère présente r valeurs, on a :

r
∑ x i =x 1+ x 2 +. ..+ x r
i=1

- Propriétés de l’opérateur : Le symbole Σ n’est qu’une façon de noter l’addition, c’est


donc un opérateur linéaire.

Martin NJOCKE, Docteur en Economie Page 9


*Si
∀ i , xi =ay i où a est une constante,alors :

x 1 + x 2 +. ..+ x r =ay 1 + ay 2 + .. .+ay r =a( y 1 + y 2 + .. .+ y r )

( )
r r r
∑ x i =∑ ( ay i )=a ∑ yi
i=1 i=1 i =1

Tous les
y i étant multipliés par a , a se met en facteur.

*Si tous les termes de la somme sont des sommes de deux, trois, …, termes, la somme est
elle-même la somme de deux, trois,…, termes.

Exemple 2

∀ i , xi = y i + z i + wi

r
∑ x i =( x 1 + x 2 +. . .+ xr )=( y 1 + z1 +w 1 + y 2 + z 2 + w2 + .. .+ y r + z r + wr )
i=1
=( y 1 + y 2 + .. . y r )+( z 1 + z 2 +. . .+ z r )+( w 1 +w 2 +. ..+ wr )

r r r r r
∑ x i =∑ ( y i + z i + wi )= ∑ y i + ∑ z i +∑ wi
i=1 i=1 i=1 i=1 i=1

*Ces deux propriétés se combinent évidemment :

r r r r
∑ (ax i +by i + czi +.. .)=a ∑ x i +b ∑ y i + c ∑ z i +. ..
i=1 i=1 i=1 i=1

Où a , b , c , sont des constantes.

- Applications

r r
∑ ( x i +a )=( x 1 + a)+( x 2+a )+.. .+( x r +a )=ra + ∑ x i
i=1 i=1

r r
∑ ( x i +a )=ra+ ∑ x i
i=1 i=1

Donc
Martin NJOCKE, Docteur en Economie Page 10
r r r r r
∑ ( x i +a ) = ∑ 2
(x 2i +2 ax i +a2 )= ∑ x 2i + ∑ 2 ax i + ∑ a2
i=1 i=1 i=1 i=1 i=1

r r r
∑ ( x i +a ) =∑ 2
x2i +2 a ∑ xi + ra 2
i=1 i=1 i=1

Donc

r r r r
∑ ( x i + y i ) =∑ 2
x 2i +2 ∑ x i y i + ∑ y 2i
* i=1 i =1 i =1 i=1

I.2. L’opérateur ∏ ¿¿(pi)

Le symbole∏ ¿¿représente les produits comme ∑ ¿¿représente les sommes. Ainsi x1 . x2 . x3

s’écrit :

3
∏ xi xi i
i=1 et se lit « pi de ( allant de 1 à 3) ».

r
∏ xi =x 1 . x 2 . .. x r
Et plus généralement i=1

- Propriétés

r
∀ i , xi =x : ∏ x i=x r
Si i=1
*

∀ i , xi =ay i
*Si

r
∏ xi =x 1 . x 2 . .. x r =ay 1 . ay 2 . .. ay r =ar y 1 . y 2 . .. y r
i=1

Martin NJOCKE, Docteur en Economie Page 11


r r
∏ ay i=a ∏ y i
r

Donc i=1 i=1

Martin NJOCKE, Docteur en Economie Page 12


-
Calcul

r
∏ xi
i=1
Le calcul du produit s’effectue commodément en passant aux logarithmes. En

effet :

r r
log ∏ x i=∑ log xi
i=1 i=1
puisque le logarithme d’un produit est la somme des logarithmes.

II. Paramètres caractéristiques d’une distribution de fréquences

Une distribution de fréquences présente la totalité de l’information contenue dans la série

numérique étudiée. Mais pour peu que cette série soit importante, le tableau de chiffres de

la distribution de fréquences devient peu maniable. Sa lecture ne permet pas de se faire

rapidement une idée générale de la distribution.

On a donc cherché à en présenter les caractéristiques essentielles sous une forme plus

concise, à l’aide d’un certain nombre de valeurs typiques, dites paramètres

caractéristiques.

II.1.Moyenne simple

La moyenne d’une distribution de fréquences est la moyenne arithmétique, c’est-à-dire la

somme rapportée à leur nombre n des valeurs de la distribution :

− x 1 + x 2 +. ..+ x n Somme des x i


x= =
n n

Ce qui s’écrit :

Martin NJOCKE, Docteur en Economie Page 13



x=
∑ xi
n

Par exemple, si l’on a effectué une série de cinq mesures qui ont donné les résultats

suivants : 1,5 1,8 2,1 3,3 4,8

La moyenne sera égale à :

1 ,5+1 , 8+2 , 1+3 ,3+4 , 8 13 , 5


x= = =2 ,7
5 5

II.2.Moyenne pondérée

La formule de la moyenne pondérée est :

− F 1 x1 + F 2 x 2 +. . .+ F n x n F1 F2 Fn
x= = . x 1+ . x 2 + .. .+ . xn
n n n n

Les coefficients de pondération ou encore « poids » de chaque caractère sont :


F1 F2 F
, ,. .. , n .
n n n

Ces coefficients ne sont autre chose que les fréquences relatives de chaque valeur :
f 1 , f 2 , . .. , f n


x =f 1 . x1 +f 2 x 2 + .. . f n x n =∑ f i xi
On a donc :

II.3.Limites de la moyenne pour caractériser une distribution de fréquences

Exemple 2

Martin NJOCKE, Docteur en Economie Page 14


Considérons deux sujets A et B dont les glycémies sont respectivement égales à 0,95 et

1,05g/l. La glycémie moyenne est égale à 1g/l.

Considérons maintenant deux sujets A’ et B’ dont les glycémies sont respectivement égales à

0,50 et 1,50 g/l.

La moyenne est encore égale à 1g/l. Et pourtant, la situation est tout à fait différente : dans le

premier cas, les deux valeurs individuelles très voisines de leur moyenne, étaient normales.

Dans le deuxième cas, les deux valeurs individuelles très éloignées de leur moyenne,

représentent des taux franchement pathologiques.

On voit par cet exemple caricatural que la moyenne, qui indique l’ordre de grandeur de la

distribution, ne renseigne cependant en rien sur la façon dont les différentes valeurs de cette

distribution se groupent plus ou moins étroitement autour de cette moyenne.

Si l’on veut caractériser plus complètement une distribution de fréquences, il est donc

nécessaire d’associer aux indications fournies par la moyenne, un indice qui renseigne sur

cette « dispersion » des valeurs individuelles autour de la moyenne.

II.4.Variance

Martin NJOCKE, Docteur en Economie Page 15


Il s’agit donc de caractériser de façon globale l’écart plus ou moins important de l’ensemble
des valeurs à la distribution par rapport à la valeur moyenne.

− −
Si x est la moyenne, l’écart d’une valeur individuelle x à la moyenne est ( x−x ) . Pour
apprécier globalement la dispersion de la distribution, on serait tenté de faire la somme de ces
écarts pour toutes les valeurs de la distribution.

Mais de ces écarts, les uns sont positifs, les autres sont négatifs, de telle sorte que si l’on en
faisait la somme algébrique, les écarts de signe contraire se compenseraient.


2
On a donc été amené à envisager les carrés des écarts, soit ( x−x ) , pour lesquels le signe
n’intervient pas. La somme de ces carrés, encore appelés « écarts quadratiques », pour n
n −
∑ ( x−x )2
valeurs de la distribution, qui se symbolise par 1 , donne bien une idée de la
dispersion globale des valeurs de la distribution par rapport à leur valeur moyenne. En effet,
plus les diverses valeurs sont éloignées de la moyenne, donc leurs carrés seront importants et
plus leur somme sera élevée.

Toutefois, si l’on veut pouvoir comparer entre elles des distributions comportant un nombre
différent de valeurs, il convient de rapporter cette somme au nombre de ces carrés, qui est
évidemment égal au nombre n de valeurs de la distribution.

On est ainsi amené à définir un paramètre appelé « variance » (ou encore « dispersion » ou
2
encore « fluctuation »), symbolisé parσ , qui est égal à la somme des carrés des écarts,
divisée par leur nombre:

n−
1
σ = ∑ ( x−x )2
2
n 1

La variance, on le voit, n’est pas autre chose que la moyenne arithmétique des carrés des
écarts. Elle donne donc un indice « moyen » de la dispersion globale de la distribution,
comme la moyenne donnait un indice « moyen » de l’ordre de grandeur de la distribution.

II.5. Ecart type

Martin NJOCKE, Docteur en Economie Page 16


Mais la variance est un carré. C’est ainsi que si la variable x est un poids exprimé en kg, la
variance sera exprimée en « kg au carré ».

Afin d’avoir un indice de même équation dimensionnelle que la variable, c'est-à-dire qui
puisse s’exprimer dans la même unité que cette dernière, on est amené à considérer la racine
carrée de la variance, qui est homogène avec x et qui constitue l’écart typeσ , encore appelé


σ=
∑ ( x−x )2
« écart quadratique moyen » : n

L’écart type indique bien la dispersion plus ou moins grande des mesures autour de la
moyenne : plus l’écart type est faible en effet, plus les valeurs sont « resserrées » autour de la
moyenne, et inversement bien entendu, plus l’écart type est important, plus la distribution est
étalée.

Il existe encore d’autres paramètres caractéristiques, comme le mode, qui correspond à la


valeur dont la fréquence est la plus élevée. La médiane, correspondant à la valeur qui se situe
juste au milieu de l’effectif, etc.

Mais la moyenne et l’écart type sont de loin, les deux paramètres les plus importants. Ce sont
eux, en effet, qui traduisent le plus fidèlement la quantité d’information contenue dans les
données de la distribution.

D’autre part, ce sont les indices qui se prêtent le mieux aux calculs permettant de comparer
entre elles des distributions différentes.

III. Travaux pratiques

*TP 1

Une population est composée de 7 individus pour lesquels la variable x prend les valeurs
suivantes :

i 1 2 3 4 5 6 7
x i 5 7 3 12 17 0 10

Martin NJOCKE, Docteur en Economie Page 17


Calculer ou exprimer en fonction des constantes a et b , les sommes suivantes :

7 7 7 7 7
∑ xi ∑ 5 xi ∑ ax i ∑ ( x i−3 ) ∑ (ax i +b )
1) i=1 2) i=1 3) i=1 4) i=1 5) i=1

7 3 x i +1 7 7 7 7
∑ 13 ∑ x 2i ∑ 2 x 2i ∑ ax 2i ∑ ( x 2i −5 )
6) i=1 7) i=1 8) i=1 9) i=1 10) i=1

7 3 x 2i −4
7 7 7 7
∑ ax 2i +b ∑ 5 ∑ i ( x −a )2
∑ ( x i−4 )2 ∑ (ax i +b )2
i=1 12) i=1 13) i=1 14) i=1 15) i=1

11)

*Solution

Présentons les calculs dans un tableau :

(1):i ∑ ¿¿
1 2 3 4 5 6 7
( 2) : x i
5 7 3 12 17 0 10 54

(3 ): x 2i
25 49 9 144 289 0 100 616

7
∑ x i =54
1) i=1

. C’est le total de la ligne (2)

7 7
∑ 5 x i =5 ∑ x i= 5 .54=270
2) i=1 i=1

(le nombre 5 se met en facteur)

7 7
∑ ax i= a ∑ x i= 54 a
3) i=1 i=1

(le nombre a se met en facteur).

Martin NJOCKE, Docteur en Economie Page 18


7 7 7
∑ ( x i−3 )=∑ x i−∑ 3=54−(7. 3 )=33
4) i=1 i=1 i=1

7 7 7
∑ (ax i +b )=a ∑ xi +∑ b=54 a+7 b
5) i=1 i=1 i=1

( )
7
3 x i +1 1 7 1
7 7
1
∑ 13 =13 ∑ (3 x i +1)=13 3 ∑ x i +∑ 1 =13 [ ( 3 . 54 ) +7 ]=13
6) i=1 i=1 i=1 i=1

7
∑ x 2i =616
7) i=1

. C’est le total de la ligne (3).

7 7
∑ 2 x 2i =2 ∑ x 2i = 2. 616=1232
8) i=1 i=1

(le nombre 2 se met en facteur).

7 7
∑ ax 2i =a ∑ x 2i = 616 a
9) i=1 i=1

(la constante a se met en facteur).

7 7 7
∑ ( x 2i −5 )=∑ x 2i −∑ 5=616−(7 .5 )=581
10) i=1 i=1 i=1

7 7
∑ ax 2i +b=a ∑ x 2i +b=616 a+ b .
11) i=1 i=1 Attention : le signe ∑ ¿¿ ne s’applique pas à b. Par
contre :
7 7 7
∑ (ax 2i +b )=a ∑ x2i + ∑ b=616 a+7 b
i=1 i=1 i=1

3 x 2i −4 1 7
( )
7 7 7
1 1
∑ 5 5∑ i = (3 x 2
−4 )= 3 ∑
5 i=1
x i ∑ 4 = [ ( 3 . 616 )−(7 . 4 ) ] =364
2

5
12) i=1 i=1 i=1

7 7 7 7 7
∑ ( x i−a )2=∑ ( x 2i −2 ax i +a2 )=∑ xi2−2 a ∑ x i + ∑ a 2=616−108 a+7 a2
13) i=1 i=1 i=1 i=1 i=1

7 7 7 7 7
∑ ( x i−4 ) =∑ 2
( x 2i −8 x i +16 )= ∑ x 2i −8 ∑ x i + ∑ 16=616−(8 .54 )+(7. 16 )=296
14) i=1 i=1 i=1 i=1 i=1

Martin NJOCKE, Docteur en Economie Page 19


15)
7 7 7 7 7
∑ (ax i +b ) =∑ ( a
2 2
x 2i +2 abx i +b 2 )=a2 ∑ x 2i + 2ab ∑ x i + ∑ b 2=616 a2+ 108 ab+7 b 2
i=1 i=1 i=1 i=1 i =1

*TP 2

1. Créer une série statistique de 10 valeurs pour une variable « note sur 20 à l’examen de

mathématique » et présentez-la sous la forme de tableau de données :

Martin NJOCKE, Docteur en Economie Page 20


i 1 2 3 4 5 6 7 8 9 10
x i x 1=13 x 2 =14 x 3 =14 x 4 =12 x 5 =16 x 6 =18 x 7 =12 x 8 =12 x 9 =17 x 10=18

Transformez cette série statistique en une distribution statistique simple non groupée avec
2.
les fréquences absolues et relatives et présentez l’ensemble sous la forme d’un tableau de
données :

j x j : notes n j : fréquences f j : fréquences


/20 absolues relatives
1 12 3 0,3
2 13 1 0,1
3 14 2 0,2
4 16 1 0,1
5 17 1 0,1

6 18 2 0,2

Total 10 1

3. Transformez cette série statistique en une série statistique simple groupée (par
intervalles de 2 points : la borne inférieure vaut 11,5 et la borne supérieure vaut
19,5) avec les fréquences absolues :

j x j : notes n j : fréquences
/20 absolues
1 [11,5 ; 13,5[ 4
2 [13,5 ; 15,5[ 2
3 [15,5 ; 17,5[ 2
4 [17 ,5 ; 19,5[ 2
Total 10

Martin NJOCKE, Docteur en Economie Page 21


Martin NJOCKE, Docteur en Economie Page 22
*TP 3

Voici une série statistique de 5 notes sur 10 obtenues à l’examen d’histoire par les 5 élèves
d’une classe.

i x i : notes d’histoire /10

1 x 1=5
2 x 2 =8
3 x 3 =8
4 x 4 =6
5 x 5 =9

1. Calculez la moyenne de cette série statistique. Notez explicitement le calcul que vous
avez effectué.

*Réponse


5+8+ 8+6+ 9 36
x= = =7 ,2
5 5

On peut également faire le calcul de la manière suivante (plus proche de la formule suivante) :

1 1
( 5+8+ 8+6+ 9 )= (36 )=7 ,2
5 5

n
1
x= ∑ x i
n i=1 où :
Pour calculer la moyenne, il faut une notation bien précise :

n : e ffectif de l ' échantillon

x i : les valeurs particulières que peut prendrela variable

i : numéro de ladonnée

Martin NJOCKE, Docteur en Economie Page 23


x : moyenne del' échantillon
1. Recalculez la moyenne de la série statistique ci-dessus en utilisant cette formule

*Réponse

− 5
1 1 1 1
x= ∑
n i=1
xi = ( x 1 + x 2 + x3 + x 4 + x 5 ) = ( 5+8+8+ 6+9 ) = ( 36 )=7 ,2
5 5 5

2. Ajoutons une constante (par exemple 2) à chaque valeur de la variable. Calculez la


moyenne de la nouvelle variable « notes d’histoire + 2 ». Quel est l’effet de cette
addition sur la moyenne ?

*Réponse

i x i : Notes d’histoire /10 Notes d’histoire +2

1 x 1=5 7
2 x 2 =8 10
3 x 3 =8 10

4 x 4 =6 8
5 x 5 =9 11

La moyenne de la nouvelle variable vaut :

− 5
1 1 1 1
x = ∑ xi = ( x 1 + x 2 + x3 + x 4 + x 5 ) = ( 7+10+10+ 8+11)= ( 46 ) =9 , 2
n i=1 5 5 5

Si une constante est ajoutée (ou retranchée), à chaque score, la même constante doit est
n −
1
x±c
= ∑ (
n i=1 i
x ±c )=x ±c
ajoutée (ou retranchée) à la moyenne :

3. Multiplions par une constante (par exemple 2) chaque valeur de la variable. Calculez
la moyenne de la nouvelle variable « notes d’histoire¿ 2 ». Quel est l’effet de cette
multiplication sur la moyenne ?

Martin NJOCKE, Docteur en Economie Page 24


*Réponse

i x i : Notes d’histoire /10 Notes d’histoire¿ 2

1 x 1=5 10
2 x 2 =8 16
3 x 3 =8 16

4 x 4 =6 12
5 x 5 =9 18

La moyenne de la nouvelle variable vaut :

− 5
1 1 1 1
x = ∑ xi = ( x 1 + x 2 + x3 + x 4 + x 5 ) = ( 10+16+16+12+18 )= ( 72 )=14 , 4
n i=1 5 5 5

Si on multiplie (ou divise)chaque score par une constante, il faut multiplier (ou diviser) la
moyenne par la même constante :

n n

1 1
cx = ∑ cx i =c . ∑ x i=c x
n i=1 n i=1

n n
1 1 1 1 − −
x÷c= ∑ (
n i=1 i
x ÷c )= . ∑ x =
c n i=1 i c
. x =x ÷c

4. Nous allons maintenant voir ce qui se passe au niveau de la moyenne si on modifie


une valeur de la variable (on ajoute ou on enlève une donnée), comme par exemple
dans le tableau suivant :

i x i : Notes d’histoire /10 Notes d’histoire modifiées

1 x 1=5 8
2 x 2 =8 8
3 x 3 =8 8

4 x 4 =6 6
5 x 5 =9 9

Martin NJOCKE, Docteur en Economie Page 25


Calculez la moyenne de la nouvelle variable « notes d’histoire modifiées ». Que se passe-t-il ?

*Réponse

La moyenne de la nouvelle variable vaut :


8+ 8+8+6+ 9 39
x= = =7 , 8
5 5

Si on modifie une valeur (ou si on ajoute/enlève une valeur), la moyenne se modifie.

5. Le tableau ci-dessous reprend les valeurs correspondant aux résultats de 5 sujets à un


test d’économie générale coté sur 10 points (X) et à un test d’évaluation du stress (Y).

i X Y X2 Y2 X −Y XY

1 X 1 =3 Y 1 =9
2 X 2=8 Y 2 =3
3 X 3 =4 Y 3 =5
4 X 4 =5 Y 4 =2
5 X 5 =5 Y 5 =1
∑ ¿¿
Calculez les sommes suivantes et placez les formules et les réponses dans le tableau ci-
dessus :

*Solution

i X Y X2 Y2 X −Y XY

1 X 1 =3 Y 1 =9 9 81 -6 27

2 X 2=8 Y 2 =3 64 9 5 24

3 X 3 =4 Y 3 =5 16 25 -1 20

4 X 4 =5 Y 4 =2 25 4 3 10

5 X 5 =5 Y 5 =1 25 1 4 5

∑ ¿¿ 5 5 5 5 5 5
∑ X i=25 ∑ Y i=20 ∑ X 2i =139 ∑ Y 2i =120 ∑ ( X i −Y i )=5 ∑ X i Y i=86
i=1 i=1 i=1 i=1 i=1 i=1

Martin NJOCKE, Docteur en Economie Page 26


5 5
∑ X i=3+ 8+4 +5+5=25 ∑ Y i=9+ 3+5+2+1=20
i=1 i=1

5 5
∑ X 2i =9+64+ 16+25+25=139 ∑ ( X i )2=(25 )2=625
i=1 i=1

5 5
∑ Y 2i =81+ 9+25+ 4+1=120 ∑ ( X i −Y i )=−6+5−1+3+ 4=5
i=1 i=1
5 5 5
∑ X i−∑ Y i=25−20=5 ∑ X i Y i=27 +24+20+ 10+5=86
i=1 i=1 i=1
5 5
∑ X i . ∑ Y i =(25 )(20 )=500
i=1 i=1

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

Notez la différence entre ∑ X 2 et ( ∑ X )2 et entre ∑ X ∑ Y et ∑ XY


Notez l’équivalence entre ∑ ( X−Y ) et ∑ X−∑ Y (parce que le signe ∑ se distribue
sur l’addition et la soustraction).

Martin NJOCKE, Docteur en Economie Page 27


CHAPITRE 2 : REPRESENTATIONS GRAPHIQUES
Le graphique est un auxiliaire précieux et inséparable de la statistique descriptive. Si la
lecture d’un tableau de chiffres devient rapidement malaisée à mesure que s’accroît le nombre
de caractères et de modalités, la représentation graphique permet de synthétiser l’ensemble
des données, d’embrasser la totalité du phénomène décrit et même d’en déceler les régularités
ou les anomalies. Cependant, par le choix des échelles en particulier, elle amplifie ou réduit
les phénomènes et se prête aux erreurs de lecture et d’interprétation. Le graphique,
présentation et illustration des statistiques, est aussi un instrument de connaissance et
d’analyse des faits observés, un support de l’interprétation (correcte ou trompeuse).

I. Diagrammes élémentaires

I.1. Variable qualitative

On dit qu’un caractère est qualitatif si l’observation du caractère sur chaque individu de la
population n’est pas un nombre. Le caractère n’est pas mesurable ; les valeurs possibles du
caractère peuvent seulement être constatées.

Exemple 1

i. X : « le sexe »
ii. Y : « la situation matrimoniale »
iii. Z : « la nationalité »
iv. Q : « une couleur », etc.

On partira d’un exemple pour présenter les différentes représentations graphiques qu’on peut
associer à un caractère qualitatif.

Exemple 2

Dans une entreprise, on a observé le caractère X qui est la catégorie socioprofessionnelle. Les
résultats figurent ci-dessous :

Martin NJOCKE, Docteur en Economie Page 28


Modalités de X Effectif Fréquences
s
Cadres supérieurs 45 0,0625
Cadres moyens 135 0,1875
Employés 180 0,25
Ouvriers 360 0,5
Total 720 1

I.1.1. Le diagramme en barres

C’est un diagramme découpé horizontalement en plusieurs parties. Chaque partie représente


une modalité du caractère. La surface de chaque partie est proportionnelle à l’effectif ou à la
fréquence de la modalité.

Cadres supérieurs ………………


/////////////////////
Cadres moyens
************
Employés
************
++++++++++
++++++++++
Ouvriers
++++++++++

Diagramme en barres du caractère X

I.1.2. Le diagramme en colonnes et diagramme en barres horizontales

C’est le même principe que les histogrammes, mais les classes sont remplacées par les

modalités
M 1 , M 2 ,. . ., M k , séparées les unes des autres. Très souvent, on ordonne les
modalités suivant les fréquences croissantes ou décroissantes.

Lorsqu’on tourne les axes de 90°, le diagramme en colonnes devient le diagramme en barres
horizontales. Les deux représentations s’appellent les tuyaux d’orgue.

Martin NJOCKE, Docteur en Economie Page 29


fi

0,5
n
0,4

0,3

0,25

0,1

0,0625
Modalités
Cadres Cadres Employés Ouvriers

Supérieurs moyens

0,0625 0,1 0,25 0,3 0,4 0,5

Fréquence(
f i)

CS

CM

Modalités

Diagramme en colonnes et diagramme en barres horizontales

Martin NJOCKE, Docteur en Economie Page 30


I.1.3. Le diagramme en secteurs ou diagramme circulaire

C’est un disque découpé en plusieurs secteurs. Chaque secteur représente une modalité de la
variable X . La surface d’un secteur est proportionnelle à la fréquence de la modalité ou à
l’effectif de la modalité.

Ainsi pour une modalité de fréquence f , on prendra une valeur angulaire de 360 °×f .

Dans notre exemple, on prendra un angle de 22,5° pour les cadres supérieurs, 67,5° pour les
cadres moyens, 90° pour les employés et 180° pour les ouvriers.

C.M
E
C.S

O
Diagramme en secteurs

N.B : Il arrive qu’on utilise souvent un demi-disque à la place du disque. Dans ce cas, pour

une modalité de fréquence f , on prendra un angle de 180 °×f

I.2. Variable quantitative

On dit qu’un caractère est quantitatif s’il est mesurable (ou repérable), c'est-à-dire que
l’observation du caractère sur chaque individu de la population est un nombre :

- Sile caractère ne peut prendre que des valeurs isolées d’un intervalle de confiance, on
dit que c’est un caractère quantitatif discret. En général, ce sont des valeurs entières.
L’ensemble des valeurs possibles est fini.

Exemple 3

i. X : « nombre d’enfants », K={0, 1, 2, 3, 4, 5, 6}


ii. Y : « nombre de pannes d’un appareil de radiologie », K={0, 1, 2, 3}.

Martin NJOCKE, Docteur en Economie Page 31


- Si le caractère peut prendre toutes les valeurs possibles à l’intérieur d’un intervalle de
confiance, on dit que c’est un caractère quantitatif continu. L’ensemble des valeurs
possibles du caractère noté K est toujours infini non dénombrable.

Exemple 4

i. X : « taille de l’individu » ; K =[80 cm ; 230 cm]


ii. Y : « poids d’un individu » ; K =[30 kg ; 150 kg]
iii. Z : « quantité d’un produit dans le sang » ; K =[2,5 mg/l ; 5,5 mg/l ]

I.2.1. Caractère quantitatif discret

Soit X , un caractère quantitatif discret dont les modalités


X 1 , X 2 , X 3 , .. . , X k , sont telles que
X 1 < X 2 < .. .< X k .

A chaque modalité
X i est associé à partir du tableau statistique un effectif ni , un effectif

cumulé
N i , une fréquence f i , une fréquence cumulée F i .Pour visualiser ce qu’il y a dans le
tableau statistique, on peut faire les deux représentations graphiques suivantes :

I.2.1.1. Le diagramme en bâtons

Le diagramme en bâtons représente les fréquences relatives en fonction des valeurs du


caractère. L’ordonnée est matérialisée par un bâton. Comme la somme des fréquences
relatives est égale à l’unité, la somme des longueurs des bâtons est égale à 1, ce qui permet de
comparer des distributions d’effectifs inégaux.

fi

xi

Martin NJOCKE, Docteur en Economie Page 32


Diagramme en bâtons où
f i représente la fréquence relative et x i , la valeur de la
modalité

N.B : Pour le diagramme en bâtons des effectifs, on met les effectifs en ordonnée.

I.2.1.2. Le polygone cumulatif des fréquences

Le diagramme cumulatif représente en fonction des valeurs du caractère, la somme des


fréquences relatives des valeurs inférieures ou égales à la valeur considérée. Il est la courbe

représentative de la fonction F ( x ) . Pour une variable discrète, il se présente sous la forme


d’une fonction en escalier, dont les sauts correspondent aux valeurs possibles du caractère.

Fi

xi

Diagramme cumulatif où
F i représente la fréquence cumulée et x i , la valeur de la
modalité

I.2.2. Caractère quantitatif continu

Lorsque X est un caractère quantitatif continu, les données sont regroupées en classes que

nous noterons
C 1 ,C 2 , . .. , Ck avec :C i=[ ai−1 ; ai [ ; i=1,...k

A la classe
C i , est associé un effectif ni , un effectif cumulé N i , une fréquence f i et une

fréquence cumulée
F i . On peut alors faire des représentations graphiques suivantes :

I.2.2.1. Histogramme

Martin NJOCKE, Docteur en Economie Page 33


Il sert à représenter les effectifs ou les fréquences.

Pour l’histogramme des fréquences, lorsque les classes sont d’égales amplitudes, on met en

abscisses les classes et en ordonnées les fréquences ; puis à chaque classe


C i , on associe un

rectangle dont la base est le segment


[ ai−1 ;a i [ et la hauteur est f i ; i=1,...k .

fi

Histogramme

Polygone de fréquences

Classes

Histogramme et polygone de fréquences

Remarques

 Pour l’histogramme des effectifs, on met les effectifs en ordonnées.


 Si les classes ne sont pas d’égales amplitudes, on choisit une unité d’amplitude.

I.2.2.2. Polygone de fréquences

Il sert à préciser l’évolution des fréquences et s’obtient en joignant tous les milieux des
sommets de l’histogramme.

I.2.2.3. Histogramme cumulatif

C’est un histogramme construit en mettant en ordonnées les effectifs cumulés ou les


fréquences cumulées et en abscisses, les classes.

I.2.2.4. Polygone cumulatif des fréquences

Martin NJOCKE, Docteur en Economie Page 34


C’est le graphe de la fonction cumulative F définie pour X ∈ ℜ par F ( X ) , représentant la
proportion d’individus pour lesquels la valeur observée du caractère est strictement inférieure
à X .Comme les données sont regroupées en classes, on ne connaît cette fonction qu’aux
extrémités des classes, puis on joint les points pour obtenir le polygone cumulatif des
fréquences.

F
…….
i

Histogrammecumulatif

Polygone cumulatif de fréquences

Classes

Histogramme des fréquences cumulées et polygone cumulatif des fréquences

. Pour ces dessins, l’amplitude des classes n’a aucune importance.

. Pour les mêmes considérations que le polygone des fréquences, le polygone cumulatif
converge vers une courbe définie en calcul des probabilités et qu’on appelle Fonction de
répartition de X .

II. Terminologie relative aux caractères

Nous allons définir quelques termes que nous rencontrerons tout au long de cet ouvrage.

II.1. Modalités

Ce sont les valeurs possibles d’un caractère quantitatif discret ou d’un caractère qualitatif.

Exemple 5

0, 1, 2, etc. sont des modalités du caractère X : « nombre d’enfants à charge ».

Célibataire, marié, etc. sont des modalités du caractère X : « situation matrimoniale ».

Martin NJOCKE, Docteur en Economie Page 35


Il faut noter que les modalités d’un caractère doivent être incompatibles, c'est-à-dire qu’un
individu ne peut pas posséder deux modalités différentes du caractère.

Martin NJOCKE, Docteur en Economie Page 36


II.2.Classes

Les caractères quantitatifs continus peuvent prendre une infinité de valeurs possibles. Pour
étudier ce type de caractère, on regroupe ces valeurs possibles en un certain nombre de
classes.

Exemple 6

Pour le caractère X : « poids d’un individu », on peut par exemple découper


K=[ 30 kq, 150 kq[ en classesC 1=[30 , 50[ , C 2=[ 50 , 70[ , C 3=[70 ,90 [ , C 4 =[90 , 110 [ ,
C 5=[110 , 130[ , C 6 =[ 130 , 1 50[

Une classe quelconque s’écrira sous la forme[ a , b[ .

. a et b sont les bornes de la classe ;

.b−a est l’amplitude de la classe ;

a+b
. 2 est le centre de classe.

Les classes qui peuvent être considérées comme modalités du caractère quantitatif continu,
peuvent avoir une amplitude constante ou variable. Le choix du nombre de classes et de leur
amplitude se fait en fonction de l’effectif de la population, de façon à ce que le nombre
d’unités statistiques dans chaque classe soit suffisant pour éliminer les variations accidentelles
qui se produisent lorsqu’on considère de trop faibles effectifs.

II.3. Effectif d’une modalité (ou d’une classe)

C’est le nombre d’individus qui possèdent cette modalité (ou pour lesquels la valeur observée
du caractère se trouve dans la classe).La somme de tous les effectifs est égale au nombre total
d’individus sur lesquels la variable a été observée, soit N.

II.4. Effectif cumulé d’une modalité (ou d’une classe)

On suppose que les modalités sont ordonnées.L’effectif cumulé d’une modalité est égal au
nombre d’individus qui possèdent la modalité ou tout autre modalité inférieure à la modalité
en question. L’effectif cumulé d’une classe est égal au nombre d’individus pour lesquels

Martin NJOCKE, Docteur en Economie Page 37


lavaleur observée du caractère se trouve dans la classe ou dans toute autre classe située avant
la classe en question.

II.5. Fréquence d’une modalité (ou d’une classe)

Elle s’obtient en divisant l’effectif de la modalité (ou de la classe) par l’effectif total N .C’est
un nombre compris entre 0 et 1 et peut s’exprimer en pourcentage lorsqu’on multiplie par
100. La somme de toutes les fréquences est égale à 1.

II.6. Fréquence cumulée d’une modalité (ou d’une classe)

Elle s’obtient en divisant l’effectif cumulé de la modalité (ou de la classe) par l’effectif total
N.Tous ces résultats sont présentés dans un tableau qu’on appelle tableau statistique :

Modalités Effectifs Effectifs cumulés Fréquences Fréquences cumulées


relatives
C1 n1 N 1 =n1 f 1=n1 / N F 1=N 1 / N
C2 n2 N 2 =n1 + n2 f 2=n2 / N F 2=N 2 / N

. . . . .

. . . . .

Ci ni N i =n1 + n2 +. ..+ ni f i=n i / N F i=N i /N

. . . . .

Ck nk N k =N f k =nk / N F k =1
Total N /// 1 ///
Exemple 7 : le dosage d’un produit dans le sang de malades suivant le même traitement a
donné le tableau ci-dessous :

Quantité du Effectif Effectifs Fréquence Fréquences Centre de


produit en mg/l s cumulés s cumulées classes
relatives
[2,5 ; 3[ 5 5 0,1 0,1 2,75
[3 ; 3,5[ 22 27 0,44 0,54 3,25
[3,5 ; 4[ 11 38 0,22 0,76 3,75
[4 ; 4,5[ 6 44 0,12 0,88 4,25
[4,5 ; 5[ 4 48 0,08 0,96 4,75

Martin NJOCKE, Docteur en Economie Page 38


[5 ; 5,5[ 2 50 0,04 1 5,25
Total N=50 /// 1 /// ///
On constate par exemple que 44% des malades ont une quantité du produit comprise entre 3
mg/l et 3,5 mg/l ; 88% des malades ont une quantité du produit inférieur à 4,5 mg/l, etc.

Exemple 8 : on a observé le nombre d’enfants par familles dans un groupe de familles :

Nombre Nombre de Effectifs Fréquences Fréquences


d’enfants familles cumulés relatives cumulées
0 5 5 0,025 0,025
1 15 20 0,075 0,1
2 25 45 0,125 0,225
3 35 80 0,175 0,4
4 40 120 0,2 0,6
5 60 180 0,3 0,9
6 20 200 0,1 1
Total N=200 /// ///

12,5% des familles ont deux enfants, 30% des familles ont cinq enfants, 2,5% des familles
n’ont aucun enfant, 22,5% des familles ont un nombre d’enfants inférieur ou égal à deux ;
60% de familles des familles ont un nombre d’enfants inférieur ou égal à 4, etc.

III. Travaux pratiques

En 2000, les recettes du budget d’un Etat se présentaient de la façon suivante (en milliards de
francs) :

- Taxe sur la valeur ajoutée (TVA) 348


- Impôt sur le revenu 163
- Impôt sur les sociétés 71
- Taxe sur les produits pétroliers 54
- Autres impôts 161
- Recettes non fiscales 41

Martin NJOCKE, Docteur en Economie Page 39


Total 838

Représenter les recettes du budget de l’Etat en 2000 :

*TP 1. Par un graphique à tuyaux d’orgue

*TP 2. Par un graphique circulaire (ou par secteurs)

*Solution

Le caractère étudié, la nature des recettes du budget de l’Etat, est qualitatif. On peut donc
utiliser, soit une représentation graphique par tuyaux d’orgue, soit une représentation par
secteurs.

Recettes

4001

300

200 2 5

100 3 4 6

Répartition des recettes du budget de l’Etat selon leur origine

1 : TVA ; 2 : Impôt sur le revenu ; 3 : Impôt sur les sociétés ; 4 : Taxe sur les produits
pétroliers ; 5 : Autres Impôts ; 6 : Recettes non fiscales.

Dans la représentation par tuyaux d’orgue, les différentes modalités du caractère (les
diverses sources de recettes du budget de l’Etat) sont figurées par des rectangles dont la base
est constante et dont la hauteur, et l’aire par conséquent, est proportionnelle aux effectifs (le
montant des recettes).

Martin NJOCKE, Docteur en Economie Page 40


Dans le graphique circulaire, les secteurs représentatifs ont une aire, et par conséquent
un angle au centre proportionnel aux effectifs (le montant des recettes) correspondantes.

centre
Le graphique est tracé à l’aide d’un rapporteur après que l’on ait calculé l’angle au
relatif à chaque secteur. Par exemple, l’angle au centre du secteur représentatif des recettes de
360 °×348
=149 , 5°
la TVA est égal à :838

Sources de recettes Recettes (en pourcentage) Angles au centre (en degrés)

Taxe sur la valeur ajoutée 348 149,5

Impôt sur le revenu 163 70,0

Impôt sur les sociétés 71 30,5

Taxe sur les produits pétroliers 54 23,2

Autres impôts 161 69,2

Recettes non fiscales 41 17,6

Total 838 360,0

149°
70°
17°
69°
30
°°° 23

Représentation par secteurs : méthode de construction du graphique

Martin NJOCKE, Docteur en Economie Page 41


CHAPITRE 3 : CARACTERISTIQUES DE VALEUR
CENTRALE DES LOIS A UNE VARIABLE
La description numérique des séries statistiques étudie trois types de paramètres :

 Les caractéristiques de valeur centrale qui indiquent la position moyenne des


observations ;
 Les caractéristiques de dispersion pour représenter les écarts des observations à la
valeur centrale ;
 Les caractéristiques de forme : asymétrie, aplatissement, concentration

Ce chapitre présente les caractéristiques de valeur centrale, le chapitre suivant les


caractéristiques de dispersion et de forme.

La valeur centrale est d’un point de vue pratique, la caractéristique la plus importante
puisqu’elle fixe l’ordre de grandeur des observations.

Les caractéristiques de valeur centrale doivent :

a) Etre indépendantes de l’observateur et donc définies de façon objective ;


b) Dépendre de toutes les observations ;
c) Etre facile à interpréter et donc avoir une signification concrète évidente ;
d) Etre facile à calculer ;
e) Se prêter aux calculs ultérieurs.

I. Moyennes

I.1. Moyenne arithmétique

- La moyenne arithmétique simple d’une série den observations sur la variable X :

− n
1
x = ∑ xi
x 1 , x 2 , …, x n ne présentant aucune répétition est la quantité : n i=1

Exemple 1

Martin NJOCKE, Docteur en Economie Page 42


x =3 , x 4 =0 , x 5 =4
Si x 1=2, x 2 =7 , 3


1 16
x = (2+7+3+0+4 )= =3 , 2
5 5

- La moyenne arithmétique pondérée d’une série de n observations présentant des


répétitions :

Valeur de x1 x2 … xi … xr
la variable
Effectif n1 n2 … ni … nr

− r r
1
x= ∑ n x n=∑ ni
n i=1 i i où
est la quantité : i=1

Si les observations sont groupées en classes, on admet que toutes les observations de la classe

( x i , x i+1 ) sont égales au centre de la classe : c i =( x i + x i+1 )/ 2

Exemple2

Classes Effectifs Centres ni c i


[ x i ; x i+1 [ ni ci

[0 ; 6[ 5 3 15
12 9 108
[6 ; 12[
3 15 45
[12 ; 18[
2 21 42
[18 ; 24[ 8 27 216

[24 ; 30[

∑ 30 - 426

− r
1 1
x = ∑ ni c i= (426 )=14 ,2
n i=1 30

Martin NJOCKE, Docteur en Economie Page 43


Remarque : le premier cas envisagé (absence de répétitions) est un cas particulier de

distribution avec répétitions. Il suffit pour le retrouver de faire


ni =1 pour toutes les valeurs

de i , dans le cas général.

Martin NJOCKE, Docteur en Economie Page 44


I.2. Généralisation de la notion de moyenne

I.2.1. Définitions

x
Soient les observations x 1 , x 2 , …, n , et une fonction monotone f assurant les
correspondances :

x1 x2 … xi … xr
f ( x1 ) f ( x2) … f ( xi ) … f ( xr )

n
1
f ( X )= ∑ f ( x i )
¿
¿
x
La moyenne des i par l’intermédiaire de f est le nombre X tel que n i=1

n
1
¿
f ( X )= ∑ n f ( xi )
n i=1 i
ou si la série présente des répétitions :

Outre la moyenne arithmétique, telle que f ( x )=x , diverses moyennes sont utilisées :

- La moyenne quadratiqueQ , telle que f ( x )=x 2


1
Q2 = ∑
n i
n i x 2i

'
- Les moments centrés d’ordrer , m r , tels que f ( x )=x r
1
m'r = ∑
n i
ni xir

'
En particulier m 2 =Q

1
f ( x )=
- La moyenne harmonique H , telle que x

1 1 n
= ∑ i
H n i xi

- La moyenne géométriqueG , telle que f ( x )=ln x


1
n∑
log G= ni ln x i
i

Martin NJOCKE, Docteur en Economie Page 45


I.2.2. Propriétés

Ces moyennes généralisées se calculent moins aisément que la moyenne arithmétique,


puisqu’elles impliquent l’élévation des observations à une puissance positive ou négative
(moyenne harmonique).

Moyenne harmonique et moyenne géométrique réduisent l’influence des très grandes valeurs,
accroissent celle de très petites valeurs.

 On peut calculer la moyenne en utilisant les fréquences relatives :

k k
1
x= ∑ n i x i =∑ f i x i
N i=1 i=1

 Considérons une population Ω de cardinal N composée de deux sous-populations Ω1

de cardinal N 1 et Ω2 de cardinal N 2 . Si on connaît la moyenne d’une variable X sur


Ω1 et Ω2 , soit x 1 et x 2 , alors la moyenne de X sur Ω est donnée par :

( N 1 x 1)+ ( N 2 x 2)
x=
N 1+ N 2

Cette formule peut être généralisée au cas de plusieurs sous populations.

Exemple 3

Dans une première maternité, il y a 100 bébés et le poids moyen d’un bébé est de3,5 kg. Dans
une deuxième maternité, il y a 150 bébés et le poids moyen d’un bébé est de 3,3 kg.

Le poids moyen d’un bébé dans l’ensemble des deux maternités est :

( 100×3 , 5 ) + ( 150×3 ,3 )
x= =3 ,38 kg
100+150

 Si deux variables X et Y sont liées par la relationY =aX +b , où a et b sont des

réels, alors la moyenne de Y est donnée par : Y =a X +b


 Le calcul de la moyenne arithmétique est certes plus long que celui du mode ou de la
médiane. Elle possède en général une bonne stabilité ; elle n’est pas affectée par la
présence de quelques valeurs modérément petites ou modérément grandes. Cette

Martin NJOCKE, Docteur en Economie Page 46


stabilité croît avec l’effectif N ; cependant, il peut arriver que des valeurs extrêmes
puissent la rendre sans utilité. Sa stabilité générale en fait une valeur typique de grande
signification statistique et c’est la raison de son utilisation dans une multitude
d’études. Son principal mérite est d’avoir une signification concrète simple et se prête
au calcul algébrique.
 Il existe d’autres types de moyennes moins utilisées mais pour certaines variables,
leur emploi est indispensable car la moyenne arithmétique n’est pas satisfaisante. Il
s’agit de la moyenne géométrique et de la moyenne harmonique.

Exemple 4

Soit la série suivante : 3, 18, 3 et 3.


1 27
x = (3+3+3+18 )= =6 , 75
 4 4


= (
1 1 1 1 1 1
+ + +
H 4 3 3 3 18
1
= 1+
4
1
18 ) ( )
4×18
H= =3 ,78
D’où 19
1
ln G= (3 ln3+ ln 18 )
 4

Orln 18=ln ( 3×6 )=ln3+ln 6=ln 3+ln(3×2)=ln 2+2 ln 3

En remplaçant la valeur de ln 18 dansln G , on obtient :

1 1
ln G= (5 ln3+ln 2 )= ( 5×0 , 4771 ) +0 , 3010=1 , 54
4 4

SoitG=4 , 7

Ainsi H et G réduisent l’influence de la valeur 18.

Inversement, soit la série : 5, 50, 50, 50


x =38 ,75

H=15 ,38
Martin NJOCKE, Docteur en Economie Page 47
G=28 ,1

La faible valeur 5 a une influence plus grande sur H et G que sur x .

Les moyennes arithmétique, géométrique et harmonique respectent l’inégalité :


x ≥G≥H

Nous admettrons ce résultat, que l’on peut vérifier sur les exemples précédents.

Exemple 5

Soit le tableau suivant :

x i : variable 1 11 12 1 14 ///
0 3
ni : effectif 4 10 12 8 6 N=40

Calculez la moyenne arithmétique

*Solution

− r
1 1
x = ∑ ni xi = ( 4×10+10×11+12×12+8×13+6×14 )=12 , 05
N i=1 40

Exemple 6

Dans l’exemple 8 du chapitre 2, page 29, le nombre moyen d’enfants par famille est :

− r
1 1
x = ∑ ni x i = ( 0×5+1×15+2×25+3×35+4×40+5×60+6×20 ) =3 ,75≈4
n i=1 200

Exemple 7

Martin NJOCKE, Docteur en Economie Page 48


La quantité moyenne du produit dans le sang (voir exemple 7, chapitre2, page 28) est donnée

par :

1
x= ( 5×2 ,75+22×3 , 25+11×3 ,75+6×4 , 25+4×4 , 75+2×5 , 25 ) =3 ,63 mg/l
50

Martin NJOCKE, Docteur en Economie Page 49


II. Autres caractéristiques de valeur centrale : mode et médiane

II.1. Le mode

II.1.1. Définition

Le mode
M 0 d’une distribution est la valeur de la variable statistique pour laquelle la
fréquence est la plus élevée (ou l’effectif le plus élevé).

C’est donc la valeur de la variable qui se rencontre le plus fréquemment. On l’appelle encore
variable dominante.

II.1.2. Détermination

- Lorsque la variable est discrète, le mode est défini sans ambiguïté. Si deux variables
successives de la variable ont la fréquence maximum, il y a un intervalle modal dont
les valeurs extrêmes correspondent à ces valeurs.
- Lorsque la variable est continue, les données étant regroupées en classes, la définition
précédente n’est applicable que sous la condition d’attribuer le mode à la classe elle-
même. On parlera de classe modale et on prend comme valeur du mode, le centre de la
classe.

II.1.3. Propriétés

Le mode est facile à calculer et a une signification assez immédiate. Sa détermination dans le
cas d’une variable continue n’est pas assez précise : elle dépend en partie du découpage retenu
en classes.

Une distribution peut avoir plusieurs modes. Elle est alors plurimodale. En général, une
distribution plurimodale correspond à un mélange de plusieurs séries statistiques (mélange de
populations).

II.2. La médiane

II.2.1. Définition

Considérons une série statistique rangée par ordre croissant ou décroissant. On appelle
médiane de cette série, toute valeur telle que le nombre d’observations qui lui sont inférieures
soit égal au nombre d’observations qui lui sont supérieures.

Martin NJOCKE, Docteur en Economie Page 50


C’est la valeur M de la variable statistique pour laquelle la fréquence cumulée est égale à
0,5.

II.2.2. Détermination pratique

A partir du tableau statistique, on calcule les fréquences cumulées et on localise la première

fréquence qui dépasse 0,5 et on la note F M .

 Pour une variable statistique discrète, la valeur retenue pour la médiane est celle qui

est en face de F M . Mais la meilleure approximation de la médiane s’obtient par


interpolation linéaire.

 Pour une variable continue, on détermine d’abord la classe médiane [ a ; b[ qui est la

classe qui se trouve en face de F M . Ensuite, la médiane M est déterminée par


interpolation linéaire :

A ( 0 ,5−F c )
M =a+
f

a : borne inférieure de la classe médiane ;

A : amplitude de la classe médiane ;

f : fréquence relative de la classe médiane ;

F c : fréquence cumulée de la classe située juste avant la classe médiane.

Exemple 8

Dans l’exemple 8 du chapitre 2, page 29, X : « nombre d’enfants par famille », la


première fréquence cumulée qui dépasse 0,5 est 0,6. On retiendra donc pour médiane la
valeur M = 4 enfants. Mais pour une meilleure approximation, procéder par interpolation
linéaire.

Exemple 9

Reprenons l’exemple 7, du chapitre 2, page 28, avec X : « quantité d’un produit dans le
sang ». La première fréquence qui dépasse 0,5 est 0,54. La classe médiane est donc
[3 ; 3,5[ .
Martin NJOCKE, Docteur en Economie Page 51
D’après la formule de la médiane, on a :

( 3 , 5−3 )( 0 , 5−0 ,1 )
M=3+ =3 , 45 mg/l
0 , 44

On en déduit que 50% des malades traités ont une quantité du produit dans le sang
inférieure à 3,45 mg/l.

II.2.3. Détermination graphique

On représente le polygone cumulatif de fréquence. A partir de l’ordonnée 0,5, on trace une


horizontale jusqu’à sa rencontre avec le polygone cumulatif des fréquences. L’abscisse du
point de rencontre est la médiane cherchée.

II.2.4. Propriétés

 La médiane dépend de toutes les observations, mais celles-ci interviennent seulement


par leur ordre et non leur valeur. En effet, la médiane reste invariante si on diminue la
valeur d’une observation qui lui est inférieure ou si on augmente la valeur d’une
observation qui lui est supérieure.
 La médiane ne se prête pas au calcul algébrique. La médiane d’une série constituée par
le mélange de plusieurs populations ne peut être déduite des médianes des séries
composantes.
 La médiane d’une série groupée par classes varie naturellement avec le choix de
l’intervalle de classe, mais aussi avec les limites de classe. Elle n’est donc pas toujours
caractéristique de la série en raison de son manque de stabilité.
 La somme des écarts des données d’une série statistique par rapport à une valeur
arbitraire est minimale lorsque cette valeur se confond avec la médiane, autrement dit
x ; i=1,...,k est toute valeur qui rend minimum la
la médiane M d’un échantillon i
k
∑|M −x i|
quantité : i=1

La signification de la médiane devient incertaine dans le cas des séries discrètes présentant
des « sauts » importants, ou dans le cas des séries continues ne comportant que peu
d’observations.

Martin NJOCKE, Docteur en Economie Page 52


Exemple 10

La médiane de la série ordonnée 15, 20, 25, 30, 35 est 25 : deux observations sont inférieures
à 25 et deux observations sont supérieures.

Par contre, la médiane de la série 15, 20, 25, 30, 35, 40 n’est pas évidente :

- deux observations sont inférieures à 25 et trois supérieures à 25


- trois observations sont inférieures à 30 et deux supérieures à 30

II.3. Généralisation de la notion de médiane

II.3.1. Quantile

x
Par analogie avec la médiane, on définit le quantile d’ordreq , q , par la relation :

F ( x q )=q avec 0≤q≤1 où F désigne la fonction de répartition.

1
q=
2 définit la médiane M.

Les quantiles, dans le cas d’une variable continue, se calculent comme la médiane par
interpolation.

II.3.2. Quantiles particuliers

 Quartiles : ce sont les quantiles d’ordre 1/4, 1/2, 3/4. On les note q 1 (premier quartile),
q 2 (médiane) et q 3 (troisième quartile). Les quartiles partagent la population en quatre

groupes d’effectifs égaux.


 Déciles : ils partagent la population en 10 groupes d’effectifs égaux.
 Centiles : ils décomposent la population en 100 groupes d’effectifs égaux.

III. Travaux pratiques

*TP 1

En réponse à une offre d’emploi visant à recruter une secrétaire sténodactylo, sept candidates
se sont présentées. Le test qui leur est proposé consiste dans la dactylographie d’un texte

Martin NJOCKE, Docteur en Economie Page 53


préalablement noté en sténo. Les erreurs commises sont relevées et les temps de
dactylographie chronométrés. Les sept candidates ont obtenu les résultats suivants :

Candidate n° 1 2 3 4 5 6 7
Nombre 1 5 4 3 7 6 10
d’erreurs
Chronométrage 11’06 s 12’43s 12’57s 14’16s 15’37s 13’14s 17’23s
(en minutes et
secondes)

1) Déterminer la médiane :
a) De la distribution des erreurs
b) De la distribution des temps de dactylographie.
2) Une huitième candidate se présente en retard et est admise à passer le test. Elle fait 9
erreurs et met 14’28s à dactylographier le texte. Déterminer la médiane :
a) De la nouvelle distribution des erreurs
b) De la nouvelle distribution des temps de dactylographie

*Solution

1) La médiane M d’une distribution est la valeur statistique telle que le nombre des
observations qui présentent une valeur inférieure à celle-ci soit égal au nombre des
observations qui présentent une valeur supérieure.

En d’autres termes, la médiane est la valeur de la variable statistique qui partage en deux
effectifs égaux la série des observations ordonnées suivant les valeurs croissantes ou
décroissantes du caractère.

Lorsque le nombre d’observations est impair (n=2 k +1) , ce qui est le cas ici, la médiane

correspond à la valeur (k +1 )−ième observation de la série ordonnée.

a) Ordonnons la série des erreurs par valeurs croissantes :


1, 3, 4, 5, 6, 7, 10

Martin NJOCKE, Docteur en Economie Page 54


La médiane est égale à 5, valeur de la quatrième observation de la série ordonnée.

b) Ordonnons de même la série des temps de dactylographie :


11’06s, 12’43s, 12’57s, 13’14s, 14’16s, 15’37s, 17’23s

La médiane est égale à 13’14s, valeur de la quatrième observation de la série ordonnée.

2)Lorsque le nombre d’observations est pair(n=2 k ) , il n y a pas à proprement parler de


médiane mais un intervalle médian dont les extrémités correspondent aux valeurs de la
k −ième et de la (k +1 )−ième observation de la série ordonnée. La signification de cet
intervalle est peu différente selon que la variable est discrète ou continue.

a) La nouvelle série ordonnée des erreurs est :

1, 3, 4, 5, 6, 7, 9, 10

Intervalle médian

La variable étant discrète, il n’existe pas de valeur de la variable statistique répondant


strictement à la définition de la médiane. Seul l’intervalle médian [5,6] laisse le même nombre
d’observations à gauche et à droite.

b) La nouvelle série ordonnée des temps de dactylographie est :

11’06s, 12’43s, 12’57s, 13’14s, 14’16s, 14’28s, 15’37s, 17’23s

La variable étant continue, toutes les valeurs de l’intervalle [13’14s, 14’16s], dit intervalle
médian, répondent à la définition de la médiane. Par convention, on retient parfois dans ce
cas, pour valeur de la médiane, le centre de cet intervalle, soit 13’45s.

*TP 2

En vue d’établir rationnellement le nombre de postes de travail nécessaires pour assurer à sa


clientèle un service satisfaisant, une agence de voyages a fait relever, minute par minute, le
nombre d’appels téléphoniques reçus au cours d’une période de 30 jours par ses bureaux de
Douala et Yaoundé. Cette opération a fourni, pour la tranche horaire de pointe qui se situe
entre onze heures et midi, les résultats suivants :

Martin NJOCKE, Docteur en Economie Page 55


Nombre de minutes Nombre d’appels
Bureau de Bureau de Yaoundé
Douala
0 93 71
1 261 146
2 416 269
3 393 414
4 308 414
5 174 233
6 93 145
7 42 73
8 et plus 20 35
Total 1800 1800

1) Déterminer le mode de chacune de ces deux distributions


2) Déterminer la médiane de chacune de ces deux distributions à partir du tableau.

*Solution TP 2

1) Le mode
M o d’une distribution est la valeur de la variable statistique qui présente la
fréquence ou l’effectif la(le) plus élevé(e). La variable statistique, le nombre d’appels
téléphoniques par minute, étant discrète, le mode est défini avec précision. On le détermine
directement sur le tableau statistique.

- Dans le cas du bureau de Douala, le mode est égal à 2.

- Dans le cas du bureau de Yaoundé, deux valeurs successives de la variable présente la


fréquence ou l’effectif maximum. Il y a donc un intervalle modal correspondant aux valeurs 3
et 4.

2) La médiane M est la valeur de la variable statistique qui partage en deux effectifs égaux la
série des observations ordonnées suivant les valeurs croissantes ou décroissantes du caractère.

C’est la valeur pour laquelle la fréquence cumulée est égale à 1/2 : F ( M )=1/2 .

La médiane est donc déterminée à partir des fréquences cumulées, ou des effectifs cumulés
dont le calcul est plus simple et est effectué dans le tableau ci-dessus :
Martin NJOCKE, Docteur en Economie Page 56
Nombre de minutes Bureau de Douala Bureau de Yaoundé

(variable
xi ) Effectifs Effectifs Effectifs Effectifs
ni Cumulés ni Cumulés
Ni Ni
0 93 - 71 -
1 261 354 146 217
2 416 770 269 486
3 393 1163 414 900
4 308 1471 414 1314
5 174 1645 233 1547
6 93 1738 145 1692
7 42 1780 73 1765
8 et plus 20 1800 35 1800
Total 1800 - 1800 -

Pour le bureau de Douala, la valeur médiane est comprise entre 2 et 3 ; en d’autres termes, la
valeur 900 (=1800/2), qui divise les effectifs cumulés en deux est comprise entre 770 et 1163.
Cette valeur médiane s’obtient numériquement par interpolation linéaire :

2 770

Me 900

3 1163

M e −2 3−2 1
= ⇔ M e= ( 900−770 ) +2
900−770 1163−770 393

Soit
M e≈2 ,33

Pour le bureau de Yaoundé, la valeur médiane vaut 3 car à cette valeur de la variable,
l’effectif cumulé est égale à 900 (=1800/2).

Martin NJOCKE, Docteur en Economie Page 57


*TP 3

Chiffre d’affaires Nombre d’entreprises


(millions de FCFA)
Moins de 0,25 13 712
0,25 à moins de 0,50 10 674
0,50 à moins de 1,00 11 221
1,00 à moins de 2,50 15 496
2,50 à moins de 5,00 10 043
5,00 à moins de 10,00 3 347
10,00 et plus 3 147
Total 67 640

1) Déterminer le mode de la distribution.


2) Déterminer le chiffre d’affaires médian par interpolation linéaire.

*Solution TP 3

Pour déterminer le mode de cette distribution, la première étape consiste à vérifier que toutes
les classes ont la même amplitude ; sinon on procède à une correction des effectifs. En
considérant la valeur 0 comme valeur inférieure, on obtient le tableau suivant :

Chiffre Nombre Amplitudes de Effectifs moyens


d’affaires d’entreprises classe (par unités d’amplitude de
(millions de F) (unité :0,25 million ni
de F) classe) : ai
ai
[0,00 ; 0,25[ 13 712 1 13 712
[0,25 ; 0,50[ 10 674 1 10 674
[0,50 ; 1,00[ 11 221 2 5 611
[1,00 ; 2,50[ 15 496 6 2 583
[2,50 ; 5,00[ 10 043 10 1 004
[5,00 ; 10,00[ 3 347 20 167
10,00 et plus 3 147 - -
Total 67 640 - -

Martin NJOCKE, Docteur en Economie Page 58


La correction des effectifs étant faite, nous pouvons aisément repérer la classe modale :
l’effectif le plus élevé se retrouve dans l’intervalle [0,00 ; 0,25[

0+0 , 25
M M o= =0 , 125
Soit o , le mode : 2

Pour déterminer la médiane, la correction des effectifs n’est pas indispensable ; elle est
déterminée à partir des fréquences cumulées ou des effectifs cumulés. Soit le tableau ci-
dessous :

Chiffre Nombre d’entreprises Effectifs cumulés


d’affaires ni Ni
(millions de F)
[0,00 ; 0,25[ 13 712 -
[0,25 ; 0,50[ 10 674 24 386
[0,50 ; 1,00[ 11 221 35 607
[1,00 ; 2,50[ 15 496 51 103
[2,50 ; 5,00[ 10 043 61 146
[5,00 ; 10,00[ 3 347 64 493
10,00 et plus 3 147 67 640
Total 67 640 -

La moitié des effectifs est égale à : 67 640/2=33 820 ; cette valeur est comprise dans la classe
[0,50 ; 1,00[, considérée comme classe médiane.

0,50 24 386

Me 33 820

1,00 35 607

Par interpolation linéaire, on a :

M e −0 , 50 1, 00−0 , 50 1 , 00−0 ,50


= ⇔ M e= ( 33820−24386 ) +0 , 50
33820−24386 35607−24386 35607−24386

Soit
M e≈0 , 92 millions de F.

Martin NJOCKE, Docteur en Economie Page 59


Martin NJOCKE, Docteur en Economie Page 60
CHAPITRE 4 : CARACTERISTIQUES DE
DISPERSION ET DE FORME DES LOIS A UNE
VARIABLE

Les caractéristiques de tendance centrale ne suffisent pas à caractériser une série statistique,
bien que dans l’ensemble, elles donnent déjà une idée sommaire de la façon dont sont
distribuées les données.

Exemple 1

Considérons les deux séries de neuf données ci-dessous :

78, 79, 79, 80, 80, 80, 81, 81, 82

40, 60, 60, 80, 80, 80, 100, 100, 120

Nous constatons facilement qu’elles ont la même médiane 80, le même mode, la même
moyenne arithmétique80. Cependant, il est clair que les deux séries ne sont pas comparables.

Dans la première, les données sont resserrées autour de la valeur 80 ; dans la deuxième, elles
sont dispersées sur une large étendue. Nous disons simplement que la première a une faible
dispersion et que la seconde a une forte dispersion. Mais nous sentons la nécessité de fixer
cette dispersion par un nombre appelé caractéristique de dispersion ; sa base est en général la
notion d’écart.

I. Caractéristiques de dispersion

Les caractéristiques de dispersion les plus fréquemment utilisées sont : l’étendue, l’intervalle
interquartile, l’écart absolu moyen, l’écart-type. Les deux premières sont dans leur principe du
même type que la médiane, les observations intervenant par leur rang et non par leur valeur.
Les deux dernières font intervenir les écarts de chacune des observations à la moyenne
arithmétique.

Ces paramètres indiquent la mesure dans laquelle les observations s’écartent de la valeur
centrale.

Martin NJOCKE, Docteur en Economie Page 61


I.1. Ecarts entre deux observations particulières

I.1.1. Etendue ou intervalle de variation

x , x . . . x n , la
Soient y 1 et y 2 respectivement la plus petite et la plus grande des observations 1 2

différencew= y 2 − y 1 appelée étendue,est une mesure de dispersion simple, facile à calculer,


très sensible aux valeurs exceptionnelles de la variable. C’est un indice très élémentaire et il
est très utilisé en contrôle de fabrication industrielle. Cette caractéristique présente des
inconvénients sérieux qui conduisent à l’écarter chaque fois que cela est possible. Ne
dépendant que des termes extrêmes qui sont souvent exceptionnels, voire aberrants et non pas
de tous les termes, elle est sujette à des fluctuations considérables.

Pour une distribution symétrique ou asymétrique, on peut obtenir une même valeur de
l’étendue. Par conséquent, l’étendue est une caractéristique imparfaite.

I.1.2. Intervalles interquantiles

Le quantile d’ordre q est défini par la relation : F ( x q )=q . Les quantiles les utilisés sont les
quartiles et les déciles, et à un degré moindre, les centiles.

L’intervalle interquantile
x q −x 'q permet d’éliminer, au moins en partie, l’influence des très
grandes valeurs. Divers intervalles sont utilisés :

I.1.2.1. Intervalle interquartile

I.1.2.2. Définition

ans son principe, la définition d’un quartile est analogue à celle de la médiane. Il y a trois
D

quartiles
Q1 , Q2 , Q3 .

Ce sont des valeurs de la variable statistique définies de la façon suivante :

Q 1 est une valeur telle que 25% des observations lui sont inférieures et 75% lui sont

supérieures.

Q 2 est une valeur telle que 50% des observations lui sont inférieures et 50% lui sont

supérieures.

Martin NJOCKE, Docteur en Economie Page 62


Q 3 est une valeur telle que 75% des observations lui sont inférieures et 25% lui sont
supérieures.

Ainsi définies, on voit qu’un quart des observations sont inférieures à Q 1 , un quart des
Q
observations comprises entre Q 1 etQ 2 , un quart des observations comprises entre Q 2 et 3 et

un quart des observations supérieures à


Q3 .

En utilisant la fonction cumulative, on a :

F (Q1 )=0 , 25

F (Q2 )=0 , 5

F (Q3 )=0 , 75

Le deuxième quartile est confondu à la médiane.

On appelle donc intervalle interquartilela différence :


Q3 −Q1

Cet intervalle ne tient compte que de l’ordre des observations et écarts entre elles et son calcul
est rapide.

I.1.2.3. Détermination pratique

Les quartiles se déterminent de la même manière que la médiane, soit par le calcul, soit à
partir des effectifs cumulés ou des fréquences cumulées.

Dans l’exemple 7, chapitre2, page 28, pour le caractère X : quantité d’un produit dans le

sang :

( 4−3 ,5 )( 0 ,75−0 , 54 )
Q3 ∈[ 3,5 ; 4[ et Q3 =3 , 5+ =3 , 98 mg/l
 0 ,22 .

75% des malades traitées ont dans le sang une quantité du produit inférieure à 3,98 mg/l.

Martin NJOCKE, Docteur en Economie Page 63


( 3 ,5−3 ) ( 0 , 25−0 , 1 )
Q1 =3+ =3 , 17 mg/l
 Q1 ∈[3 ; 3, 5[ et 0 , 44

25% des malades traités ont dans le sang une quantité du produit inférieure à 3,17 mg/l.

L’intervalle interquartile vaut


Q3 −Q1 =3 , 98−3 , 17=0 , 81 mg/l .

Les quantités du produit dans le sang de 50% des malades varient les unes des autres d’une
valeur maximale de 0,81 mg/l.

I.1.3. Généralisation : les déciles, les centiles

I.1.3.1. Les déciles

On définit de même 9 déciles Di (i=1,...9), chacun coupant la série en deux parties, la

première comportant ( 10×i ) % des effectifs et la seconde en comportant ( 100−10×i ) % .

1
Le premier décile D 1 est tel que 10 des observations lui sont inférieures et d’une façon

1
générale 10 des observations sont comprises entre deux déciles successifs. En utilisant la

fonction cumulative, on a :

F ( D 1 ) =0 ,1

F ( D 2 ) =0 , 2

F ( D 9 ) =0 , 9

Les déciles se calculent de la même manière que les quartiles.

L’intervalle
D9 −D1 qui contient 80% des observations est parfois employé comme mesure

de dispersion.
D5 est égal à la médiane.

I.1.3.2. Les centiles

Pour des séries comportant suffisamment d’observations, on peut déterminer les centiles
Ci.

Il y en a 99 ; chacun coupant la série en deux parties : la première comportant i % des effectifs

et la seconde( 100−i ) % .

Martin NJOCKE, Docteur en Economie Page 64


En utilisant la fonction cumulative, on a :

F ( C 1 ) =0 , 01

F ( C 2 )=0 , 02

F ( C 99 ) =0 , 99

L’intervalle
C 99−C 1 est l’intervalle inter-centile.

I.2. Ecarts entre toutes les observations et la valeur centrale

I.2.1. Ecart absolu moyen

Les caractéristiques de dispersion qui suivent sont construites à partir de la même idée :
mesurer la dispersion d’une série au moyen des écarts entre les observations.

Soit
x 1 ,...,x k ,une sériestatistique etn1 ,..., nk , les effectifs associés. On appelle écart absolu
moyen, la quantité :

n
1
e m ( x )= ∑ |x i−x|
n i=1 dans le cas d’une série simple

n
1
e m ( x )= ∑ ni|x i−x|
n i=1 dans le cas d’observations groupées

L’écart est pris en valeur absolue car les valeurs algébriques peuvent se compenser et donner
une somme nulle qui ne mesurerait en rien la dispersion.

L’écart absolu est peu utilisé comme caractéristique de dispersion.

I.2.2. Ecart-type ou écart quadratique moyen

On appelle variance de x l’expression V ( x ) qui revêt l’une des deux formes suivantes selon
que les données ne sont pas ou groupées en classes :

n
1
V ( x)= ∑ ( x i−x ) 2
n i=1 dans le cas d’une série simple.

Martin NJOCKE, Docteur en Economie Page 65


n
1
V ( x)= ∑ ni ( x i −x )2
n i=1 dans le cas d’observations groupées.

La racine carrée de V ( x ) est appelée écart type et notée


σ x ou σ (x ) .

*Calcul de l’écart-type

A moins que la détermination des écarts ne soit immédiate, on ne les calculera jamais. En
effet, d’après les propriétés de l’opérateur linéaire ∑ :

∑ ni ( xi−x )2=∑ ni ( x2i −2x xi + x2 )=∑ ni x2i −2x ∑ ni xi +n x2


∑ ni xi =n x
Par définition :

∑ ni ( x i−x )2=∑ n i x 2i − n x2
Donc :

1
V ( x )= ∑ ni ( x i −x )2 =
∑ ni x i −x2 2

n n
D’où :

Par conséquent :
σ ( x )=
√ ∑ ni xi2 −x 2
n

De nombreuses machines à calculer donnent simultanément ∑ x i et ∑ x 2i .


L’écart type représente la distance moyenne qu’il y a entre les observations
x i et la moyenne

arithmétique x . Il s’exprime dans la même unité que la série des mesures


xi .

Pour comparer deux distributions, il faut que les données soient mesurées avec la même unité.
Ainsi la moyenne et l’écart-type d’une série statistique s’expriment avec la même unité que
les mesures réalisées. Par conséquent, deux séries qui ne sont pas exprimées avec les mêmes
unités n’ont pas des moyennes et des écarts types comparables.

Martin NJOCKE, Docteur en Economie Page 66


Pour comparer la dispersion de deux séries qui ne sont pas exprimées avec les mêmes unités,
on utilise le coefficient de variation défini par :

σx
Cx=
x si x≠0

La série la plus dispersée a un coefficient de variation (


C x ) plus grand.

II. Caractéristiques de forme

Lorsque l’on considère le polygone des fréquences d’une série statistique, les principales
caractéristiques en ce qui concerne la forme sont la dissymétrie et l’aplatissement.

II.1. La dissymétrie

Il est toujours nécessaire de savoir si le polygone des fréquences est symétrique ou non, et s’il
ne l’est pas, de mesurer sa dissymétrie.

Dans une série parfaitement symétrique, mode, médiane et moyenne arithmétique sont
Q
confondus ; les quartiles Q 1 et 3 sont symétriques par rapport à Q 2 qui est la médiane.
Cette propriété est généralement caractéristique de la symétrie. Nous dirons alors que le degré

de dissymétrie est fonction de la différence entre les écarts de Q 1 et


Q 3 par rapport àQ2 .

On caractérise la dissymétrie par la quantité C D indépendante de l’unité de mesure.

( Q3 −Q2 ) −( Q2 −Q1 )
CD=
Q 3 −Q1 (Coefficient de YULE)

- SiC D =0 , alors le polygone des fréquences est symétrique. De plus, on a :


M 0 =M =x .

- SiC D > 0 , alors le polygone des fréquences est étalé vers la droite. On a dans ce cas :
M 0< M < x .

- SiC D < 0 , alors le polygone des fréquences est étalé vers la gauche. On a dans ce cas :
M 0> M > x .

Remarque :

Martin NJOCKE, Docteur en Economie Page 67


On ne peut avoir ces propriétés si la série a plusieurs modes. Mais le coefficient le plus
utilisé pour mesurer la dissymétrie du polygone des fréquences est le coefficient de
FISHER :

k
1
∑ n ( x −x ) 3
n i=1 i i
F=
σ 3x

- Si F=0 , le polygone est symétrique.


- Si F> 0 , le polygone est étalé vers la droite.
- Si F< 0 , le polygone est étalé vers la gauche.

On utilise aussi d’autres coefficients de dissymétrie qui se basent sur la position des
caractéristiques de tendance centrale.

Soient P1 et P2 , respectivement le premier et le deuxième coefficient de PEARSON :

x−M 0
P1 =
σx

3 ( x−M 0 )
P2 =
σx

II.2. L’aplatissement

On mesure l’aplatissement du polygone des fréquences par comparaison à la courbe normale


dite de LAPLACE-GAUSS.Le degré d’aplatissement sera mesuré par :

C A =α 4 −3 (coefficient de FISCHER) : on l’appelle en anglais KURTOSIS.

k
1
∑ n ( x −x )4
n i =1 i i
α 4=
Où σ 4x

- C A =0 ⇔ α 4 =3 , le polygone des fréquences est la courbe normale : on dit qu’il est

MESOKURTIQUE.

Martin NJOCKE, Docteur en Economie Page 68


- C A >0 ⇔α 4 >3 , le polygone des fréquences est plus pointu que la courbe normale :

on dit qu’il est LEPTOKURTIQUE.

- C A <0 ⇔α 4 <3 , le polygone des fréquences est plus aplati que la courbe normale :

on dit qu’il est PLATYKURTIQUE.

III. Travaux pratiques

*TP 1

Une firme de construction automobile désire évaluer certains paramètres concernant la

consommation en carburant d’un nouveau modèle, dans les conditions réelles d’utilisation. Au

cours des 500 tests réalisés sur une autoroute, les résultats suivants ont été obtenus :

Consommation en litres aux 100 km Nombre de tests


[5,00 ; 5,50[ 80
[5,50 ; 5,75[ 81
[5,75 ; 6,00[ 87
[6,00 ; 6,25[ 75
[6,25 ; 6,50[ 65
[6,50 ; 6,75[ 44
[6,75 ; 7,00[ 28
[7,00 ; 7,50[ 40
Total 500

Calculer l’écart absolu moyen de cette distribution.

*Solution

Martin NJOCKE, Docteur en Economie Page 69


(1) (2) (3) (4)=(2)×(3) (5) (6)=(5)×(2)
Classes Effectifs Centres de classe
ni ci c i ×ni |ci −x| ni|ci −x|
[5,00 ; 80 5,250 420,000 0,819 65,520
5,50[ 81 5,625 455,625 0,444 35,964
[5,50 ; 87 5,875 511,125 0,194 16,878
5,75[ 75 6,125 459,375 0,056 4,200
[5,75 ; 65 6,375 414,375 0,306 19,890
6,00[ 44 6,625 291,500 0,556 24,464
[6,00 ; 28 6,875 192,500 0,806 22,568
6,25[ 40 7,250 290,000 1,181 47,240
[6,25 ;
6,50[
[6,50 ;
6,75[
[6,75 ;
7,00[
[7,00 ;
7,50[
Total 500 - 3034,500 - 236,724

D’où la valeur de l’écart absolu moyen :

k
1 236 , 724
e= ∑ ni|c i−x|= =0 , 4731
n i=1 500

*TP 2

Pour son tableau de bord statistique, le directeur d’un office de logements sociaux fait calculer

régulièrement la moyenne arithmétique et l’écart-type de la distribution selon le nombre

Martin NJOCKE, Docteur en Economie Page 70


d’enfants et des familles qui attendent l’attribution d’un logement. Ces valeurs sont longtemps

restées stables avec une moyenne de 2 enfants et un écart-type de 1,9 enfant.

Actuellement, la distribution des 110 familles inscrites sur la liste d’attente est la suivante :

Nombre Nombre de familles

d’enfants

0 18

1 27

2 27

3 18

4 15

5 5

Total 110

1) Calculer l’écart-type de la distribution selon le nombre d’enfants et des familles


inscrites sur la liste :
a) en appliquant la formule de définition.
b) en appliquant la formule développée.
2) Expliquer la signification du résultat obtenu.

*Solution

Martin NJOCKE, Docteur en Economie Page 71


1-a) La variable statistique
x i (le nombre d’enfants) étant discrète, la formule de définition de
k
1
V ( x )= ∑ ni ( x i −x )2
la variance : n i=1 est directement applicable.

La valeur de la moyenne arithmétique s’obtient à l’aide du tableau ci-dessous :

k
1 220
x= ∑ ni xi = =2
n i=1 110

(1) (2) (3)=(1)×(2 (4) (5) (6)=(2)×(5 (7) (8)=(2)×(7)


Variable Effectifs ) )
statistique ni x i−x ( x i −x )
2
x 2i ni x 2i
xi ni ×x i ni ( x i −x )2
0 18 0 -2 4 72 0 0
1 27 27 -1 1 27 1 27
2 27 54 0 0 0 4 108
3 18 54 1 1 18 9 162
4 15 60 2 4 60 16 240
5 5 25 3 9 45 25 125
Total 110 220 - - 222 - 662

Dans la colonne (4), on calcule les écarts de chaque valeur


x i de la variable statistique à la

moyenne x ; dans la colonne suivante (5), on les élève au carré ; dans la colonne (6), on les
pondère par les effectifs correspondants. Au bas de la colonne (6), on lit :

k
∑ ni ( x i−x )2=222
i=1

D’où la valeur de la variance :

k
1 222
V ( x )= ∑ ni ( x i −x )2 = =2 , 02
n i=1 110

L’écart-type est égal à la racine carrée de la variance :

Martin NJOCKE, Docteur en Economie Page 72


σ x =√ V ( x )=1 , 4

1-b) En général, le calcul de l’écart-type par la méthode précédente est long et fastidieux. En
effet, il est exceptionnel que la moyenne arithmétique soit un nombre entier. Les écarts à la
moyenne comportent donc des décimales, ce qui conduit à des calculs laborieux lorsqu’on les
élève au carré.

Pour éviter d’avoir à calculer les écarts à la moyenne, on utilise la formule développée de la
variance :

∑ ni x 2i −n x2
1
V ( x )= ∑
n i
ni x 2i −x2 = i
n

Les calculs sont effectués dans le tableau précédent. On trouve :

k
1 220
x= ∑
n i=1
ni xi =
110
=2

2
D’où n x =110×(2)2 =440

∑ ni x 2i −n x2
1 662−440
V ( x)= ∑
n i
ni x 2i −x2 = i
n
=
110
=2 , 02

σ x =√ V ( x )=1 , 4

2) L’écart-type est une moyenne particulière : la moyenne quadratique des écarts de chacune
des observations par rapport à la moyenne arithmétique de celles-ci. Il possède la signification
d’une moyenne. Dans le cas présent, l’écart par rapport à la moyenne du nombre des enfants
des familles sur la liste est, en moyenne (quadratique), égal à 1,4. Cet écart moyen était
auparavant égal à 1,9. On peut donc affirmer que la dispersion du nombre d’enfants autour de
la moyenne, qui reste de deux enfants, s’est réduite.

Martin NJOCKE, Docteur en Economie Page 73


CHAPITRE 5 : DISTRIBUTIONS A DEUX
VARIABLES. LOIS MARGINALES, LOIS
CONDITIONNELLES
En 1966, la répartition des jeunes gens employés dans le commerce suivant l’âge et le
niveau de salaire était la suivante :

Tranche de salaire
Année d’âge 3000 à 4000 F 4000 à 5000 5000 à 6000 F Ensemble
F
14 ans n11=1266 n12=540 n13 =194 n1 .=2000
15 ans n21=13801 n22=6582 n23 =3017 n2 .=23400
16 ans n31=30620 n32=22660 n33 =13020 n3 .=66300
Ensemble n. 1 =45687 n. 2 =29782 n. 3 =16231 n=91700

Nous pouvons nous poser diverses questions à propos de ce tableau, tout d’abord
considérer l’ensemble des 91700 jeunes gens et voir comment il se repartit en fonction de
l’âge ; nous sommes alors en présence d’une loi à une dimension, que nous savons représenter
et résumer. Il en est de même pour la répartition des jeunes gens suivant le salaire.

Si nous limitons notre examen aux marges du tableau, nous n’utilisons pas l’information
interne. Ainsi, pour utiliser l’information disponible, sommes-nous conduits à définir d’autres
répartitions que les lois marginales.Nous ne nous intéressons pas seulement à la répartition
des jeunes gens suivant les modalités d’un caractère (salaire, âge), mais après avoir fixé une
modalité d’un caractère, nous nous demandons comment les jeunes gens qui appartiennent à
cette modalité se distribuent suivant les modalités de l’autre caractère, comment les jeunes
gens de 14 ans par exemple, se repartissent dans les diverses tranches de revenu, quelle est la
structure par âge des jeunes gens gagnant de 4000 à 5000 F par an. Ces distributions sont
définies par une modalité donnée par un caractère. On parlera donc des lois conditionnelles.

I. Les distributions

Martin NJOCKE, Docteur en Economie Page 74


De façon générale, la répartition de n observations suivant les modalités croisées de deux
caractères se présente sous la forme du tableau à double entrée suivant, si le premier caractère

ar modalités
C i , i=1,2,...,r et le second s modalités K j , j=1,2,...,s .

Modalités du deuxième caractère


K1 K2 … K j … Ks Total

C1 n11 n12 … n1 j … n1 s n1 .
C2 n21 n22 … n2 j … n2 s n2 .
Modalités
… … … … … … … …
du premier
Ci ni 1 ni 2 … nij … nis ni .
caractère
… … … … … … … …
Cr n r1 n r2 … n rj … n rs n r.
Total n. 1 n . 2 … n. j … n . s n. .

r s r s
n. j=∑ nij ni .=∑ nij n=n. .=∑ ni .= ∑ n. j
i=1 j =1 i=1 j=1

I.1. Caractéristiques des lois marginales

Loi marginale de X :

xi x1 x2 … xi … xr
Modalités
Fréquences absolues n1 . n2 . … ni . … n r.

Dans l’exemple considéré au début du chapitre, la distribution marginale du caractère « âge »


est la suivante :

14 15 ans 16 ans
ans
2 000 23 400 66 300

Martin NJOCKE, Docteur en Economie Page 75


Loi marginale de Y :

Modalités
yj y1 y2 … y j … ys
Fréquences absolues n. 1 n . 2 … n. j … n . s
D’où les moyennes marginales :

r s
1 1
x= ∑ ni. x i y= ∑ n. j y j
n i=1 n j=1

Les variances marginales :

r s
1 1
V ( x )= ∑ ni . ( x i−x ) 2 V ( y )= ∑ n. j ( y j − y )2
n i=1 n j=1

I.2. Caractéristiques des lois conditionnelles

Loi conditionnelle de X si
Y= yj :

xi x1 x2 … xi … xr
Modalités
Fréquences absolues n1 j n2 j … nij … n rj

r
∑ nij=n. j
i=1

Loi conditionnelle de Y si
X =x i :

Modalités
yj y1 y2 … y j … ys
Fréquences absolues ni 1 ni 2 … nij … nis

s
∑ nij=ni.
j=1

D’où les moyennes et les variances conditionnelles, auxquelles il faut ajouter la covariance :

Martin NJOCKE, Docteur en Economie Page 76


1
Cov ( x, y)= ∑ ∑ n ( x −x )( y j− y )
n i j ij i

Loi de X si
Y= yj Loi de Y si
X =x i
Moyenn 1
r
1
s

e
x j= ∑n x
n. j i =1 ij i
yi= ∑n y
n i. j=1 ij j
Variance 1
r
1
s
V j ( x )= ∑ nij ( x i−x j ) 2 V i ( x )= ∑ n ij ( y j− y i ) 2
n. j i=1 n.i j=1

II. Travaux pratiques

*TP 1

Dans la série statistique ci-dessous, deux valeurs ont été effacées :

x i 8, 7,4 6,1 9
2
y i 15 12,1 16, 12
3

On connaît par contre, le point moyen G par ses coordonnées :


x G=7 , 5 et y G=12 , 6

Pouvez-vous retrouver les valeurs manquantes ?

*Solution

Notons
x 3 et y 4 , les deux valeurs inconnues. Puisque les coordonnées du point moyen G

sont égales aux moyennes des séries ( x i ) et ( y i ) , on a donc :

8 , 2+7 , 4 + x 3 +6 ,1+9
x G= =7 , 5 ⇔5×7 ,5=8 , 2+ 7 , 4+ x 3 +6 , 1+ 9
5
⇔ x 3 =5×7 , 5−( 8 , 2+7 , 4 +6 , 1+9 )=6 , 8

Martin NJOCKE, Docteur en Economie Page 77


15+ 12, 1+16 , 3+ y 4 +12
y G= =12 ,6 ⇔5×12 ,6=15+12 , 1+16 , 3+ y 4 +12
5
⇔ y 4 =5×12, 6−( 15+12 ,1+16 ,3+12 )=7 , 6

*TP 2

Lors d’une étude statistique sur une série double portant sur 12 points, on a obtenu :

∑ x i =117 ; ∑ yi =22 , 2 ; ∑ x i y i =255 , 8 ; ∑ x 2i =1421 ; ∑ yi2=46 , 74


1) Calculez les coordonnées du point moyen
2) Calculez la variance de x , celle de y , et la covariance de x et y

*Solution

1) Les coordonnées du point moyen G sont :

12
∑ xi
117
x G= i=1 = =9 , 75
12 12

12
∑ yi
22, 2
y G= i=1 = =1, 85
12 12

12
∑ x2i
1421
V ( x )= i=1 −( x G )2 = − ( 9 ,75 )2≈23 ,35
2) On a : 12 12

Donc : σ x =√ 23 ,35≈4 , 83

12
∑ y 2i
46 ,74
V ( y )= i=1 −( y G )2 = −( 1 , 85 )2 ≈0 , 47
De plus : 12 12

σ =
Donc : y √ 0,47≈0,69

Martin NJOCKE, Docteur en Economie Page 78


12
1 255 , 8
Cov ( x , y )= ∑ x i yi −x G y G= −( 9 ,75×1 , 85 )≈3 ,28
12 i=1 12
Enfin :

TP 3
*

Déterminez les lois marginale et conditionnelle, les espérances et les variances marginales et
conditionnelles de l’âge et du salaire de la distribution suivante :

Martin NJOCKE, Docteur en Economie Page 79


Année d’âge X Tranche de salaire Y
3 à 4 F 4 à 5 F 5 à 6 F Total
14 3 2 1 6
15 15 7 3 25
16 29 25 15 69
Total 47 34 19 100

*Solution

Lois marginales

Age

Age
xi 14 15 16 Total

Fréquence absolue 6 25 69 100


ni .

Fréquence relative
f i . 0,06 0,2 0,69 1
5

1
x=
n
∑ ni. x i
Moyenne :

1 1
V ( x )=
n
∑ n i. ( x i −x )2 = ∑ ni . x 2i −x 2
n
Variance :

D’où le tableau :

xi ni . ni . x i ni . x 2i
14 6 84 1176
15 25 375 5625
16 69 1104 17664
Tota 100 1563 24465
l

Applications numériques :

Martin NJOCKE, Docteur en Economie Page 80


1 1563
x=
n
∑ ni. x i =
100
=15 ,63

1 1 24465
V ( x )=
n
∑ n i. ( x i −x )2 = ∑ ni . x 2i −x 2 =
n 100
−( 15 , 63 )2≈0 , 35

Salaire

Salaire
yj 3,5 4,5 5,5 Total

n
Fréquence absolue . j
47 34 19 100

Fréquence relative 0,47 0,3 0,19 1


f.j 4

N.B : les variables étant continues, la première ligne du tableau ci-dessus correspond au
centre de classe et s’obtient de la manière suivante :

3+ 4 4 +5 5+6
3 , 5= 4 , 5= 5 , 5=
2 ; 2 ; 2

1
y=
n
∑ n. j y j
Moyenne :

1 1
V ( y )=
n
∑ n. j ( y j − y )2 = ∑ n . j y 2j − y 2
n
Variance :

D’où le tableau :

yj n. j n. j y j n. j y 2j
3,5 47 164,5 575,75
4,5 34 153 688,5
5,5 19 104,5 574,74
Tota 100 422 1839
l

Martin NJOCKE, Docteur en Economie Page 81


Applications numériques :

1 422
y=
n
∑ n. j y j =
100
=4 ,22

1 1 1839
V ( y )=
n
∑ n. j ( y j − y )2 = ∑ n . j y 2j − y 2 =
n 100
−( 4 , 22 )2≈0 , 58

Lois conditionnelles selon l’âge

- Loi conditionnelle de l’âge sachant que la tranche de salaire est comprise entre 3

et 4 F (loi de X si Y = y 1 )

Année d’âge X Tranche de salaire y 1


( xi) ( nij )
14 3
15 15
16 29
Total 47

1
x 1=
n. 1
∑ nij x i

1 1
V 1 ( x )=
n. 1
∑ nij ( x i−x 1 )2 = ∑ nij x 2i −x 21
n. 1

D’où le tableau :

xi nij nij x i nij x 2i


14 3 42 588
15 15 225 3375
16 29 464 7424
Total 47 731 11387

Applications numériques :

Martin NJOCKE, Docteur en Economie Page 82


1 731
x 1=
n. 1
∑ nij x i=
47
≈15 , 55

1 1 11387
V 1 ( x )=
n. 1
∑ nij ( x i−x 1 )2 = ∑ nij x 2i −x 21 =
n. 1 47
−( 15 , 55 )2 ≈0 , 47

- Loi conditionnelle de l’âge sachant que la tranche de salaire est comprise entre 4

et 5 F (loi de X si Y = y 2 )

Année d’âge X Tranche de salaire y 2


( xi) ( nij )
14 2
15 7
16 25
Total 34

1
x 2=
n .2
∑ nij x i

1 1
V 2 ( x )=
n. 2
∑ nij ( x i −x2 )2 = ∑ nij x 2i −x 22
n. 2

D’où le tableau :

xi nij nij x i nij x 2i


14 2 28 392
15 7 105 1575
16 25 400 6400
Total 34 533 8367

Applications numériques :

1 533
x 2=
n .2
∑ nij x i =
34
≈15 ,67

Martin NJOCKE, Docteur en Economie Page 83


1 1 8367
V 2 ( x )=
n. 2
∑ nij ( x i −x2 )2 = ∑ nij x 2i −x 22=
n. 2 34
−( 15 , 67 )2≈0 ,539

- oi conditionnelle de l’âge sachant que la tranche de salaire est comprise entre 5


L

et 6 F (loi de X si Y = y 3 )

Année d’âge X Tranche de salaire


y3
( xi) ( nij )
14 1
15 3
16 15
Total 19

1
x 3=
n .3
∑ n ij x i

1 1
V 3 ( x )=
n. 3
∑ nij ( x i −x 3 ) 2= ∑ nij x2i −x 23
n. 3

D’où le tableau :

xi nij nij x i nij x 2i


14 1 14 196
15 3 45 675
16 15 240 3840
Total 19 299 4711

Applications numériques :

1 299
x 3=
n .3
∑ n ij x i =
19
≈15 ,73

1 1 4711
V 3 ( x )=
n. 3
∑ nij ( x i −x 3 ) 2= ∑ nij x2i −x 23 =
n. 3 19
−( 15 , 73 )2 ≈0 , 51

Martin NJOCKE, Docteur en Economie Page 84


Lois conditionnelles selon la tranche de salaire

- Loi conditionnelle du salaire sachant que l’âge est de 14 ans (loideY si X =x 1 )

Tranche de salaire Année d’âge x 1


Y
( nij )
( y j)
3,5 3
4,5 2
5,5 1
Total 6

1
y 1=
n1.
∑ n ij y j

1 1
V 1 ( y )=
n1 .
∑ nij ( y j − y 1 ) 2= ∑ n ij y 2j − y 21
n1.

D’où le tableau :

yj nij nij y j nij y 2j


3,5 3 10,5 36,75
4,5 2 9 40,5
5,5 1 5,5 30,25
Tota 6 25 107,5
l
Applications numériques :

1 1
y 1=
n1.
∑ n ij y j = ×25≈4 ,17
6

1 1 107 , 5
V 1 ( y )=
n1 .
∑ nij ( y j − y 1 ) 2= ∑ n ij y 2j − y 21 =
n1. 6
−( 4 ,17 )2≈0 ,53

- Loi conditionnelle du salaire sachant que l’âge est de 15 ans (loideY si X =x 2 )

Martin NJOCKE, Docteur en Economie Page 85


Tranche de salaire Année d’âge x 2
Y
( nij )
( y j)
3,5 15
4,5 7
5,5 3
Total 25

1
y 2=
n2.
∑ n ij y j

1 1
V 2( y )=
n 2.
∑ nij ( y j − y 2 ) 2= ∑ nij y 2j − y 22
n2 .

D’où le tableau :

yj nij nij y j nij y 2j


3,5 15 52,5 183,75
4,5 7 31,5 141,75
5,5 3 16,5 90,75
Total 25 100,5 416,25

Applications numériques :

1 1
y 2=
n2.
∑ n ij y j = ×100 ,5≈4 , 02
25

1 1 416 , 25
V 2( y )=
n 2.
∑ nij ( y j − y 2 ) 2= ∑ nij y 2j − y 22=
n2 . 25
− ( 4 , 02 )2 ≈0 , 49

- Loi conditionnelle du salaire sachant que l’âge est de 16 ans (loideY si


X =x 3 )

Martin NJOCKE, Docteur en Economie Page 86


Tranche de salaire
Année d’âge
x3
Y
( nij )
( y j)
3,5 29
4,5 25
5,5 15
Total 69

1
y 3=
n3 .
∑ nij y j

1 1
V 3( y )=
n 3.
∑ n ij ( y j− y 3 )2 = ∑ nij y 2j − y 23
n3 .

D’où le tableau :

yj nij nij y j nij y 2j


3,5 29 101,5 355,25
4,5 25 112,5 506,25
5,5 15 82,5 453,75
Total 69 296,5 1315,25

Applications numériques :

1 1
y 3=
n3 .
∑ nij y j = ×296 , 5≈4 , 30
69

1 1 1315 , 25
V 3( y )=
n 3.
∑ n ij ( y j− y 3 )2 = ∑ nij y 2j − y 23 =
n3 . 69
− ( 4 , 30 )2 ≈0 , 57

Martin NJOCKE, Docteur en Economie Page 87


CHAPITRE 6 : AJUSTEMENTSLINEAIRES ET
REGRESSION

Lorsque l’on forme un tableau croisé, l’interdépendance des caractères, si elle n’est pas

établie, est au moins plausible. Les moyennes et les variances conditionnelles sont des

indicateurs précieux de liaison supposée, mais sont souvent en nombre tel que leur concours

pratique est limité. D’autre part, les relations entre les caractères qualitatifs ne peuvent être

exprimées. Aussi définit-on un certain nombre de caractéristiques globales des distributions à

deux dimensions, mesures d’association ou de corrélation, qui donnent un ordre de grandeur

de l’intensité de la liaison. Si l’interdépendance est forte, les propriétés optimales des courbes

de régression suggèrent une méthode de détermination analytique de la liaison.

I. Indicateurs de liaison entre deux caractères

Il est fréquent sur une population donnée de s’intéresser en même temps à l’âge, à la taille, au

poids, à la situation matrimoniale, etc., des individus qui la composent. De même, pour

l’étude de certains phénomènes complexes, il s’avère insuffisant de ne prendre en compte

qu’un seul caractère ; il faut donc considérer deux, sinon plus. Les méthodes statistiques

Martin NJOCKE, Docteur en Economie Page 88


permettant de traiter toutes ces variables à la fois sont assez complexes et relèvent de

l’analyse des données multidimensionnelles.

Nous nous contentons ici d’aborder l’étude simultanée de deux variables statistiques. Elles

sont présentées généralement sous forme de tableaux statistiques à double entrée. Dans tous

les cas, nous considérons des échantillons appareillés, c'est-à-dire que les deux variables

étudiés auront été observées sur le même ensemble d’individus à un instant fixe ou aux

mêmes instants sur le même individu.

Indice de corrélation fonctionnelle


I.1.

Lorsque la valeur numérique des observations faites est porteuse d’information, nous devons
en tenir compte pour mesurer le degré de liaison entre les caractères étudiés.

I.1.1. Covariance de deux séries statistiques

I.1.1.1. Définition

ω
On considère N individus notés i , sur lesquels on observe simultanément deux variables
ω x y
quantitatives X et Y , dont les observations sur i sont respectivement i et i .

N N
1 1
x= ∑ x i y= ∑ y i
La moyenne de X est : N i=1 et celle de Y est : N i=1

N N
1 1
Var ( X )= ∑ ( x i −x )2 Var (Y )= ∑ ( y i − y )2
La variance de X est : N i=1 et celle de Y est : N i=1

Martin NJOCKE, Docteur en Economie Page 89


C
On appelle covariance de X et Y , la quantité notée xy ou Cov ( X , Y ) :

N
1
C xy = ∑ ( x i−x )( y i− y )
N i=1

Remarques :


C =C yx . La covariance est un indice symétrique.
Il est clair que xy


C
Si X et Y sont confondues, xy est la variance de cette variable unique.

 Si chaque individu
ω i est affecté d’un poids pi , la covariance s’écrit :
N
1
C xy = ∑ p i ( x i−x )( y i − y )
N i=1
 Dans le cas particulier où X et Y sont des variables centrées, il vient :
N N
1 1
C xy = ∑
N i=1
x i yi C xy = ∑ p i xi y i
N i=1
ou

I.1.1.2. Expression développée


N N N N
1 1 1 1
C xy =
N
∑ ( x i−x )( y i− y ) = N
∑ x i y i−x N
∑ y i− y
N
∑ x i +x y
i=1 i=1 i=1 i=1
N
1
=
N
∑ x i y i−x y−x y +x y
i=1
N
1
=
N
∑ x i y i−x y
i=1

N N
1 1
x= ∑ x i y= ∑ y i
Car N i=1 et N i=1

I.1.1.3. Conséquences de deux transformations affinées données

Définissons deux nouvelles variables :

Z=aX +b

T =cY + d

a,b,c ,d étant des réels quelconques. On sait que l’on a :

Martin NJOCKE, Docteur en Economie Page 90


z=a x +b ett=c y+d

La covariance de Z et T va s’écrire :

N
1
C ZT =
N
∑ ( z i−z )( t i−t )
i=1
N
1
=
N
∑ [ ( ax i +b )−( a x +b ) ][ ( cy i +d ) −( c y +d ) ]
i=1
N
1
=
N
∑ ( ax i−a x )( cy i−c y )
i=1
N
1
=a . c ∑ ( x i−x )( y i − y )
N i=1
=a . c .C XY

Donc C ZT =a . c . C XY

La covariance est un opérateur bilinéaire.

I.1.2. Coefficient de corrélation linéaire

I.1.2.1. Définition

On appelle coefficient linéaire de Bravais Pearson, la quantité :

C XY
r XY =
σ X σ Y où σ X et σ Y sont des écarts types respectifs de X et Y .

Martin NJOCKE, Docteur en Economie Page 91


Exemple 1

On considère les observations suivantes :

X 2 5 6 9 13
Y 3 4 8 12 13

2+5+6+ 9+13
x= =7
5

3+ 4+8+ 12+ 13
y= =8
5

4 +25+36+ 81+ 169


V ( X )= −( 7 )2 =63−49=14
5

9+16+64 +144+169
V (Y )= −( 8 )2 =80 , 4−64=16 , 4
5

σ X =√ V ( X )=√ 14=3 ,74

σ Y = √V (Y )=√ 16 , 4=4 , 04

σ X σ Y =3 ,74×4 , 04=15 , 1

1
C XY = ( 2×3+5×4 +6×8+9×12+13×13 )−( 7×8 )=14 , 2
5

14 , 2
r XY = =0 , 94
15 , 1
I.1.2.2. Propriétés

I.1.2.2.1. Symétrie

Il est évident quer XY =r YX . Le coefficient de corrélation linéaire est donc un coefficient


d’interdépendance dans lequel X etY jouent des rôles identiques.

I.1.2.2.2. Signification

*On peut montrer que


|r XY|≤1

Martin NJOCKE, Docteur en Economie Page 92


*Sir XY =+1 , il existe une relation linéaire parfaite entre X etY , autrement dit, il est possible
d’écrire Y =aX +b (ou X =cY + d ). Le coefficient a est positif, ce qui signifie que X etY
varient dans le même sens et que la droite d’équation Y =aX +b est ascendante.

*Sir XY =−1 , a est négatif, X et Y varient en sens contraire et la droite d’équation


Y =aX +b est descendante.

*Sir XY =0 , on peut montrer qu’il n’existe aucune forme de liaison linéaire entre X etY . On
dit que ces deux variables sont non corrélées linéairement.

Il est important de noter qu’en dehors de ces valeurs particulières, la liaison linéaire entre X

et Y est d’autant meilleure quer XY est grand. C’est pour toutes ces raisons que l’on utilise
r XY comme mesure de « l’intensité » ou « degré » de liaison linéaire entre deux variables

quantitatives.

r XY mesure la liaison linéaire ; lorsqu’il est nul ou voisin de zéro, cette liaison est

inexistante ; mais il peut dans ce cas exister une liaison fonctionnelle non linéaire, qui peut

même être très forte. Il faudra donc être prudent lorsqu’on interprétera un coefficient r XY
voisin de zéro.

Exemple 2

X et Y liées par la relationY = X 2 et supposons que leurs


Considérons deux variables
observations sur cinq individus aient donné les résultats suivants :

X
-2 - 0 1 2

1
Y
4 1 0 1 4 −2−1+0+ 1+ 2
x= =0
5
4+1+0+1+ 4
y= =2
5

(−2)×( 4 )+(−1 )×( 1 )+ 0×0+ 1×1+2×4


C XY = −( 0×2 )=0
5

Martin NJOCKE, Docteur en Economie Page 93


Donc r XY = 0 et par suite, X et Y sont non corrélées linéairement bien que parfaitement liées
2
par une liaison paraboliqueY = X .

I.1.2.2.3. Conséquence de deux transformations affines des données

Définissons deux variables :

Z=aX +b et T =cY + d aveca,b,c ,d , des réels quelconques (on suppose simplement ici

que a et c sont non nuls).

2
On sait que l’on a : Var ( Z )=a Var ( X ) etVar(T )=c 2 Var (Y ) .

σ =|a|σ X et σ T =|c|σ Y
On en déduit : Z

C ZT a . c . C XY
r ZT = = =±r XY
De plus, on a : σ Z σT |a||c|σ X σ Y

r ZT etr XY sont donc égaux si a et c sont de même signe, et opposés dans le cas contraire.

I.2. Indice de dépendance

Dans de nombreux problèmes, il n’est pas suffisant de mesurer le degré de liaison


fonctionnelle entre deux caractères. On se pose alors le problème de savoir si la connaissance
de l’un des caractères apporte une information sur la distribution de probabilité de l’autre
caractère. C’est une étude de dépendance.

On considère deux variables X et Y , chacune supposée catégorielle (c'est-à-dire quantitative


continue groupée en classes ou quantitative discrète ou qualitative). Soient k etl , leurs
nombres respectifs de modalités ou de classes (on peut supposerk ≤l ).

On réalise N observations sur X etY , on construit la table de contingence associée ;on

appelle respectivement
nij et f ij , l’effectif et la fréquence observés simultanément dans la
nij
Y f =
modalité M iX de X et la modalité M j de Y : ij N

Martin NJOCKE, Docteur en Economie Page 94


On cherche alors à construire un indice de liaison, d’association entre X et Y à partir de la
table de contingence qui se présente sous la forme suivante :

Martin NJOCKE, Docteur en Economie Page 95


Y M Y1 … M Yj … ∑ ¿¿
X
M 1X n11 … n1 j … n1 .

… … … … … …
M iX ni 1 … nij … ni .

… … … … … …
M kX nk 1 … n kj … nk .

∑ ¿¿ n. 1 … n. j … n. .=N

nij M iX M Yj
: nombre d’individus ayant pris simultanément la modalité de X et la modalité

de Y .

ni . M iX
: nombre total d’individus ayant pris la modalité de X .

n. j M Yj
: nombre total d’individus ayant pris la modalité deY .

I.2.1. Khi-deux de contingence

I.2.1.1. Définition

Il est possible d’associer un espace de probabilité à toute table de contingence et de considérer


alors X et Y comme des variables aléatoires.

En faisant référence à cette conception probabiliste des tables de contingence, nous dirons par
définition que deux variables statistiques catégorielles X et Y sont non liées si les variables
aléatoires correspondantes sont indépendantes en probabilité.

Notons{
X = M iX } X
, l’évènement « apparition de la modalité M i de X » et
Y = M Yj }
, {
l’évènement « apparition de la modalité
M Yj de Y ».

Appelons I , l’ensemble { 1 , 2 ,. .. k } et J , l’ensemble{ 1, 2 ,. .. l } .

L’indépendance en probabilité de X et Y se traduit alors par l’ensemble des relations :

Martin NJOCKE, Docteur en Economie Page 96


p { X = M iX et Y = M Yj } = p ¿ ¿
n ij
Nous avons vu que l’on a :
[{ {
p X= M iX } et Y = M Yj } = ] N

D’autre part, on a :
{
p X= M iX } =
ni .
N et {
p Y = M Yj }=
n. j
N

Les relations précédentes sont donc équivalentes à :

nij ni .×n. j
= ∀ ( i , j ) ∈ I ×J
N N2

Ce sont ces dernières relations que nous prendrons comme définition de l’état de non liaison
entre X et Y .

La mesure de la liaison entre X et Y va se f aire à partir des écarts entre chaque effectif
nij et
ni.×n. j
chaque quantité N que l’on appelle effectif théorique (en cas de non liaison, c'est-à-dire
sous l’hypothèse d’indépendance en probabilité).

Pour éviter des problèmes de signes et pour des raisons mathématiques, ces écarts sont
considérés au carré ; chaque carré est ensuite divisé par l’effectif théorique correspondant
pour obtenir une quantité relative.

( )
k l 2
N n ×n
χ =∑ ∑ 2
n ij− i. . j
Leur somme globale I=1 J =1 ni.×n. j N est appelée le khi-deux de

contingence, et est utilisée pour mesurer la liaison entre X et Y .

En développant l’expression du khi-deux de contingence, on obtient l’expression simplifiée

suivante :

( n2ij
)
k l
χ =N ∑ ∑
2
−1
I =1 J =1 ni . ×n. j

C’est en général cette dernière expression que l’on utilise pour calculer la valeur du khi-deux.

Martin NJOCKE, Docteur en Economie Page 97


Exemple 3

On considère la table de contingence suivante sur laquelle on a calculé les marges :

Y M Y1 M Y2 M Y3 ∑ ¿¿
X
M 1X 6 1
3 10

M 2X 0 6
4 10

∑ ¿¿ 6
7
7 20

k=2 ; l=3 ; N =20

χ 2 =20 ( 62
+
1
+
32
6×10 7×10 7×10
+0+
62
+
42
7×10 7×10
−1 ≈9 , 714 )
I.2.1.2. Propriétés

I.2.1.2.1. le khi-deux est positif ou nul et n’est pas borné

Par définition, le khi-deux est toujours positif ou nul. De plus, si on considère une table de

contingence quelconque de khi-deux non nul, en multipliant chaque effectif


nij par un entier
r strictement positif, le khi-deux est multiplié par r : le khi-deux de contingence n’est donc

pas borné.

2
Il est clair que si χ =0 , alors X et Y sont indépendantes en probabilité et réciproquement.

Par ailleurs, N , k , l, étant fixés, le khi-deux est par construction d’autant plus grand que la
liaison entre X et Y est forte.

I.2.1.2.2. le khi-deux dépend de N ,k ,l


N ; nous pouvons aussi montrer qu’il est
Nous avons vu comment le khi-deux est fonction de
fonction de k et de l .

Martin NJOCKE, Docteur en Economie Page 98


En effet, si l’on regroupe deux lignes (ou deux colonnes) d’une table de contingence donnée

en additionnant leurs effectifs, alors le khi-deux n’est pas modifié si les effectifs de ces deux

lignes (ou de ces deux colonnes) sont non proportionnels, il diminue sinon.

Etant donné deux variables catégorielles, en général, le khi-deux est d’autant plus petit que le

nombre de modalités définies sur ces variables est faible ; inversement, plus on augmente le

nombre de modalités de chaque variable, plus le khi-deux est élevé.

II. Régression linéaire par la méthode des moindres carrés

II.1. Présentation de la méthode

On considère deux variables quantitatives X et Y observées sur N individus. Les

résultats des observations sont présentés dans le tableau ci-dessous :

Individu ω1 ω2 … ωi … ωN
s
X x1 x2 … xi … xN
Y y1 y2 … yi … yN

X et Y par la méthode des moindres carrés, c’est rechercher les


Faire la régression linéaire de
y =ax i +b+ ε i qui minimisent la quantité :
constantes a et b ou plus précisément le modèle i
N N
E=∑ ( y i −ax i−b ) = ∑ ε 2i
2

i=1 i=1

ε i représente l’erreur de spécification (différence entre le modèle vrai et le modèle spécifié),


cette erreur est inconnue et restera inconnue.

Martin NJOCKE, Docteur en Economie Page 99


En représentant graphiquement les individus du tableau précédent, on obtient le nuage des
points. Cette représentation permet de mieux comprendre la signification de la quantité E à
minimiser.

N
E=∑ ε 2i
ε i est la «distance » des points du nuage à la droite. Par conséquent, i=1
On voit que est
y i =ax i +b
la somme des carrés des distances des points du nuage à la droite d’équation .

La méthode des moindres carrés cherche donc à trouver parmi toutes les droites du plan, celle
qui minimise la quantité E . La droite ainsi obtenue s’appelle : droite de régression linéaire
(ou d’ajustement linéaire) de Y sur X . C’est la droite qui est « globalement la plus proche de
l’ensemble des points du nuage ».

II.2. Recherche de la droite de régression linéaire

N
E=∑ ( y i −ax i−b )2
La quantité i=1 est fonction de a et b qui minimisent E , on doit résoudre le
système suivant :

{ {
N N

{
∂E ∑ −2( yi−axi−b) xi=0 N ∑ ( yi−axi−b) xi=0 (1)
∂E ∂a =0
⇔ ¿∑ ( yi−axi−b)= 0 (2)
N
¿ ∂b =0 ⇔ ¿ ∑ −2( yi−axi−b )=0i=1 i=1

i=1 i=1

N N N N
∑ ( y i−ax i−b )( x i−x ) = ∑ ( y i−ax i−b ) x i −x ∑ ( y i−ax i−b )=∑ ( y i−ax i−b ) xi
i=1 i=1 i=1 i=1 car
N
∑ ( y i−ax i−b )=0
i=1 d’après l’équation (2) du système.

Le système précédent devient :

{
N
N ∑ ( yi−axi−b )(xi−x)=0 (1')
¿ ∑ ( yi−axi−b)=0 (2) i= 1
i= 1

Martin NJOCKE, Docteur en Economie Page 100


L’équation (2) équivaut à :

N N
⇔ ∑ y i−a ∑ x i −Nb=0
i=1 i=1
N N
⇔ Nb=∑ y i−a ∑ xi
i=1 i=1
N N
1 a
⇔b= ∑ y i − ∑ x i
N i=1 N i=1
⇔b= y −a x (3 )

En remplaçant l’équation (3) dans l’expression de l’équation (2), on a :

N N
∑ ( y i−ax i− y +a x )( x i −x ) =0 ⇔ ∑ [ ( y i − y )−a ( x i−x ) ] ( x i −x )=0
i=1 i=1
N N
⇔ ∑ ( y i − y )( x i−x ) −∑ a ( xi −x )2 =0
i=1 i=1
N N
⇔ ∑ ( y i − y )( x i−x ) = ∑ a ( x i− x ) 2
i=1 i=1

En notant â la valeur trouvée de a , on obtient :

N
∑ ( x i−x )( y i − y ) Cov ( X , Y )
â= i=1 N
= (4)
Var ( X )
∑ ( x i−x ) 2

i=1

^
En remplaçant l’équation (4) dans l’équation (3), la valeur b de b devient :

^ y− a^ x
b=

^y i =a^ x i + b^ est la droite de régression linéaire de Y sur X . Elle


Ainsi, la droite d’équation
doit être représentée dans le nuage de points.

II.3. Mesure de la qualité de la régression

^y i =a^ x i + b^ est la valeur approchée de y i par la droite.

Martin NJOCKE, Docteur en Economie Page 101


La série statistique
^y i , i=1,2,..., N , est la série des valeurs approchées. On montre qu’elle a :

 Pour moyenne
^y i = y


(^) 2
Pour variance V Y =r XY V ( Y ) oùr XY est le coefficient de corrélation linéaire de
X et Y .

En approchant
y i par ^y i , on commet une erreur de spécification ε i= y i − ^y i

La série
ε i ; i=1 , .. ., N est la série des erreurs. On montre que cette série a :

 Pour moyenne ε =0
V ( ε ) =(1−r 2XY ) V (Y )
 Pour variance

^
On constate alors V ( Y )=V ( Y ) +V ( ε ) où :

V ( Y ) : variance totale

V ( Y^ ) : variance expliquée par la régression

V ( ε ) : variance résiduelle

La régression linéaire de Y sur X est d’autant meilleure que la variance expliquée est grande
par rapport à la variance totaleou que la variance résiduelle est petite par rapport à la variance
totale.

On mesure la qualité de la régression en calculant le coefficient de corrélation linéaire r XY :

- Si
|r XY |≈0 ⇔V ( Y^ ) =r 2XY V ( Y )≈0 , alors la régression est mauvaise.

- Si
|r XY|≈1 ⇔V ( ε )=(1−r 2XY ) V ( Y )≈0 , alors la régression est bonne.

Remarques

1) Lorsqu’on fait la régression linéaire de Y sur X par la méthode des moindres carrés,
on veut trouver entre Y et X , une relation du type :Y =aX +b .

Martin NJOCKE, Docteur en Economie Page 102


2) La variable X s’appelle variable explicative et Y s’appelle variable à expliquer. Donc
faire la régression linéaire de Y sur X revient à expliquer Y linéairement par X . Ainsi
si nous avons à notre disposition deux variables quelconques, il ne suffit pas
seulement d’avoir un coefficient de corrélation proche de un pour faire la régression, il
faut aussi savoir s’il y a une liaison réelle entre les deux variables et savoir quelle est
la variable explicative et quelle est la variable à expliquer.
III. Régression linéaire par la méthode de Mayer

Cette méthode consiste à :

 Déterminer deux – groupes d’effectif égal ;


 Calculer les coordonnées du point moyen de chaque sous – groupe ;
 Déterminer a et b . Les coordonnées des points moyens vérifient l’équation de la
droite dite de Mayer.

Quelquefois il est difficile de diviser la série étudiée en deux groupes d’égale importance,
notamment quand le nombre de modalités de la variable est impair.

Par ailleurs résumer chaque sous – groupe à son point moyen comme le fait la méthode de
Mayer peut paraître une approche grossière. Toutefois, cela constitue une première approche
qui peut se révéler suffisante dans certaines études.

IV. Travaux pratiques

*TP 1

Dans une banque, une enquête sur le tabagisme donne les résultats ci-dessous :

Y Hommes Femmes
X
Fumeurs 420 75
Non – Fumeurs 280 225

Martin NJOCKE, Docteur en Economie Page 103


1) Calculez les effectifs théoriques
2) Calculez le khi-deux de contingence

*Solution

1)

. Le nombre total d’individus interrogés est N 1 =420+ 75+280+225=1000

. Le nombre de femmes est N 2 =75+225=300

. Le nombre de femmes qui fument est


N 3 =75

420+75
p1 = =0 , 495
. La proportion de fumeurs est 1000

420
p2 = =0 , 60
. La proportion de fumeurs parmi les hommes est 700

75
p3 = ≈0 ,15
. La proportion de femmes parmi les fumeurs est 420+ 75

Dressons le tableau complété par les sommes et les effectifs théoriques

Y Hommes Femmes ∑ ¿¿
X
Fumeurs 420 75 495
346,5 148,5
Non – Fumeurs 280 225 505
353,5 151,5
∑ ¿¿ 700 300 1000

N.B : Les effectifs théoriques sont en gras et placés en dessous de chaque effectif observé.

495×700
n1 = =346 , 5
L’effectif théorique associé à l’effectif observé 420 est 1000

495×300
n2 = =148 , 5
L’effectif théorique associé à l’effectif observé 75 est 1000

Martin NJOCKE, Docteur en Economie Page 104


505×700
n3 = =353 ,5
L’effectif théorique associé à l’effectif observé 280 est 1000

505×300
n 4= =151 , 5
L’effectif théorique associé à l’effectif observé 225 est 1000

2) Le khi-deux de contingence vaut :

2 ( 420−346 , 5 )2 ( 75−148 ,5 )2 ( 280−353 , 5 )2 ( 225−151 ,5 )2


χ= + + + ≈102 , 91
346 , 5 148 ,5 353 ,5 151 ,5

On en déduit que les deux caractères X et Y sont dépendants, plus précisément le fait de
fumer dépend du sexe, autrement dit les hommes et les femmes ne se comportent pas de la
même manière vis-à-vis de la cigarette dans cette banque.

2
N.B : Pour certaines valeurs du χ , il est difficile de choisir entre la dépendance et
l’indépendance de X etY . Seul un test statistique permettra de faire ce choix, mais bien sûr
avec un risque d’erreur.

*TP 2

Lors d’une étude statistique sur une série double portant sur 12 points, on désire étudier la

relation existant entre x et y suivant le modèle y=ax+b :

∑ x i =117 ; ∑ yi =22 , 2 ; ∑ x i y i =255 , 8 ; ∑ x 2i =1421 ; ∑ yi2=46 , 74 ; V ( x )≈23 , 35 ;

V ( y )≈0 , 47 ;Cov ( x , y )≈3 , 28 ; x=9,75 ; y=1,85.


*Solution

Soit le modèle y=ax+b :

Cov ( x , y ) 3 ,28
â= = ≈0,14
Var ( x ) 23 , 35

^ y− a^ x=1,85−0,14×9,75≈0 ,485
b=

D’où la droite de régression linéaire :

Martin NJOCKE, Docteur en Economie Page 105


^
^y = a^ x+ b=0,14 x+0,485

Cov ( x , y ) 3 , 28
r xy = = ≈0 , 99
σ ( x ) σ ( y ) √ 23 , 35×√ 0 , 47

r xy →1 , par conséquent la régression est bonne

*TP 3

Soient les informations consignées dans le tableau ci – dessous :

Année t 1990 1991 199 1993 1994 1995 199 1997


2 6
Tonnage 58 60 62 65 68 70 72 74
Yt

1) Déterminer l’équation de la droite d’ajustement par la méthode de Mayer.


2) Déterminer l’équation de la droite d’ajustement par la méthode des moindres carrés
ordinaires.
3) En déduire la prévision pour l’année 2000 en utilisant les deux méthodes.

*Solution

1) Méthode de Mayer :
Y t =at+b

Année
Tonnage
Yt
t
Groupe 1990 1 58
A
1991 2 60
1992 3 62
1993 4 65

∑ - 10 245

Groupe 1994 5 68

Martin NJOCKE, Docteur en Economie Page 106


B
1995 6 70
1996 7 72
1997 8 74

∑ - 26 284

{
10
t = =2,5
A ¿ Y A=2454 =61,25 A 4

B {¿
26
284 tB = 4 =6,5
Y B= =71
4

Martin NJOCKE, Docteur en Economie Page 107


La droite de Mayer passe par les points moyens. Leurs coordonnées vérifient son équation.

{¿Y =at +bY =at +b ⇔{¿ 71=6,5a+b


B B
A A
(2)61,25=2,5a+b (1)

( 2)−( 1) ⇔ 4 a=9 , 75⇔ a=2 , 4375

D’où b=71−6 ,5×2 , 4375=55 , 16

Y =2,4375t +55,16
Par conséquent t

2) Méthode des MCO :


Y t =at+b

a=
∑ tY t −nt Y
∑ t2−n t 2
Tableau de calcul

t Yt tY t t2
1 58 58 1
2 60 120 4
3 62 186 9
4 65 260 16
5 68 340 25
6 70 420 36
7 72 504 49
8 74 592 64

∑ 36 529 2480 204

36
t = =4 ,5
8

Y =66 , 125

2480−8×4 , 5×66 ,125


a= =2 , 369
204−8×( 4 , 5)2
b=66 , 125−2 , 369×4 , 5=55 , 46

Martin NJOCKE, Docteur en Economie Page 108


Y =2,369t+55,46
D’où t

3) Prévision pour l’année 2000. 2000 correspondant à t=11

 Selon l’ajustement de Mayer


Y 2000 =2,4375×11+55,16=81,97 , soit 82 tonnes.

 Selon la méthode des MCO


Y 2000 =2,369×11+55,46=81,52 , soit 82 tonnes.

*TP 4

Soient les données inscrites dans le tableau ci – dessous :

x
4,9 4,1 5, 8,6 4,6
5
y 45 7 40 50 25

1) Déterminer l’équation de la droite de régression de y en fonction de x .


2) Déterminer l’équation de la droite de régression de x en fonction de y .
3) Calculer le coefficient de corrélation linéaire.
4) Calculer la valeur de y si x=5 , 2 .

*Solution

1) y en fonction de x : y=ax+ b

Tableau de calcul

x
y xy
x2 y2
4,9 45 220,5 24,01 2025
4,1 7 28,7 16,81 49
5,5 40 220,0 30,25 1600
8,6 50 430,0 73,96 2500
4,6 25 115,0 21,16 625

∑ 27,7 167 1014,2 166,1 6799


9

Martin NJOCKE, Docteur en Economie Page 109


a=
∑ xy−n x y
∑ x 2−n x 2
x=27,7/5=5,54
y=167/5=33,4
1014 , 2−5×5 , 54×33 , 4
a= =6 , 99
166 , 19−5×(5 , 54 )2

y=ax+b⇔ y=ax+b⇔b= y−a x


b=33 , 4−6 , 99×5 ,54=−5 , 32

D’où y=6 , 99 x−5 ,52

2) x en fonction de y : x=a ' y+b'

'
a=
∑ xy−n x y =1014 ,2−5×5 ,54×33 , 4 =0,0729
∑ y 2−n y 2 6799−5×(33 , 4)2
x=a ' y+b' ⇔ x=a' y+b' ⇔b ' =x−a ' y

b ' =5,54−0,0729×33,4=3,105
D’où x=0 , 0729 y +3 , 105

3) Coefficient de corrélation

r=√ a×a' =√ 6,99×0,0729=0,713 (faible).

4) x=5 , 2⇒ y=6 ,99×5 , 2−5 , 32=31 , 028

Martin NJOCKE, Docteur en Economie Page 110


CHAPITRE 7 : LES INDICES
Les indices permettent d’effectuer des comparaisons sur un phénomène comparatif quantitatif
entre deux périodes de temps et de mettre en évidence l’évolution de ce phénomène. Les
indices peuvent aussi servir de comparaison entre deux entreprises ou deux pays au temps t .

I. Les indices simples

Un indice simple ou élémentaire est le rapport entre les valeurs d’un élément (prix, volume,
quantité, nombre de titres, cours…) prises à deux dates différentes. L’une de ces dates sert de
base.

pt
it =
0
p0

Epoque 0 : époque ou période de base ;

Epoque t : époque de calcul ou situation courante ;

p0 : prix à l’époque 0 ;

pt : prix à l’époque t .

pt
It = ×100 It
p0
0 où 0 représente l’évolution du prix du bien entre 0 et t .

A la période 0, l’indice est égal à 100. La base 100 est dite à l’époque 0.

I.1. Réversibilité des indices

Un indice élémentaire est réversible si :

1 10000
it = ⇔i t ×i 0 =1⇔i t ×100×i 0 ×100=10000 ⇔ I t ×I 0 =1000 ⇔ I t =
0
i0 0 t 0 t 0 t 0
I0
t t

I.2. Transférabilité des indices

Un indice élémentaire est transférable si :

Martin NJOCKE, Docteur en Economie Page 111


i t ×i 1 =i t I t ×I 1 =I t ×100
1 0 0 ou 1 0 0

Changer de base d’un indice présente un intérêt notamment quand il s’agit de le comparer
avec un indice de base différente. Ainsi, la période de base des indices est identique et la
comparaison possible.

II. Les indices synthétiques

Un indice synthétique groupe des indices simples de même nature. Il permet d’exprimer
l’évolution des prix ou des quantités d’une grandeur (ou panier) formée de plusieurs
grandeurs élémentaires, plusieurs produits par exemple.

Chaque indice simple est affecté d’un « poids » ou coefficient de pondération, différent selon
l’importance que l’on veut accorder à chaque produit. Le coefficient de pondération c ,
correspond à la part du produit i dans le panier :

pi 0 ×qi 0
c i 0= n
∑ pi 0 ×qi 0
- Par rapport à la période de base : i =1

pit ×qit
c it = n
∑ pit ×q it
- Par rapport à la période courante : i=1

Avec

pi0 : prixdu bieni à l’époque 0

qi0 : quantité du bieni à l’époque 0

pit : prixdu bieni à l’époque t

q it : quantité du bieni à l’époque t

La somme des pondérations effectuées est égale à 1.

II.1. Indice de Laspeyres

Martin NJOCKE, Docteur en Economie Page 112


Chaque indice de Laspeyres est la moyenne arithmétique des indices simples pondérés par les
coefficients de pondération de la période de base.

Martin NJOCKE, Docteur en Economie Page 113


II.1.1. Indice des prix

L’indice des prix de Laspeyres est la moyenne arithmétique des indices élémentaires des prix
pondérés par le coefficient de la période de base :

L( p)t =∑ ci0×I( p)t


0 0
pi0×qi0 p
=∑ × it ×100
∑ pi0×qi0 pi0
=
1 pit
×∑ p ×q ׿ ×100 ¿ =
∑ pit ×qi0
×100
∑ pi0×qi0 i0 i0 pi0 ∑ pi0×qi0
L( p)t =
∑ p it ×qi 0 ×100
Soit 0 ∑ pi 0 ×qi 0

Cette dernière formule est utilisée de préférence pour calculer la valeur de l’indice.

Exemple

Pour trois produits consommés par une famille, la dépense et les prix ont été les suivants
pendant deux périodes :

Prix Valeur de la dépense


Périodes 0 1 0 1
1 Poissons 5,93 30,65 64,05 437,38
(kg)
2 Œufs (dz) 5,41 12,50 62,38 187,25
3 Viande (kg) 30,82 91,41 481,41 1678,29

∑ - - - 607,84 2302,92

Le coefficient de pondération correspond à la part du produit dans le panier.

Ainsi, à la période de base 0, le coefficient de pondération de chacun des produits s’établit


comme suit :

Martin NJOCKE, Docteur en Economie Page 114


64 , 05
c 10= =0 ,105
Poissons : 607 ,84

62 , 38
c 20= =0 ,103
Œufs : 607 ,84

481 , 41
c 30= =0 ,792
Viande : 607 ,84

L’indice élémentaire des prix pour chaque produit est le suivant :

p1
I1 = ×100
0
p0

30 , 65
I1 = ×100=516 , 9
5 , 93
Poissons : 0

I 1 =231 , 1
Œufs : 0

I 1 =296 , 6
Viande : 0

L’indice des prix de Laspeyres est la moyenne arithmétique de ces indices pondérés par les
coefficients précédents :

L( p)1 =0 , 105×516 , 9+0 ,103×231 ,1+0 ,792×296 ,6


0
=313

L’application de la formule directe de calcul donne le tableau suivant :

Martin NJOCKE, Docteur en Economie Page 115


Prix Quantités p0 q0 p1 q 0
Périodes 0 1 0 1
1 Poissons (kg) 5,93 30,6 10,80 14,27 64,05 331,02
5
2 Œufs (dz) 5,41 12,5 11,53 14,98 62,38 144,13
0
3 Viande (kg) 30,82 91,4 15,62 18,36 481,4 1427,82
1 1

∑ - - - - - 607,8 1902,97
4

Ainsi par application de la formule, on obtient :

1902 , 97
L( p)1 = ×100=313
0
607 , 84

Les prix ont ainsi augmenté de 313 – 100 = 213% entre la période 0 et la période 1.

II.1.2. Indice des quantités

L’indice des quantités de Laspeyres est la moyenne arithmétique des indices élémentaires des
quantités pondérés par le coefficient de la période de base.

L( q )t =∑ c i 0 ×I ( q )t
0 0

De la même façon, on utilisera de préférence dans les calculs la formule suivante :

L( q )t =
∑ pi 0×qit ×100
0 ∑ p i 0 ×q i 0
D’après l’exemple précédent, l’indice des quantités vaut :

5 ,93×14 , 27+5 , 41×14 , 98+30 , 82×18 ,36 731 , 52


L(q )t = ×100= ×100=120
0
607 , 84 607 , 84

Les quantités ont augmenté de 120 – 100 = 20 % entre la période 0 et la période 1.

Remarque :

Martin NJOCKE, Docteur en Economie Page 116


Sur les formules de calcul de Laspeyres :

 Au dénominateur de la formule se trouve la valeur du panier de produits à la période

0 : ∑ pi 0 ×qi 0 .
 Au numérateur :
- De l’indice Laspeyres des prix, les quantités de la période 0 sont conservées ; les prix
sont ceux de la période t .
- De l’indice Laspeyres des quantités, les prix de la période 0 sont conservés ; les
quantités sont celles de la période t .

II.2. Indice de Paasche

Chaque indice de Paasche est la moyenne harmonique des indices pondérés par les
coefficients de pondération de la période actuelle.

II.2.1. Indice des prix

L’indice des prix de Paasche est la moyenne harmonique des indices simples pondérés par les
coefficients de pondération de la période actuelle.

n
1 1
=∑ c it ×
P( p )t i=1 I ( p )t
0 0
n
pit ×qit 1
=∑ n
×
p it
∑ pit ×qit
i=1
×100
i=1 p i0
n p ×q p i0
1
×∑
it it
= n
×
i=1 p it 100
∑ pit ×qit
i=1
n
∑ pi 0×qit
i=1 1
= ×
n 100
∑ pit ×qit
i=1
n
∑ pit ×qit
i=1
= n
×100
∑ pi 0×qit
i=1

Martin NJOCKE, Docteur en Economie Page 117


n
∑ p it ×q it
P( p )t = i=1
n
×100
0
∑ pi 0×qit
Soit i=1

Exemple

A la période t , le coefficient de pondération de chaque produit est le suivant :

437 , 38
c 11 = =0 , 190
Poisson : 2302 ,92

Œufs : c 21=0 , 081

Viande :
c 31=0 , 729

L’indice élémentaire des prix de chaque produit est identique. Ainsi, l’indice des prix de
Paasche, moyenne harmonique de ces indices pondérés par les coefficients précédents sera :

1 0 , 190 0 , 081 0 ,729


= + + =0 ,00317592
P ( p )1 516 , 9 231, 1 296 , 6
0

P( p )1 =315
D’où 0

L’application directe de la formule de calcul conduit au même résultat :

30 , 65×14 ,27 +12 ,50×14 , 98+91 , 41×18 ,36


P( p )1 = ×100
0
731 ,52
2302 , 92
= ×100=315
731 , 52

Les prix ont augmenté de 215 % entre les deux périodes.

II.2.2. Indice des quantités

L’indice des quantités de Paasche est la moyenne harmonique des indices simples des
quantités pondérés par la période actuelle.

Martin NJOCKE, Docteur en Economie Page 118


n
1 1
=∑ cit ×
P ( q )t i =1 I ( q )t
0 0

La formule suivante sera de préférence utilisée dans les calculs :

n
∑ pit ×qit
P(q )t = i=1
n
×100
0
∑ pit ×q i0
i=1

Exemple

2302 , 92
P(q )t = ×100=121
0
1902 , 97

L’ensemble des quantités a augmenté de 21 % entre 0 et t .

Martin NJOCKE, Docteur en Economie Page 119


Remarque :

Sur les formules de calcul de Paasche :

 Au numérateur de la formule, se trouve la valeur du panier de produits à la période t


n
∑ pit ×qit
(époque actuelle) : i=1 .
 Au dénominateur :
- De l’indice de Paasche des prix, les quantités de la période t sont conservées ; les prix
sont ceux de l’époque 0.
- De l’indice de Paasche des quantités, les prix de la période t sont conservés ; les
quantités sont celles de l’époque 0.

II.3. Indice de Fischer

Il a été proposé par le théoricien Fischer. Il est la moyenne géométrique des deux indices
Laspeyres et Paasche. Etant une moyenne, sa valeur est comprise entre les deux précédents :

P<F <L

F ( p )= √ L( p)×P( p )

F (q )=√ L(q )×P(q )

III. Les indices usuels de la vie économique

III.1. Indice des prix à la consommation

Il intègre les fluctuations des prix des produits frais et de l’habillement ainsi que la hausse
mensuelle des loyers.

Dans un indice de prix à la consommation, la pondération de chaque poste de dépense est


proportionnelle à la part de ce poste (coefficient budgétaire) dans la dépense totale de la
population prise comme référence.

III.2. Indice du coût de la construction

L’indice du coût de la construction (ICC) est un indice des prix de la construction de tous les
logements neufs à usage d’habitation. Les prix s’entendent toutes taxes comprises, mais

Martin NJOCKE, Docteur en Economie Page 120


honoraires d’architectures et de notaires, frais d’acquisition du terrain, voirie et raccordement
exclus. Cet indicateur de la hausse des prix de la construction sert aussi comme élément
d’indexation des loyers.

III.3. Indice de la production industrielle

Il est un des principaux indicateurs conjoncturels de suivi de l’économie. Il permet des


comparaisons internationales sur l’évolution de l’activité industrielle.

IV. Travaux pratiques

*TP 1 : évolution des prix de vente en rapport avec l’indice de l’Institut national de la
statistique et des études économiques

Une entreprise produit et vend principalement deux articles A et B dont l’évolution des prix
de vente unitaire hors – taxe et des quantités vendues est donnée ci – dessous avec l’évolution
de l’indice des prix à la consommation.

A B Indice Institut…
Pu q Pu q
199 8,40 100 24 500 100
0 0
199 8,80 140 25,1 620 107,8
3 0
199 9,45 190 26 830 109,7
4 0

1) Sans tenir compte des quantités vendues, comparer les indices d’évolution des prix de
A et B avec celui de l’Institut national de la statistique et des études économiques
(base 100 en 1990).
2) L’entreprise juge préférable de prendre 1993 comme nouvelle base. Indiquer une
relation simple permettant de calculer les nouveaux indices de A et B à partir des
anciens.

Martin NJOCKE, Docteur en Economie Page 121


3) Pour avoir une vue plus synthétique de l’évolution des prix des deux articles, calculer
en 1994, un indice des prix de A et B en tenant compte des quantités vendues :
- Selon la pondération de Laspeyres ;
- Selon la pondération de Paasche ;

Que conclure en comparant à l’indice de l’Institut national de la statistique et des études


économiques (base 100 en 1990).

*Solution TP 1

1) Base 100 en 1990

Indice Institut…
A 8 ,80 107,8
I 1993/1990 = ×100=104 ,8
8 , 40
9 , 45 109,7
I 1994/1990 = ×100=112 ,5
8 , 40
B 25 ,1 107,8
I 1993/1990 = ×100=104 , 6
24
26 109,7
I 1994/1990 = ×100=108 ,3
24

Pour les deux produits A et B , l’augmentation des prix entre 1990 et 1993 a été moins
importante que celle de l’indice de l’Institut. Pour la période totale 1990 – 1994, le prix du
produit A a augmenté plus que l’indice de l’Institut, le prix du produit B moins.

2) Base 100 en 1993

On sait que
I 93/90 ×I 90 /93=10000 (réversibilité).

1 1
I 90/93 = ×10000= ×10000=95 , 4
Pour A :
I 93 /90 104 , 8

1 1
I 90/93 = ×10000= ×10000=95 , 6
Pour B :
I 93 /90 104 , 6

Martin NJOCKE, Docteur en Economie Page 122


On sait que
100×I 94 /90=I 94 /93×I 93 /90 (Transférabilité).

I 94 /90 112 ,5
I 94 / 93= ×100= ×100=107 , 3
Pour A : I 93 /90 104 , 8

I 94 /90 108 ,3
I 94 / 93= ×100= ×100=103 , 5
Pour B : I 93 /90 104 , 6

3) Les indices de prix.

n
∑ p94 ×q 90
L( p) 94/90= i=1
n
×100
∑ p 90×q 90
Formule de Laspeyres : i=1

n
∑ p 94×q 94
P( p )94 /90 = i=1
n
×100
∑ p 90×q 94
Formule de Paasche : i=1

Tableau de calcul :

1990 1994 p94 ×q 90 p90×q90 p94 ×q 94 p90×q94


Pu q Pu q
A 8,40 100 9,45 1900 9450 8400 17955 15960
0
B 24 500 26 830 13000 12000 21580 19920

∑ ¿¿ 22450 20400 39535 35880

22450
L( p) 94/90= ×100=110, 05
20400

39535
P( p )94 /90 = ×100=110, 19
35880

Augmentation plus importante globalement que celle de l’indice de l’Institut.

Martin NJOCKE, Docteur en Economie Page 123


* TP 21 : le coût de la vie à Douala, Yaoundé et Bafoussam

Pour comparer le coût de la vie dans certaines villes camerounaises, on se fonde sur le budget

type d’un individu. Les prix ( p) et les quantités (q ) consommées de certains biens (exprimés
avec des unités convenables) dans ces villes sont indiqués dans le tableau ci – dessous :

Doual Yaoundé Bafoussam


a
q p q p q p
Logement 2 4 3 2 3 3
Nourritur 4 2 5 2 3 4
e
Santé 2 1 9 1 1 2

1) Calculer les indices de Laspeyres et de Paasche du coût de la vie :


- A Douala en prenant Yaoundé pour base ;
- A Yaoundé en prenant Douala pour Base.

Ces indices sont – ils réversibles ?

2) Calculer les indices du coût de la vie de Laspeyres :


- A Yaoundé en prenant Bafoussam pour base ;
- A Bafoussam en prenant Douala pour base.

L’indice de Laspeyres est – il transférable ?

*Solution TP 2

Douala = D Yaoundé = Y Bafoussam = B

1) Indice de Laspeyres du coût de la vie :

n
∑ pit ×q i0
L( p)= i=1
n
×100
∑ pi 0×qi 0
i=1

1
Cette étude permet d’utiliser des indices calculés dans des espaces différents et non à des périodes différentes.
Leur mode de calcul est identique. Il suffit d’adapter les formules de calcul connues.

Martin NJOCKE, Docteur en Economie Page 124


Tableau de calcul :

Douala Yaoundé p D×q Y pY ×q Y pY ×q D p D×q D


qD pD qY p
Logement 2 4 3 2 12 6 4 8
Nourritur 4 2 5 2 10 10 8 8
e
Santé 2 1 9 1 9 9 2 2

∑ ¿¿ 31 25 14 18

 A Douala en prenant Yaoundé pour base, avec t =Doualaet 0 = Yaoundé


n
∑ p D ×q Y
L( p) D /Y = i=1
n
×100
∑ p Y ×qY
i=1
31
= ×100=124
25
 A Yaoundé en prenant Douala pour base, avec t = Yaoundéet 0 = Douala
n
∑ p Y ×q D
L( p)Y /D= i=1
n
×100
∑ p D ×q D
i=1
14
= ×100=77 , 8
18
Indice de Paasche du coût de la vie :
n
∑ pit ×q it
P( p )= i=1
n
×100
∑ p i0×q it
i=1

 A Douala en prenant Yaoundé pour base, t =Doualaet 0 = Yaoundé

Martin NJOCKE, Docteur en Economie Page 125


n
∑ p D ×q D
P( p )D /Y =i=1
n
×100
∑ p Y ×q D
i=1
18
= ×100=128 , 6
14
 A Yaoundé en prenant Douala pour base, avec t = Yaoundéet 0 = Douala
n
∑ p Y ×qY
P( p )Y /D =i=1
n
×100
∑ p D ×q Y
i=1
25
= ×100=80 ,6
31

Réversibilité ?

L D /Y ×LY / D=124×77 , 8=9647 , 20≠10000


P D /Y ×PY /D=128 , 6×80 , 6=10365 ,16≠10000
On constate que l’indice de Laspeyres et l’indice de Paasche ne sont pas réversibles.

2) Indice du coût de la vie de Laspeyres


n
∑ p Y ×q B
L( p)Y /B = i=1
n
×100
∑ pB×q B
i=1
n
∑ p B×q D
L( p) B/ D= i=1
n
×100
∑ p D×q D
i=1

Tableau de calcul

Douala Yaoundé Bafoussam pY ×q B p B ×q B p B ×q D


qD pD qY p qB pB
Logement 2 4 3 2 3 3 6 9 6
Nourritur 4 2 5 2 3 4 6 12 16
e
Martin NJOCKE, Docteur en Economie Page 126
Santé 2 1 9 1 1 2 1 2 4
13 23 26
n
∑ pY ×q B
L( p)Y /B=i=1
n
×100
∑ p B×q B
i=1
13
= ×100=56 ,52
23

n
∑ p B×q D
L( p) B/ D= i=1
n
×100
∑ p D ×q D
i=1
26
= ×100=144 , 44
18

Transférabilité ?

56 , 52×144 , 44
L( p)Y /B ×L( p) B/ D= =81 , 64≠L( p )Y / D=77 , 8
100

L’indice de Laspeyres n’est pas transférable.

Martin NJOCKE, Docteur en Economie Page 127


CHAPITRE 8 : LES SERIES CHRONOLOGIQUES
On parle de série chronologique quand une série statistique est étudiée en fonction du temps.
La périodicité correspond à la séquence d’observation du phénomène sur une durée
déterminée. Selon le phénomène, les observations sont quotidiennes, hebdomadaires,
mensuelles, trimestrielles, etc.

I. Composantes des séries chronologiques

Dans une série chronologique, on trouve quatre composantes :

- Trend ou tendance T , composante de longue période ;


- Composante saisonnière S , composante de courte période ;
- Composante cyclique ou conjoncturelle C ;
- Composante résiduelle aléatoire A .

Chaque composante peut faire l’objet d’une analyse en vue de réaliser une prévision
économique. L’étude se limite à celle de deux composantes essentielles que sont T et S .

A partir de ces éléments, la série peut se décomposer :

- Soit selon le modèle additif : Y =T +S(+C+ A )

0 Temps

Le mouvement saisonnier a une amplitude constante (a ).

Martin NJOCKE, Docteur en Economie Page 128


- Soit selon le modèle multiplicatif : Y =T ×S (×C× A )

0 Temps
La modulation a une amplitude qui augmente avec le temps : c >b> a .

Les moyennes et les écarts – types calculés sur chaque période augmentent avec le temps. La
représentation graphique des écarts – types en fonction des moyennes montrent un alignement
des points.

II. Analyse de la tendance ou trend T

Elle peut se faire de plusieurs façons :

II.1. La méthode des moyennes mobiles

Soit une série de valeurs (Y t ) prises par la variable observée sur n périodes. On appelle

moyennes mobiles sur k périodes, la série de valeurs


M t , calculée comme suit :

 Si k est impair :
Y t − p +Y t − p−1 +. ..+Y t +Y t −1 +. . .+ Y t − p k −1
M t= p=
k ;avec 2
 Si k est pair :
Y t− p Y
−Y t − p−1 + .. .+ t −p
2 2 k
M t= p=
k ;avec 2.

Martin NJOCKE, Docteur en Economie Page 129


Les valeurs extrêmes sont divisées par 2 pour conserver l’équivalence de k valeurs
entières.

Exemple

Soit la série suivante concernant les ventes en quantités d’une entreprise :

Années Trimestre 1 Trimestre Trimestre 3 Trimestre 4


2
1993 36 52 18 32
1994 58 74 40 56
1995 82 98 64 80
1996 106 122 88 104
1997 130 146 112 128

A partir du 3e trimestre de 1993, calculer les totaux mobiles, les moyennes mobiles et les
coefficients saisonniers d’ordre 4.

Années Trimestre Rang Y Total Moyennes Coefficients


mobile mobiles saisonniers
TM M S=Y −M
1993 T1 1 36
T2 2 52

T3 3 18 149 37,25 -19,25

T4 4 32 171 42,75 -10,75


1994 T1 5 58 193 48,25 +9,75
T2 6 74 - - -

T3 7 40 - - -

T4 8 56 - - -
- - - - - -
- - - - - -

Pour 1993,
T 3 , le total mobile d’ordre 4 est obtenu de la façon suivante :

Martin NJOCKE, Docteur en Economie Page 130


TM =36 / 2+52+18+ 32+ 58/ 2=149

Et la moyenne mobile M =149 /4=37 , 25

Martin NJOCKE, Docteur en Economie Page 131


II.2. La méthode de Mayer

La détermination de la droite d’équation T =at +b représente la tendance (cf. chapitre


précédent).

II.3. La méthode des moindres carrés

L’estimation de la tendance est l’application directe de la technique de l’ajustement linéaire :


droite d’équation T =at +b avec :

n
∑ ti Y i −n t Y
a= i=1n
∑ t 2i −n t2
i=1

b=Y −a t

III. Analyse de la composante saisonnière

Elle a pour objet de déterminer la variation des valeurs de la variable d’une période à l’autre,
de mois en mois, de trimestre en trimestre, par exemple.

Pour cela, on calcule des indices ou coefficients saisonniers attachés à une période, à un mois,
à un trimestre particulier.

Y =T + S
III.1. Cas d’un modèle additif

- T , on obtient la composante saisonnière :


Après avoir déterminé la tendance
St =Y t −T t où T t correspond soit aux moyennes mobiles calculées précédemment,

soit aux valeurs ajustées de la variable obtenues en remplaçant t par la valeur


correspondante dans l’équation de la droite d’ajustement T =at +b .

-
St sont récapitulés par période dans un tableau.
Les résultats précédents

-
St
Le coefficient associé à une période est la moyenne arithmétique des
correspondants.
- La somme des coefficients saisonniers dans un modèle additif est nulle. Il est donc

nécessaire d’ajuster les coefficients trouvés pour rendre leur somme égale à zéro.

Martin NJOCKE, Docteur en Economie Page 132


- C retenu pour chaque période est donc une moyenne
Le coefficient saisonnier
corrigée.

Y =T ×S
III.2. Cas d’un modèle multiplicatif

La méthode habituellement utilisée pour déterminer les coefficients saisonniers est celle des

rapports à la tendance.

-
T t grâce à l’équation de la droite d’ajustement mise en évidence au
Il faut calculer les
deuxième paragraphe (II), ou bien utiliser les moyennes mobiles si elles sont calculées
à la place de la droite d’ajustement.
Y t (Y observé)
×100
- T t (Y ajusté ) .
Il faut aussi calculer les rapports
- Les rapports sont classés par périodes dans un tableau récapitulatif.
- Le coefficient associé à une période est la moyenne arithmétique des rapports

correspondants.
- La somme des coefficients saisonniers doit être égal à 400 si des coefficients

trimestriels sont recherchés (100 × 12 mois). Il faut donc ajuster les coefficients

trouvés.

- C retenu pour chaque période est donc une moyenne


Le coefficient saisonnier
corrigée.
IV. Dessaisonalisation de la série temporelle

Il s’agit d’éliminer l’influence saisonnière pour ne garder que la tendance réelle. Pour chaque

période, on calcule alors la valeur dessaisonalisée de la variable, appelée plus couramment


CVS , corrigé des variations saisonnières.

IV.1. Cas d’un modèle additif

Valeur dessaisonalisée = Y observé - coefficient saisonnier C de la période .

IV.2. Cas d’un modèle multiplicatif

Martin NJOCKE, Docteur en Economie Page 133


Y observé
Valeur dessaisonalisée= ×100
Coefficient saisonnier C de la période

V. Prévisions

L’intérêt de cette analyse des séries chronologiques est de mettre en évidence la saisonnalité
de la variable de façon à réaliser des prévisions plus justes.

Pour les périodes à venir, on calcule les valeurs de la variable en utilisant l’équation de la

tendance. On obtient :
T t =at +b .

Il suffit ensuite d’y appliquer le coefficient saisonnier de la période désirée.

V.1. Cas d’un modèle additif

Y =T t +C

V.2. Cas d’un modèle multiplicatif

C
Y =T t ×
100

VI. Travaux pratiques

*TP 1 : trafic automobile

Sur une nationale, on a relevé le nombre de véhicules passant dans le sens Douala – Yaoundé
au cours des quatre dernières années. Les résultats sont regroupés dans le tableau suivant :

Trimestres 1994 1995 1996 1997


1er trimestre 455000 438000 513000 539000
2e trimestre 578000 665000 681000 685000

3e trimestre
763000 820000 864000 876000

4 e trimestre 563000 565000 605000 650000

1) Représenter graphiquement la série statistique donnée.

Martin NJOCKE, Docteur en Economie Page 134


2) Calculer les moyennes mobiles d’ordre 5 et les coefficients trimestriels en considérant
qu’il s’agit d’un modèle additif (on choisira les coefficients saisonniers avec la
moyenne), à partir du troisième trimestre de l’année 1994.
3) Calculer la série dessaisonalisée.

Martin NJOCKE, Docteur en Economie Page 135


*Solution

1) Représentation graphique

Véhicules
en milliers

900

800

700

600

500

400

300

200

100
Trimestres
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

2) Calcul des moyennes mobiles et détermination des coefficients saisonniers (en


milliers).

Explication des calculs du tableau 1

Total mobile pour t =5

Total mobile pour le 1er trimestre 1995 = 763 + 563 + 438 + 665 + 820 = 3249.

Moyenne mobile = Total mobile / 5 = 3249 / 5 = 649,80.

Le modèle étant additif, le coefficient saisonnier pour t =5 est le suivant :

438 – 649,80 = – 211, 80.

Martin NJOCKE, Docteur en Economie Page 136


Tous les coefficients sont classés par périodes et rassemblés dans le tableau 2.

Calcul de la moyenne pour le troisième trimestre : (203,6 + 219,8 + 223,6) / 3 = 215,67.

La somme des coefficients est égale à – 1. Elle doit être égale à 0. Il faut donc ajouter à
chaque coefficient 0,25 (=1/4), pour obtenir le coefficient saisonnier de chaque période.

C 3=215 ,67 +0 , 25=215 , 92 .


Ainsi, pour le troisième trimestre :

Tableau 1

Année t Y Total mobile Moyenne mobile Coefficients Y désaisonalisé

1994 1 455 642,15

2 578 543,02

3 763 2797 559,40 203,60 547,08

4 563 3007 601,40 -38,40 626,75

1995 5 438 3249 649,80 -211,80 625,15

6 665 3051 610,20 54,80 630,02

7 820 3001 600,20 219,80 604,08

8 565 3244 648,80 -83,80 628,75

1996 9 513 3443 688,60 -175,60 700,15

1 681 3228 645,60 35,40 646,02

1 864 3202 640,40 223,60 648,08

1 605 3374 674,80 -69,80 668,75

1997 1 539 3569 713,80 -174,80 726,15

1 685 3355 671,00 14,00 650,02

Martin NJOCKE, Docteur en Economie Page 137


4

1 876 660,08

1 650 713,75

Martin NJOCKE, Docteur en Economie Page 138


Tableau 2

1994 1995 1996 1997 Moyenne Coefficient


C
1er trimestre -211,80 -175,60 -174,80 -187,40 -187,15
2e trimestre 54,80 35,40 14,00 34,73 34,98

3e trimestre
203,60 219,80 223,60 215,67 215,92

4 e trimestre -38,40 -83,80 -69,80 -64,00 -63,75

∑ - - - - -1,00 0,00

3) Calcul des valeurs désaisonnalisées

Y désaisonnalisé =Y observé −coefficient de la période concernée.

Pour t =12 , soit le 4 trimestre, C 4 =−63 , 75


e

Y désaisonnalisé =605−(−63 , 75)=668 , 75 milliers

*TP 2 : Prévision de chiffre d’affaires

L’entreprise Félicité a enregistré ses ventes pendant les années N−2 , N−1 et N . Désireuse
de lancer un nouveau produit au début de l’année N +2 , elle a besoin de connaître sa
prévision de chiffre d’affaires pour l’année N +1 . Les ventes trimestrielles (en milliers de
francs) sont les suivantes :

N−2 N−1 N
Trimestre 2840 3020 3290
1
Trimestre 2570 2630 2480
2
Trimestre 2400 2420 2620
3

Martin NJOCKE, Docteur en Economie Page 139


Trimestre 4640 4260 3730
4

1) Représenter graphiquement la série statistique donnée.


2) Calculer, pour chaque année, la moyenne et l’écart – type correspondant. Représenter
l’écart – type en fonction de la moyenne. Quel modèle de décomposition doit – on
utiliser : additif ou multiplicatif ? Pourquoi ?
3) Déterminer la tendance de la série en utilisant la méthode des moindres carrés (droite
d’ajustement linéaire).
4) Considérer que le modèle est multiplicatif et calculer les coefficients saisonniers
trimestriels par la méthode des rapports à la tendance.
5) Désaisonnaliser la série.
6) Si la même tendance se poursuit, effectuer les prévisions trimestrielles de l’année
N +1 .
7) Indiquer et décrire brièvement les autres méthodes qui permettent de déterminer la
tendance d’une série chronologique.
8) Y a – t – il un autre modèle que le modèle multiplicatif ? Quel est – il ? Comment sont
alors déterminés les coefficients saisonniers ?

*Solution

1) Représentation graphique

C A en
milliers

4500

4000

3000
3500

2500

2000

1500

1000
Martin NJOCKE, Docteur en Economie Page 140

500

Trimestres
2) Détermination du modèle de décomposition

Calcul des moyenne et écart – type de chaque année

T N−2 N−1 N
Y Y2 Y Y2 Y Y2
1 2840 8065600 3020 9120400 3290 10824100
2 2570 6604900 2630 6916900 2480 6150400
3 2400 5760000 2420 5856400 2620 6864400
4 4640 21529600 4260 18147600 3730 13912900
Total 12450 41960100 12330 40041300 12120 37751900
Y 3112, 3082, 3030
5 5
V 802368,75 508518,75 257050
σ 895,75 713,11 507,00

Représentation de l’écart – type en fonction de la moyenne :


Ecarts -
types

800

700

600

500

400

300

200
Martin NJOCKE, Docteur en Economie Page 141
100

0 3020 3040 3060 3080 3100 3120 Moyennes


3) Tendance de la série (méthode des moindres carrés)

T t =at +b
Tendance linéaire

Tableau de calcul n°1 :

Année t Y t ×Y t2 Tt Yt Y désaisonnalisé
s ×100
Tt
N−2 1 2840 2840 1 2929,635 96,94 2829
2 2570 5140 4 2956,065 86,94 3070
3 2400 7200 9 2982,495 80,47 2989
4 4640 18560 16 3008,925 154,21 3422
N−1 5 3020 15100 25 3035,355 99,49 3008
6 2630 15780 36 3061,785 85,90 3142
7 2420 16940 49 3088,215 78,36 3014
8 4260 34080 64 3114,645 136,77 3141
N 9 3290 29610 81 3141,075 104,74 3277
10 2480 24800 100 3167,505 78,30 2963
11 2620 28820 121 3193,935 82,03 3263
12 3730 44760 144 3220,365 115,83 2751
Total 78 3690 243630 650 - - -
0

243630−12×3075
a= =26 , 43
t=78/12=6,5 650−12×(6 ,5 )2

Y =36900/12=3075 b=3075−26 , 43×6 ,5=2903 , 205

D’où
T t =26 , 43 t+2903 ,205

4) Calcul des coefficients saisonniers (cf. tableau ci – dessus)


 Calcul des chiffres d’affaires ajustés grâce à l’équation de la tendance linéaire :

Exemple : t =10 ,
T 10=26 , 43×10+2903 , 205=3167 ,505
Yt
×100
 Calcul des rapports à la tendance : T t

Yt 2480
×100= ×100=78 , 30
T
t =10 , t 3167 , 505
Exemple :

Martin NJOCKE, Docteur en Economie Page 142


Récapitulation des rapports et calcul des moyennes : tableau n°2

N−2 N−1 N Moyenne Coefficient C

1er trimestre 96,94 99,49 104,74 100,39 100,39

2e trimestre 86,94 85,90 78,30 83,71 83,71

3e trimestre 80,47 78,36 82,03 80,29 80,29

4 e trimestre 157,21 136,77 115,83 135,60 135,61

Total - - - 399,99 400

Le total des coefficients doit être égal à 400. Il faut donc réaliser un ajustement :

135 , 60
e C 4= ×400=135 , 61
Exemple : 4 trimestre : 399 , 99

5) Dessaisonalisation de la série
Comme le modèle est un modèle de décomposition multiplicatif :
Valeur observée
Valeur désaisonnalisée= ×100
Coefficient saisonnier (cf. tableau 1)
e
Pour t=10=2 trimestre ; d'où le coefficient saisonnier est C 2 =83 , 71
2480
Y désaisonnalisé= ×100=2962, 609007≈2963 milliers de francs
Ainsi, 83 ,71
6) Prévision pour N +1
Calcul de la tendance T , puis application du coefficient saisonnier trimestriel
correspondant :

1er trimestre : t =13 T 13=26 , 43×13+2903 , 205=3246 ,795


100 ,39
Y 13=3246 ,795× =3259 , 457 milliers de francs
100

2e trimestre : t =14 T 14=3273 , 225

Martin NJOCKE, Docteur en Economie Page 143


83 , 71
Y 14 =3273 ,225× =2740 , 017 milliers de francs
100
3e trimestre : t =15 T 15=3299 , 655
80 , 29
Y 15=3299 , 655× =2649 , 293 milliers de francs
100

Martin NJOCKE, Docteur en Economie Page 144


4 e trimestre : t =16 T 16=3326 , 085
135 , 61
Y 16=3326 ,085× =4510 ,504 milliers de francs
100

7) Autres méthodes de détermination de la tendance de la série.

La tendance de la série peut être déterminée également par la méthode de Mayer

(détermination de l’équation d’une droite d’ajustement linéaire) ou bien par le calcul

des moyennes mobiles.

8) Détermination des coefficients saisonniers dans un modèle additif.

Après avoir déterminé la tendance de la série et les valeurs ajustées, il suffit de :


 Retrancher ces valeurs ajustées aux valeurs observées de la variable ;
 Récapituler les résultats obtenus par périodes dans un tableau.

Le coefficient saisonnier retenu pour une période est alors la moyenne des résultats

précédents.

La somme des coefficients doit être égal à 0.

Martin NJOCKE, Docteur en Economie Page 145


ANNEXE : EXERCICES D’APPLICATION SANS

CORRIGES

Exercice 1

Dans une première maternité, l’observation du poids de 130 bébés une semaine après la
naissance, a donné le tableau ci-dessous :

Poids en kg [1 ; 2[ [2 ; 3[ [3 ; 4[ [ 4 ; 5[
Nombre de 25 55 30 20
bébés

1) Déterminer le mode. Interpréter.


2) Déterminer la médiane. Interpréter.
3) Déterminer la moyenne. Interpréter.
4) Construire le polygone de fréquences.
5) Dans une deuxième maternité, il y a eu 300 bébés dans la même semaine. Le poids
moyen de l’ensemble des 300 bébés est 3 kg. Calculer le poids dans l’ensemble des
deux maternités.

Exercice 2

On se propose de rechercher chez les enfants asthmatiques, une liaison entre l’intensité de
l’asthme et la présence ou l’absence de nausées. Pour chaque enfant, on observe le niveau de
l’asthme. Pour chaque enfant, on observe le niveau de l’asthme et la présence ou l’absence de
nausées. On obtient le tableau ci-dessous :

Niveau Fort Moyen Léger


d’asthme
Nausée
Présence 45 15 35
Absence 55 25 30

Martin NJOCKE, Docteur en Economie Page 146


1) Quelle est la proportion d’enfants
a) Ayant un asthme fort ?
b) Ayant un asthme léger ?
2) Parmi les enfants ayant des nausées, quelle est la proportion d’enfants ayant :
a) Un asthme fort ?
b) Un asthme léger ?
c) Un asthme moyen ?
3) Y a-t-il une liaison entre le niveau de l’asthme et la présence ou l’absence des
nausées ?

Exercice 3

Une étude sur l’évolution du cholestérol (en g/l) en fonction de l’âge (années) a donné les
résultats exprimés dans le tableau suivant :

X (années) 20 30 40 50 60
Y (g/l) 2 2, 3 3,5 4
5

1) Calculer le coefficient de corrélation linéaire r XY .


2) Ecrire l’équation de la droite de régression linéaire de Y par rapport à X . D’après ce
modèle, à combien peut-on estimer les taux de cholestérol des individus ayant
respectivement 45 ans et 55 ans.

Exercice 4

L’observation de la taille d’un échantillon de filles de 12 ans a donné les résultats suivants :

Taille (cm) [100 ;105 [ [105 ;110 [ [110 ;115 [ [115 ;120 [ [120 ;125 [
Effectifs 40 20 10 5 15

1) Construire le polygone de fréquences

Martin NJOCKE, Docteur en Economie Page 147


2) Quelle est la proportion de filles de 12 ans dont la taille est :
a) Inférieure à 110 cm ?
b) Supérieure à 115 cm ?
3) Calculer la médiane et interpréter.
4) Calculer la moyenne et interpréter.

Exercice 5

Une étude concernant le niveau intellectuel dans une ville portuaire a été réalisée sur un
ensemble de 200 hommes et 600 femmes. Les résultats sont résumés dans le tableau suivant :

Age de Hommes Femmes


l’individu Nombre Nombre Nombre Nombre
(en années) d’intellectuels total d’intellectuels total
[18 ;23 [ 15 30 30 90

[23 ;28 [ 20 40 40 120

[28 ;33 [ 30 60 60 180

[33 ;38 [ 10 20 20 60

[38 ;43 [ 25 50 50 150


Total 100 200 200 600

1) Déterminer les proportions d’intellectuels chez les hommes ; chez les femmes et sur
l’ensemble de l’échantillon considéré.
2) Quel est dans l’ensemble de l’échantillon, la proportion des individus dont l’âge est
supérieur ou égal 33 ans.
3) Quel est l’âge moyen chez les femmes et chez les hommes ; ainsi que les écarts types
respectifs.
4) Quel est l’âge moyen de l’ensemble de l’échantillon ?

Exercice 6

La mesure du taux d’hémoglobine de 50 patients donne les résultats suivants :

Martin NJOCKE, Docteur en Economie Page 148


8,6 ; 5,9 ; 8,4 ; 7,4 ; 8,2 ; 10,7 ; 9,8 ; 6 ; 9,8 ; 8,8 ; 6,5 ; 10,3 ; 7 ; 10,5 ; 7,9 ; 7,7 ; 9 ; 6,4 ;
8,7 ; 9,6 ; 6,9 ; 10,2 ; 8,8 ; 9 ; 8,7 ; 10,7 ; 8,8 ; 6,1 ; 9,2 ; 9,2 ; 9,8 ; 8,5 ; 6,7 ; 8,5 ; 10,1 ; 5,9 ;
7,7 ; 8,7 ; 6,5 ; 7,7 ; 7,7 ; 10 ; 9 ; 10 ; 8,5 ; 9 ; 6,9 ; 8,2 ; 7,5 ; 8,4.

1) Déterminer le nombre de patients dont le taux d’hémoglobine est compris dans les
différentes classes ci-dessous :
[5 ; 6 [ [6 ; 7 [ [7 ; 8 [ [ 8 ; 9 [ [ 9 ; 10 [ [10 ; 11 [
, , , , , .
2) Construire le polygone des fréquences puis déterminer le mode, la médiane et la
moyenne. Conclure.

Exercice 7

Sur un axe routier, on enregistre sur une période de 5 jours, le nombre d’accidents. Les
résultats suivants ont été obtenus

Nombre de jours 1 2 3 4 5
Nombre 0 4 1 6 8
d’accidents

1) Représenter le diagramme en bâtons


2) Déterminer le mode et la médiane
3) Quelle est la proportion d’accidents dont le nombre de jours est au moins égal à 3.
4) Déterminer la moyenne des accidents par jour, ainsi que l’écart-type de la série.

Exercice 8

L’agence nationale de protection des végétaux vient d’autoriser la mise en vente d’un produit
afin d’améliorer son évolution. Avant l’utilisation de ce produit, la plante avait une hauteur
moyenne de 1,5 mètre

Après traitement de 170 plantes, les résultats donnant leur taille au bout de 3 mois figurent
dans le tableau ci-dessus :

Martin NJOCKE, Docteur en Economie Page 149


Taille en mètres [1,25 ; 1,50 [ [1,50 ; 1,75 [ [1,75 ; 2 [ [2 ; 2,25 [ [2,25 ; 2,50 [
Nombre de plantes 20 30 50 40 30

1) Construire le polygone de fréquences


2) Déterminer le mode
3) Déterminer la médiane. Interpréter.
4) Déterminer la taille moyenne après traitement. Le traitement est-il efficace ?

Exercice 9

L’observation du poids et de la taille de 10 femmes donne les résultats suivants :

Femmes 1 2 3 4 5 6 7 8 9 10
X :taille en cm 150 170 152 168 17 160 185 167 190 172
0
Y : poidsen kg 71 61 74 69 72 70 50 58 65 66

1) Quelle est la proportion de femmes :


a) 150≤X≤170
b) 50≤Y ≤70
c) 150≤X≤170 et 50≤Y ≤70
2) Pour chacune des variables X et Y , déterminer le mode, la moyenne arithmétique et
l’écart-type.
3) Calculer le coefficient de corrélation linéaire entre X et Y . Conclure.

Exercice 10

L’observation de deux caractères sur un échantillon d’habitants d’une ville a donné les
résultats suivants :

Sexe Hommes Femmes


Tabac

Martin NJOCKE, Docteur en Economie Page 150


Fumeurs 40 120
Non – Fumeurs 60 80

1) Déterminer dans l’échantillon la proportion :


a) D’hommes
b) De fumeurs
2) Déterminer la proportion de :
a) Femmes parmi les fumeurs
b) Fumeurs parmi les femmes
3) Etudier la dépendance des deux caractères. Conclure.

Exercice 11 : prix d’une caravane

Un modèle de caravane coûtait 73000 Francs en 1992. L’indice(base 100 en 1992) est de 162
pour 1997.

1) Calculer le prix de vente de cette caravane en 1997.


2) Les constructeurs prévoient pour 1998 une hausse de 3 % et pour 1999, une hausse de
5 %.
Calculer le prix de vente de cette caravane en 1999. Calculer son indice avec base 100
en 1992, puis base 100 en 1997.
3) Exprimer aussi l’indice de 1992 avec base 100 en 1997 et base 100 en 1999.

Exercice 12 : sèche - cheveux

La société X fabrique et commercialise des appareils électriques dans le secteur de l’hygiène


et de la beauté. Elle commercialise actuellement une gamme de sèche – cheveux, composée
de quatre modèles pour lesquels on a noté les prix de vente et les quantités vendues.

1987 1997
Quantités Prix Quantité Prix
s
SC 20000 100 8000 100

Martin NJOCKE, Docteur en Economie Page 151


1
SC 22000 147 29000 160
2
SC 16000 193 20000 210
3
SC 7000 308 24000 320
4

1) Calculer les indices synthétiques des prix, des quantités, base 100 en 1987 :
 Pondération de Laspeyres ;
 Pondération de Paasche.
2) Quelle est la signification du résultat obtenu ?
3) Définir et calculer l’indice des prix en 1997 (base 100 en 1987) selon la méthode de
Fischer.
4) Que signifie en général l’indice des prix d’une année ?

Exercice 13 : prix à la consommation

L’étude de la consommation alimentaire à domicile par personne et par an de la période 0 à la


période 1 donne les résultats suivants en ce qui concerne quelques produits.

Prix (francs) Quantités


Période 0 Période Période 0 Période 1
1
Pain (kg) 3,87 12,00 84,3 44,3
Lait (litre) 1,36 5,13 85,6 66,1
Sucre (kg) 1,15 4,92 20,9 20,9
Viande (kg) 29,15 91,40 20,9 18,7

1) Calculer l’indice de valeur de la dépense de cette famille à la période 1 (base 100 =


période 0).
2) Calculer les indices élémentaires des prix à la consommation de chaque article en
période 1 (base 100 = période 0). Conclure.

Martin NJOCKE, Docteur en Economie Page 152


3) Calculer pour la période 1, base 100 en période 0, l’indice synthétique des prix relatif
à l’ensemble de ces produits en utilisant :
 La formule de Laspeyres ;
 La formule de Paasche ;
 Commenter les résultats obtenus.
4) De façon générale, montrer que les indices de Laspeyres et de Paasche ne sont pas
réversibles. Sont – ils transférables ? Le démontrer.

Exercice 14 : évolution des prix

Une entreprise produit trois biens A , B , C dont les prix et les quantités vendues ont évolué
au cours de ces dernières années.

1990 1997
Quantité Prix Quantités Prix
s
A 20000 16 28600 20
B 11000 36 17800 40
C 1200 240 1350 400

1) Calculer les indices de Laspeyres et de Paasche (prix et quantités) entre 1990 et 1997.
2) Conclure sur l’évolution entre ces deux périodes.

Exercice 15 : la bourse

Les transactions concernant un ensemble de titres côtés à la Bourse de Douala et composant le


porte – feuille d’un particulier, sont recensées dans le tableau suivant :

Date Août 1996 Mai 1997


s
Nombre de titres cour Nombre de titres cours
s
X 159982 686 50520 793

Martin NJOCKE, Docteur en Economie Page 153


Y 10335 313 7665 328,5
Z 19542 824 24234 798

1) Sans tenir compte des transactions effectuées sur les titres, comparer les indices
élémentaires d’évolution du cours de ceux – ci.
2) Pour avoir une vue plus globale de l’évolution de ces titres, calculer les indices
synthétiques des prix, des quantités de l’année 1997 (base 100 = 1996).
a) Pondération de Laspeyres
b) Pondération de Paasche
3) Quelle est la signification du résultat obtenu ?
4) Calculer l’indice de Fisher des quantités et des prix.
Vérifier l’ordre des indices de Paasche, Laspeyres et Fisher sur les résultats trouvés.

Exercice 16 : questionnaire à choix multiples

Répondre aux questions suivantes. Indiquer le calcul pour justifier la réponse.

Remarque : certaines questions n’ont pas de réponse car la réponse juste n’est pas dans la
liste ou bien des éléments manquent pour répondre. Certaines questions peuvent avoir
plusieurs réponses possibles.

1) Le prix d’un produit augmente de 200 % entre t 1 et t 2 . Quel est l’indice de son prix

en t 2 , base 100 en t 1
a) 200
b) 300
c) 400
t
2) Le prix d’un produit a augmenté de 15 % entre t 1 et t 2 , puis de 30 % entre t 2 et 3 .
t
De combien a – t- il det 1 à 3
a) 45 %
b) Plus de 45 %
c) Moins de 45 %
3) Les indices synthétiques (Laspeyres et Paasche) possèdent la propriété de
transférabilité
a) Vrai

Martin NJOCKE, Docteur en Economie Page 154


b) Faux
c) Cela dépend desquels
4) L’indice de Laspeyres des prix est égal à
∑ pit ×qit
a) ∑ pi 0 ×q i 0
∑ pit ×qi 0
b) ∑ pi 0×qi 0
∑ pit ×qit
c) ∑ pi 0 ×q it
5) L’indice de Paasche des prix est égal à
∑ pit ×qit
a) ∑ pi 0 ×q i 0
∑ pit ×qi 0
b) ∑ pi 0×qi 0
∑ pit ×qit
c) ∑ pi 0 ×q it
t
6) Si l’indice (élémentaire) du prix du bien X en t 1 , base 100 en 0 , est de 118 ; quel est
t
le pourcentage p de variation entre t 1 et 0 ?

a) p=−18 %
b) p<−18 %
c) p>−18 %
7) Dans l’indice de Paasche des prix, la structure de consommation prise en compte est :
a) Celle de la période courante
b) Celle de la période de base
c) Celle de la période courante au numérateur et celle de la période de base au
dénominateur.

8) Soit I l’indice élémentaire du prix d’un bien X . La valeur de I en t 2 , base 100 en t 1


t
, est A . La valeur de I en t 1 , base 100 en 0 est B . Quelle est la valeur de I en t 2 ,

base 100 en
t0 ?

a) A×B
A×B
b) 100

Martin NJOCKE, Docteur en Economie Page 155


c) Il n’est pas possible de la calculer.
t
9) Soit I l’indice élémentaire du prix d’un bien X . La valeur de I en t 1 , base 100 en 0
t
, est A . Quelle est la valeur de I en 0 , base 100 en t 1 ?
1
a) A
10000
b) A
100
c) A

d) Il n’est pas possible de la calculer.


10) Que représente l’indice suivant :
∑ pi 0 ×qit
∑ pi 0×qi 0
a) Un indice de Laspeyres des prix
b) Un indice de Paasche des prix
c) Un indice de Laspeyres du volume

Martin NJOCKE, Docteur en Economie Page 156


Exercice 17 : coûts de production

Une firme entreprend une étude statistique de ses coûts de production. Le tableau suivant
résume les données recueillies.

Nombre d’unités produites (en milliers)


xi 1 2 3 4 5 6 7 8 9 10

Coût global de production (en 10 )


6 yi 1 20 23 30 3 41 47 51 5 58
4 7 4

1) Faire une représentation graphique de ces données.


2) Déterminer l’équation de la droite d’ajustement de y en x .
3) Calculer le coefficient de corrélation linéaire entre x et y . Conclure sur la corrélation.

Exercice 18 : Entreprise Anne – Marie

Le chiffre d’affaires de l’entreprise Anne – Marie, spécialisée dans la vente d’articles de


décoration et cadeaux, se répartit de la façon suivante pour les trois dernières années :

Mois N−2 N−1 N


Janvier 150 000 190 000 180 000
Février 170 000 200 000 250 000
Mars 200 000 210 000 250 000
Avril 200 000 250 000 300 000
Mai 240 000 300 000 340 000
Juin 300 000 330 000 380 000
Juillet 280 000 290 000 320 000
Août 6 000 7 000 7 000
Septembre 250 000 250 000 280 000
Octobre 280 000 300 000 290 000
Novembre 220 000 240 000 250 000
Décembre 450 000 480 000 500 000

1) Représenter graphiquement la série.

Martin NJOCKE, Docteur en Economie Page 157


2) Déterminer le « trend » par la méthode des moindres carrés ordinaires.
3) Calculer les coefficients saisonniers mensuels par la méthode des rapports à la
tendance.
4) Désaisonnaliser la série et représenter la série obtenue sur le graphique précédent.
5) Prévoir le chiffre d’affaires de l’année N +1 si la même tendance se poursuit.
Effectuer les prévisions mensuelles.

Exercice 19 : Prévision des ventes de tubes fluorescents

Au cours des trois derniers exercices, le volume des ventes trimestrielles d’une entreprise de
fabrication des tubes fluorescents (en milliers de tubes) a évolué comme suit :

Années N N +1 N +2
1er trimestre 84 103 100
2e trimestre 123 137 167
3e trimestre 165 200 196
4e trimestre 108 124 140

1) Représenter graphiquement cette série chronologique.


2) La composante tendancielle de cette série est représentée par une droite passant par le

point A de coordonnées t =1 et Y =110 , 85 et le point B de coordonnées t =8 et


Y =144 , 45 . Trouver l’équation de cette droite.

3) Dans cette question, on suppose que l’équation de la tendance est Y =4 , 8 t+106 .


L’examen du graphique établi dans la question 1), montre un phénomène saisonnier
marqué.
 Calculer pour chaque trimestre le rapport entre l’observation réelle et la prévision faite
à partir de la seule tendance.

On appelle coefficient saisonnier d’un trimestre donné, la moyenne sur toutes les années
pour ce trimestre des rapports précédents.

 Calculer pour chaque trimestre le coefficient saisonnier.

Martin NJOCKE, Docteur en Economie Page 158


4) Donner une estimation des ventes en volume pour le deuxième trimestre de l’année
N +3 .
5)

Martin NJOCKE, Docteur en Economie Page 159


Exercice 20 : Immatriculation

La série suivante donne le nombre d’immatriculations de voitures neuves dans un pays


d’Europe (données brutes en milliers).

Années 1993 199 1995 1996 1997


4
Trimestre 1 345 450 514 470 517
Trimestre 2 397 522 523 569 567
Trimestre 3 296 365 362 381 381
Trimestre 4 446 521 508 525 512

1) Déterminer la tendance de la série.


2) Calculer les moyennes mobiles d’ordre 4 et les coefficients saisonniers trimestriels en
considérant qu’il s’agit d’un modèle additif.
3) Calculer la série ajustée et mettre en évidence les coefficients saisonniers (modèle
additif) en choisissant leur moyenne.
4) Représenter sur un même graphique :
 La série brute.
 La série désaisonnalisée par les moyennes mobiles.
 La série désaisonnalisée avec l’ajustement linéaire.

Exercice 21 : Bijoux

La demande nationale de clips en 1996 – 1997 se repartit de la façon suivante :

Tranches de prix Quantités


[ 0 à 200[ 9 510

[200 à 300[ 47 550

[300 à 500[ 69 740

[500 à 700[ 101 440

[7 00 à 1000[ 47 550

[1000 à 1500[ 31 700

[1500 à 2000[ 9 510

∑ 317 000

Martin NJOCKE, Docteur en Economie Page 160


1) Caractériser la statistique étudiée : population, individu, caractère, modalités.
2) Quel est le nombre de bijoux dont le prix est :
 Inférieur à 1000 F ?
 Au moins de 1000 F ?
3) Quelle proportion de bijoux a son prix compris entre 500 F et 700 F ?
4) Tracer le graphique représentatif de cette série statistique.
5) Représenter les polygones cumulatifs des fréquences sur un même graphique.

Exercice 22 : Enfants

On donne ici le nombre d’enfants nés après un certain nombre d’années de mariage, dans une
ville en 1997.

Années Nombre d’enfants


1 91
2 72
3 60
4 52
5 45
6 40
7 37
8 32
9 26
10 25
11 20

1) Caractériser la population étudiée.


2) Etablir un tableau statistique complet.

3) Que signifie le total de la colonne


ni ×x i ?
4) Combien d’enfants sont nés après sept années de mariage ?
5) Quel pourcentage d’enfants est né la quatrième année de mariage ?
6) Quelle proportion d’enfants est née dans les six premières années de mariage ?

Martin NJOCKE, Docteur en Economie Page 161


Exercice 23 : Répartition des salariés

La répartition des salariés d’une branche d’activité en décembre 1997 est la suivante :

Salaire mensuel Effectifs


[ 0 , 4000[ 1 625 000

[ 4000 , 5000[ 2 500 000

[5000 , 6000[ 4 375 000

[6000 , 7000 [ 2 000 000

[7000 , 9500[ 1 250 000

[ 9500 , 17000[ 625 000

[17000 , 32000 [ 125 000

1) Caractériser la population étudiée : population, individu, caractère, modalités.

2) Etablir le tableau statistique : modalités, effectifs,


ni ×x i , effectifs cumulés croissants,
effectifs cumulés décroissants, fréquences.

3) Que signifie le total de la colonne


ni ×x i ?
4) Combien de salariés ont un salaire supérieur à 5000 ?
5) Quelle proportion de salariés a un salaire inférieur à 9500 ?
6) Combien de salariés gagnent un salaire compris entre 6000 et 9500 ?
7) Quelle proportion de salariés touche moins 7000 ?

Exercice 24 : Magasin d’ameublement

Dans un groupe de régions camerounaises, la distribution de magasins d’ameublement classés


par tranches de surfaces est la suivante en 1997 :

Tranches de Moins de [500 , 750 [ [750 , 1000 [ [1000 , 1500[ [2000 , 2500 [
2 500
surfaces (m )
Nombre de 5 25 30 80 50
magasins

Martin NJOCKE, Docteur en Economie Page 162


1) Caractériser la population étudiée.
2) Représenter graphiquement la série observée. Borner la première classe à 0.
3) Représenter graphiquement les fréquences cumulées croissantes et décroissantes.

4) Que signifie le total de la colonne


ni ×x i ?
5) A quelles coordonnées les courbes de fréquences cumulées se coupent – elles ?

Exercice 25 : Entreprise Emmanuelle

L’entreprise Anne – Marie, fabricant de sièges pour automobile, vous communique ses
chiffres d’affaires des deux dernières années.

Mois 1990 1991


Janvier 90 583 92 557
Février 90 347 95 141
Mars 88 013 90 456
Avril 83 448 81 275
Mai 74 881 67 396
Juin 53 578 60 257
Juillet 59 801 68 280
Août 60 422 67 958
Septembr 63 417 63 585
e
Octobre 83 619 76 885
Novembre 87 560 90 398
Décembre 87 279 94 377

1) Quel type de graphique rend bien compte de l’évolution du chiffre d’affaires de


l’entreprise ?
2) Représenter celui – ci
3) Commenter.

Martin NJOCKE, Docteur en Economie Page 163


Exercice 26 : Etude du stock d’un commerçant

Un commerçant a recensé les articles qu’il a en stock et a établi le tableau suivant :

Prix des articles Nombre d’articles


[50 , 100 [ 3

[100 , 150 [ 14

[150 , 200[ 25

[200 , 250 [ 20

[250 , 300 [ 18

[300 , 350 [ 26

[ 400 , 500[ 10

[500 , 700 [ 4

1) Calculer le mode, la médiane, les quartiles de la série.


2) Donner la signification de chaque paramètre.

Exercice 27 : L’ancienneté des salariés d’une entreprise

Dans l’entreprise Félicité, l’ancienneté des salariés est la suivante :

Ancienneté en années Effectifs


0 – 2,5 64
2,5 – 5 84
5 – 7,5 104
7,5 – 10 116
10 – 15 78
15 – 20 46
20 – 25 22
25 – 30 18
30 – 40 10
40 – 45 6

Martin NJOCKE, Docteur en Economie Page 164


En vue d’une étude de la rotation du personnel, il vous est demandé de :

1) Déterminer les effectifs cumulés croissants et tracer le polygone cumulatif des


effectifs.
2) Déduire la médiane graphiquement et par calcul.
3) Calculer l’ancienneté moyenne des salariés.

Exercice 28 : Restauration

La société Z réalise une étude de marché sur la restauration. Elle interroge 450 personnes sur
le nombre de couverts souhaités : 6, 8, 10, 12 ou 16. Elle obtient les réponses suivantes :

Nombre de couverts 6 8 1 12 16 Total


0
Nombre de réponses 2 54 3 207 126 450
7 6

Déterminer le mode, la médiane et la moyenne ; puis interpréter les résultats.

Exercice 29 : Contrats à durée déterminée

La série statistique ci – dessous va permettre d’analyser l’âge des travailleurs temporaires


d’une grande entreprise. Elle donne le nombre de contrats de travail à durée déterminée signés
en fonction de l’âge des travailleurs.

Âge du Nombre de contrats


travailleur
Moins de 20 ans 380
[20 ; 25 ans[ 1060

[25 ; 40 ans[ 1460

[ 40 ; 50 ans [ 360

[50 ; 60 ans[ 130


60 ans et plus 10

Martin NJOCKE, Docteur en Economie Page 165


1) Caractériser la population étudiée : population, taille, individu, caractère, modalités.

On supposera que les stagiaires de contrats à durée déterminée ont entre 15 et 65 ans.

2) Réaliser le graphique représentatif des fréquences de cette série ainsi que celui des
fréquences cumulées croissantes.
3) Quelle proportion de travailleurs a moins de 40 ans ? Plus de 25 ans ?
4) Calculer et donner la signification de chacun des paramètres suivants :
 Le mode
 La moyenne
 La médiane

Exercice 30 : Vente sur les marchés

Un commerçant vend des articles sur les marchés de la région. Il vous communique les
statistiques de ses ventes sur les 200 derniers jours.

Nombre d’articles Nombre de jours


vendus
[50 ; 250 [ 8

[250 ; 450 [ 14

[ 450 ; 650 [ 30

[650 ; 750 [ 62

[750 ; 850 [ 48

[ 850 ; 1050 [ 26

[1050 ; 1250 [ 12

1) Caractériser la population étudiée.


2) Représenter graphiquement cette série.
3) Déterminer par le graphique :
- Le mode ;
- La médiane.

Martin NJOCKE, Docteur en Economie Page 166


- En donner la signification.
4) Déterminer la valeur de la médiane par le calcul.
5) Calculer le premier quartile et le troisième quartile. Interpréter ces résultats.

Exercice 31 : L’âge des technico – commerciaux

L’entreprise Félicité a fait une étude de l’âge de ses technico – commerciaux employés à la
vente des véhicules neufs. Les âges se répartissent de la façon suivante :

Âges 20 – 25 25 – 30 – 35 35 – 40 40 – 45 45 – 50 – 55
30 50
Nombre de salariés 3 9 12 12 6 3 1

Elle désire connaître :

1) La moyenne des âges


2) L’écart – type
3) Les quartiles et l’écart interquartile
4) Le jugement que l’on peut porter sur cette répartition des âges des commerciaux.

Exercice 32 : Recrutement

Une enquête auprès de 200 responsables commerciaux a permis de mettre en évidence la


durée du processus de recrutement de nouveaux vendeurs. Le tableau suivant nous donne les
réponses de ceux – ci :

Durée de Nombre de réponses


recrutement
[ 0 ; 1 mois [ 66

[1 ; 3 mois [ 78

[3 ; 5 mois [ 44

[5 ; 7 mois [ 4

[7 ; 10 mois [ 8

Martin NJOCKE, Docteur en Economie Page 167


1) Quelle est la durée moyenne de recrutement d’un nouveau vendeur ?
2) Calculer la variance et l’écart – type de cette distribution. Quelle est la signification de
ce dernier ?
3) Etudier la dispersion de cette série en calculant et définissant l’intervalle interquartile.
4) Commenter les résultats.

Exercice 33 : Contrôle de qualité de composants électroniques

Une entreprise fabrique en grande quantité des composants électroniques d’un certain type T .
L’objectif est d’étudier la durée de vie de ces composants, en utilisation normale. Pour cela,
on prélève au hasard dans la production, un échantillon de 125 composants ; on les met sous
tension sur un banc d’essai étalonné provoquant leur vieillissement accéléré. Les résultats,
traduits en heures d’utilisation normale, sont consignés dans le tableau suivant :

Durée de vie (en milliers Effectifs


d’heures)
[50 ; 60 [ 4

[60 ; 70 [ 8

[70 ; 80 [ 13

[ 80 ; 90 [ 16

[ 90 ; 100 [ 20

[100 ; 110 [ 26

[110 ; 120 [ 18

[120 ; 130 [ 11

[130 ; 140 [ 7

[140 ; 150 [ 2

1) Construire l’histogramme de cette série statistique


2) Calculer la moyenne et l’écart – type
3) Déterminer l’intervalle interquartile
4) Interpréter ces résultats

Dans cet exercice, pour chaque résultat demandé, donner l’approximation décimale arrondie à

10−2 près.
Martin NJOCKE, Docteur en Economie Page 168
5)

Martin NJOCKE, Docteur en Economie Page 169


REFERENCES BIBLIOGRAPHIQUES

*Livres

ALBARELLO L., GUYOT J.L., BOURGEOIS E., (2002), « Statistique descriptive »,


De Boeck

BISSON – VAIVRE S., FICANO C., (1998), « Outils mathématiques de gestion »,


Bréal, Rosny.

BLUMAN, Allan (2005), “Elementary Statistics: A Step by Step Approach”, Mc Graw


Hill Publishing Company

BOURSIN J.L (2000), “La statistique pour l’économie et la gestion : QCM”,


EJA/Gualino

DELMAS B., (2005), « Statistique descriptive », Armand Colin, Fac économie

GAUVRIT, N. (2009), « Statistiques, Méfiez-vous », éditions Ellipses

GRAIS B., (2003), « Statistique descriptive : Techniques statistiques, Dunod

PY B., (2007), « Statistique descriptive : nouvelle méthode pour comprendre et bien


réussir », 5ème édition, Economica

PY B., (2007), « Exercices corrigés de statistique descriptive : Problèmes, exercices et


QCM », 3ème édition, Economica

*Sites internet utiles

- Un site connu pour l’utilisation des graphiques à des fins analytiques : http :
//www.gapminder.org/

- Pour produire directement, facilement et gratuitement des graphiques pour une page
web: http:// andre.massonimath.google.com/intl/fr/apis/chart/

- Cours du Dr. Hossein ARSHAM, de l’Université de Baltimore : http : //


home.ubalt.edu/ntsbarsh/

Martin NJOCKE, Docteur en Economie Page 170


TABLE DES MATIERES

Introduction…………………………………………………………………………………...1

I. Statistique et Economie…………………………………………………………….1

II. Objet de l’analyse statistique………………………………………………………2

Chapitre 1 : Concepts de base………………………………………………………………..4

I. Notations…………………………………………………………………………...4

I.1. L’opérateur ∑ ¿¿…………………………………………………………………………4

I.2. L’opérateur ∏ ¿¿…………………………………………………………………………6

II. Paramètres caractéristiques d’une distribution de fréquences…………………………..7

II.1. Moyenne simple………………………………………………………………………7

II.2. Moyenne pondérée……………………………………………………………………8

II.3. Limites de la moyenne pour caractériser une distribution de fréquences…………….8

II.4. Variance……………………………………………………………………………….9

II.5. Ecart-type……………………………………………………………………………10

III. Travaux pratiques ………………………………………….........................................10

Chapitre 2 : Représentations graphiques………………………………………………….19

I. Diagrammes élémentaires………………………………………………………...19

I.1. Variable qualitative…………………………………………………………………...19

I.1.1. Le diagramme en barres…………………………………………………………….20

Martin NJOCKE, Docteur en Economie Page 171


I.1.2. Le diagramme en colonnes et diagramme en barres horizontales…………………20

I.1.3. Le diagramme en secteurs ou diagramme circulaire……………………………….22

I.2. Variable quantitative…………………………………………………………………22

I.2.1. Caractère quantitatif discret…………………………………………………………23

I.2.1.1. Le diagramme en bâtons…………………………………………………………..23

I.2.1.2. Le polygone cumulatif des fréquences……………………………………………24

I.2.2. Caractère quantitatif continu………………………………………………………...24

I.2.2.1. Histogramme………………………………………………………………………24

I.2.2.2. Polygone de fréquences…………………………………………………………...25

I.2.2.3. Histogramme cumulatif…………………………………………………………...25

I.2.2.4. Polygone cumulatif des fréquences……………………………………………….25

II. Terminologie relative aux caractères………………………………………….26

II.1. Modalités…………………………………………………………………………….26

II.2.Classes……………………………………………………………………………….27

II.3. Effectif d’une modalité (ou d’une classe)…………………………………………….27

II.4. Effectif cumulé d’une modalité (ou d’une classe)……………………………………27

II.5. Fréquence d’une modalité (ou d’une classe)…………………………………………28

II.6. Fréquence cumulée d’une modalité (ou d’une classe)………………………………..28

III. Travaux pratiques…………………………………………………………………29

Chapitre 3 : Caractéristiques de valeur centrale des lois à une variable…………….......32

I. Moyenne…………………………………………………………………………..32

I.1. Moyenne arithmétique………………………………………………………………..32

Martin NJOCKE, Docteur en Economie Page 172


I.2. Généralisation de la notion de moyenne……………………………………………...34

I.2.1. Définitions………………………………………………………………………….34

I.2.2. Propriétés…………………………………………………………………………...35

II. Autres caractéristiques de valeur centrale : mode et médiane……………………38

II.1. Le mode……………………………………………………………………………...38

II.1.1. Définition…………………………………………………………………………..38

II.1.2. Détermination……………………………………………………………………...38

II.1.3. Propriétés…………………………………………………………………………..38

II.2. La médiane…………………………………………………………………………..38

II.2.1. Définition………………………………………………………………………….38

II.2.2. Détermination pratique…………………………………………………………….39

II.2.3. Détermination graphique…………………………………………………………..40

II.2.4. Propriétés…………………………………………………………………………..40

II.3. Généralisation de la notion de médiane……………………………………………...41

II.3.1. Quantile……………………………………………………………………………41

II.3.2. Quantiles particuliers………………………………………………………………41

III. Travaux pratiques……………………………………………………………………...41

Chapitre 4 : Caractéristiques de dispersion et de forme des lois à une variable……......48

I. Caractéristiques de dispersion………………………………………………………..48

I.1. Ecarts entre deux observations particulières………………………………………..49

I.1.1. Etendue ou intervalle de variation…………………………………………………49

I.1.2. Intervalles interquantiles…………………………………………………………….49

Martin NJOCKE, Docteur en Economie Page 173


I.1.2.1. Intervalle interquartile……………………………………………………………49

I.1.2.2. Définition………………………………………………………………………….49

I.1.2.3. Détermination pratique……………………………………………………………50

I.1.3. Généralisation : les déciles, les centiles……………………………………………..51

I.1.3.1. Les déciles………………………………………………………………………...51

I.1.3.2. Les centiles……………………………………………………………………….51

I.2. Ecarts entre toutes les observations et la valeur centrale……………………………..52

I.2.1. Ecart absolu moyen………………………………………………………………….52

I.2.2. Ecart-type ou écart quadratique moyen……………………………………………..52

II. Caractéristique de forme..………………………………………………………………53

II.1. La dissymétrie………………………………………………………………………..54

II.2. L’aplatissement………………………………………………………………………55

III. Travaux pratiques…………………………………………………………………55

Chapitre 5 : Distributions à deux variables. Lois marginales, lois conditionnelles……..60

I. Les distributions…………………………………………………………………..60

I.1. Caractéristiques des lois marginales…………………………………………………61

I.2. Caractéristiques des lois conditionnelles……………………………………………..62

II. Travaux pratiques……………………………………………………………………...63

Chapitre 6 : Corrélation et régression linéaire……………………………………………73

I. Indicateur de liaison entre deux caractères……………………………………….73

Martin NJOCKE, Docteur en Economie Page 174


I.1. Indice de corrélation
fonctionnelle…………………………………………………..73I.1.1. Covariance de deux
séries statistiques……………………………………………..74I.1.1.1.
Définition…………………………………………………………………………74 I.1.1.2.
Expression développée…………………………………………………………..74 I.1.1.3.
Conséquences de deux transformations affinées données…………………………...75

I.1.2. Coefficient de corrélation linéaire………………………………………………….......75


I.1.2.1. Définition………………………………………………………………………….75
I.1.2.2. Propriétés………………………………………………………………………….76
I.1.2.2.1.
Symétrie………………………………………………………………………….76I.1.2.2.2.
Signification……………………………………………………………………...76 I.1.2.2.3.
Conséquence de deux transformations affines des données…………………….78 I.2. Indice
de dépendance………………………………………………………………….78 I.2.1. Khi-
deux de contingence……………………………………………………………79 I.2.1.1.
Définition…………………………………………………………………………79 I.2.1.2.
Propriétés………………………………………………………………………….81 I.2.1.2.1.
le khi-deux est positif ou nul et n’est pas borné………………………………...81 I.2.1.2.2. le

khi-deux dépend de N ,k ,l..................................................................................81

II. Régression linéaire par la méthode des moindres carrés…………………………82

II.1. Présentation de la

méthode………………………………………………………….......82II.2. Recherche de la

droite de régression linéaire……………………………………….......83 II.3. Mesure de la

qualité de la régression……………………………………………….......84

III. Régression linéaire par la méthode de Mayer…………………….........................86

IV. Travaux pratiques…………………………………………………………………86

Martin NJOCKE, Docteur en Economie Page 175


Chapitre 7 : Les indices……………………………………………………………………..93

I. Les indices simples……………………………………………….........................93

I.1. Réversibilité des indices…………………………………………………………….........93

I.2. Transférabilité des indices………………………………………………………………..93

II. Les indices synthétiques…………………………………………..........................94

II.1. Indice de Laspeyres……………………………………………………………………...94

II.1.1. Indice des prix…………………………………………………………………………95

II.1.2. Indice des quantités……………………………………………………………………97

II.2. Indice de Paasche………………………………………………………………………..97

II.2.1. Indice des prix………………………………………………………………………...98

II.2.2. Indice des quantités…………………………………………………………………...99

II.3. Indice de Fischer……………………………………………………………………….100

III. Les indices usuels du coût de la vie……………………………………………..100

III.1. Indice des prix à la consommation…………………………………………………….100

III.2. Indice du coût de la construction……………………………………………………...100

III.3. Indice de la production industrielle……………………………………………………101

IV. Travaux pratiques………………………………………………..........................101

Chapitre 8 : Les séries chronologiques…………………………………………………...108

I. Composantes des séries chronologiques………………………………………...108

II. Analyse de la tendance ou Trend T …………………………….........................109

II.1. La méthode des moyennes mobiles…………………………………………………….109

Martin NJOCKE, Docteur en Economie Page 176


II.2. La méthode de Mayer…………………………………………………………………..111

II.3. La méthode des moindres carrés……………………………………………………….111

III. Analyse de la composante saisonnière…………………………..........................111

III.1. Cas d’un modèle additif Y =T + S …………………………………………………...111

III.2. Cas d’un modèle multiplicatifY =T ×S ……………………………………………..112

IV. Dessaisonalisation de la série temporelle………………………..........................112

IV.1. Cas d’un modèle additif……………………………………………………………….112

IV.2. Cas d’un modèle multiplicatif…………………………………………………………112

V. Prévisions………………………………………………………………………..112

V.1. Cas d’un modèle additif………………………………………………………………..113

V.2. Cas d’un modèle multiplicatif………………………………………………………….113

VI. Travaux pratiques………………………………………………..........................113

Annexe : Exercices d’application sans corrigés………………………………………….122

Références bibliographiques………………………………………………………………143

Table des matières………………………………………………………………………….144

Martin NJOCKE, Docteur en Economie Page 177

Vous aimerez peut-être aussi