Vous êtes sur la page 1sur 80

Chapitre I

Généralités
Objectifs spécifiques
- Identifier les différents types de statistiques
- Définir les éléments de base du langage statistique tels que la population, l’individu, le
caractère, la variable…
- Définir une série et une distribution statistique et la différence entre elles
- Décrire les étapes essentielles de la statistique descriptive

Section 1
Objet de la statistique
La statistique sert à décrire, comprendre, analyser, interpréter et estimer. Pour accomplir ses
tâches, la statistique s’est structurée en trois parties.

1.1 La statistique descriptive


La statistique descriptive a pour but de résumer l’information contenue dans les données de
façon à mettre en évidences leurs particularités essentielles. Elle rend simplement compte des
données ou observations à travers des tableaux, des graphiques et de paramètres les résumant
(Collecter, ordonner, réduire, synthétiser).

1.2 La statistique mathématique ou inférentielle


Elle permet une extrapolation ou généralisation des résultats issus d’un échantillon à une
population mère connue ou inconnue, de faire des prévisions de comportements en utilisant le
calcul des probabilités et de prendre des décisions au vu des observations.
Cette statistique nécessite la recherche d'échantillons qui sont des sous-ensembles d'une
population statistique représentant le mieux possible la diversité de la population entière.

1.3 La statistique économétrie


Enfin, l’économétrie est l’application de la statistique (descriptive et mathématique) à la mesure et
à l’étude chiffrée des grandeurs économiques.

Section 2
Vocabulaire de la statistique
2.1 Population et unités statistiques
Une population statistique est un ensemble d’individus ou unités (personne, animal, objet…)
statistiques ayant des caractéristiques en commun.

2.2 Caractères et variables statistiques


Un caractère statistique est une propriété spécifique à un individu ou unité statistique.
Lorsqu’on associe à un caractère l’ensemble des mesures qu’elle peut prendre chez tous les
individus d’une population statistique, le caractère prend alors le nom de variable statistique.
On distingue deux sortes de caractère statistique:
- Les caractères qualitatifs auxquels on associe les variables qualitatives ;
- Les caractères quantitatifs auxquels on associe les variables quantitatives.

2.2.1 Caractère et variable qualitatifs


Lorsque l’observation d’un caractère ne peut pas se traduire par une mesure, on dit que ce
caractère est qualitatif. Les mesures de la variable qualitative qui s’en déduit ne peuvent donc pas
faire l’objet de valeurs numériques. Les caractères et variables qualitatifs, se subdivisent en
caractère et variable qualitatifs ordinaux et en caractère et variable qualitatifs nominaux.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 1


2.2.2 Caractère et variable quantitatifs
Lorsque l’observation d’un caractère peut se traduire par une mesure pouvant être utilisée
dans des opérations arithmétiques telles que, l’addition, la division…, on dit que le caractère
est quantitatif. Les mesures de la variable quantitative qui s’en déduit sont des valeurs
numériques admettant des manipulations à l’aide d’opérateurs arithmétiques.
Les caractères et variables quantitatifs se subdivisent en caractères et variables quantitatif
discrets et en caractères et variables quantitatifs continus à amplitudes constantes ou
variables.

Section 3
Série statistique
L’ensemble des mesures d’un même caractère faites sur tous les individus d’une population
statistique, conduit à l’obtention de ce que l’on appelle une série statistique ou série brute ou
données brutes.
En fonction du caractère étudié, on distinguera par la suite les séries statistiques qualitatives,
les séries statistiques discrètes et les séries statistiques continues. La série est dite qualitative
quand les données prises par le caractère ne sont pas mesurables sur une échelle de valeurs.
Quand les mesures du caractère ne peuvent prendre que des valeurs bien ”isolées” les unes
des autres (mais éventuellement en nombre infini), la série est dite discrète. Au contraire, elle
est continue si les mesures peuvent prendre a priori n’importe quelle valeur dans tout un
intervalle I de IR. L’intervalle peut être fermé, ouvert ou semi-ouvert. Les intervalles peuvent
aussi avoir des amplitudes constantes ou variables.
En associant à chaque valeur d’une série statistique le nombre d’individus ou d’unités
possédant cette valeur, on obtient une distribution statistique. Dans une distribution
statistique, le nombre de valeurs possibles est inférieur ou égal au nombre d’individus de la
population statistique.

Section 4
Analyse d’une série statistique
En statistique descriptive, le travail du statisticien se décompose en plusieurs étapes :
– Tout d’abord, il faut recueillir les données formant une série statistique et résultant de
l’étude d’un même caractère chez tous les individus d’une population
– Ensuite, il faut organiser la série statistique obtenue afin de la présenter de manière
synthétique, c’est à dire sous la forme d’un tableau ou d’un graphique. Les modalités de
construction d’un tel tableau ou d’une telle représentation graphique dépendent de la nature de
la série. Si la série est discrète, le tableau comporte les effectifs et/ou fréquences (simples
et/ou cumulés) de chaque modalité, et les représentations graphiques sont des diagrammes en
bâtons et en escaliers. Si la série est continue, alors le tableau comporte les effectifs et/ou
fréquences (simples et/ou cumulés) d’une série classée associée, et les représentations
graphiques sont des histogrammes et des courbes cumulatives
– Dans un troisième temps, il faut résumer la série statistique, c’est à dire proposer des
indicateurs (en nombre limité) traduisant les caractéristiques essentielles de la série. Grâce à
ces indicateurs, il doit être possible d’appréhender la série statistique sans avoir à revenir aux
données brutes recueillies ou aux tableaux et représentations graphiques synthétisant ces
données brutes. Ces indicateurs portent le nom de paramètres. On distinguera les paramètres
de position (résumant une série statistique à l’aide d’une valeur ”centrale”), les paramètres de
dispersion (donnant un renseignement sur la façon dont les données recueillies se
répartissent), les paramètres de concentration qui permettent de comparer deux séries de
fréquences cumulées et les paramètres de forme qui permettent de connaître l’allure d’une
courbe de fréquence sans être obligé de la tracer. Ils se déclinent avec certaines nuances
suivant que la série statistique est discrète ou continue.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 2


Chapitre II
Calcul du taux de croissance
Objectifs spécifiques
- Définir un taux de croissance absolu, relatif, global et moyen
- Définir un multiplicateur simple et composite
- Calculer un taux de croissance absolu, relatif, global et moyen de façon directe et à
partir des multiplicateurs
- Interpréter les taux de croissance et les multiplicateurs

La comparaison de l’évolution au cours du temps de séries de données mesurées dans des


unités différentes, n’a de sens que si elle est faite avec une grandeur relative. La grandeur
relative la plus utilisée est mesurée par le taux de croissance.

Section 1
Taux de croissance absolu et relatif
La variation en unités entre des valeurs d’une même grandeur constatée à différentes périodes
(une année, un trimestre, un mois, etc.), est mesurée par le taux de croissance absolu. Les
grandeurs peuvent être soient des variables de flux (PIB, revenu annuel d’un ménage, déficit
public, investissement d’une entreprise, exportations, etc.), soient des variables de stock
(population, fortune d’un ménage, masse monétaire, capital d’une entreprise, etc.)
Soit V0 la valeur observée à la date de départ et, Vt la valeur observée à la date d’arrivée t .
Le taux de croissance absolue entre la date zéro et la date t est ainsi donné:
 = Vt V0 .
A la date t, la valeur V0 aura augmenté ou diminué d’une valeur ∆ égal à la croissance
absolue. La croissance absolue peut donc être négative ou positive.

Le taux de croissance relatif mesure cette variation en pourcentage avec :


g = Vt V0 Vt 1 = Val.d'Arrivée1.
V0 V0 Val.Départ
Ainsi, si g >0, il y a donc accroissement de la valeur initiale V0 et, une baisse de la valeur
initiale V0 si g<0.
De plus, la croissance absolue ∆ peut être aussi définie comme une fraction de la valeur
initiale. C’est à dire   Vt  V0  g.V0 . Donc Vt V0  g.V0 (1 g)V0 .
De manière équivalente, on peut dire qu’à la date t, la nouvelle valeur Vt a une valeur plus
grande ou plus petite que V0 d’une proportion égale à 1 g . Autrement Vt 1 g et le taux de
V0
V
croissance est g  1 .
t
V0
Ainsi, la valeur finale Vt peut être obtenue à partir de la connaissance de la valeur initiale et
du taux de croissance g, à l’aide de la formule suivante : Vt (1g)V0 . (1+g) est alors appelé le
multiplicateur. C’est la grandeur par laquelle on multiplie la valeur initiale pour trouver la
valeur finale.

Application 1
Lorsque la note statistique d’un étudiant passe de 8 au premier examen à 17 au deuxième
examen, la croissance absolue de sa note en statistique entre les deux examens est de :
  Vt  V0  17  8  9 points
Le taux de croissance relatif en pourcentage de sa note en statistique est

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 3


17  8 17
de: g    1  1,125 . Soit 112.5%
8 8
Le multiplicateur 1  g   (1  1,125)  2,125 . Ainsi, en multipliant la note du premier examen
par 2,125 on obtient la note du deuxième examen.

Section 2
Les évolutions successives
Lorsqu’une grandeur subit une succession d’évolutions avec différents taux de croissance, son
taux de croissance finale est obtenu en soustrayant 1 au produits de ses multiplicateurs
successifs. Par ce principe, on peut connaître la valeur d’une grandeur à la date t , si on
connaît sa valeur V0 à la date 0 et celle de tous ses taux de croissance entre la date 0 et la date
t . Pour cela on utilise la formule : Vt  (1  g1 )(1  g 2 )...(1  g t  2 )  (1  g t 1 )  (1  g t ).V0
Démonstration :
Vt  (1  g t )Vt 1
Vt 1  (1  g t 1) )Vt 2
Vt  2  (1  g t  2 )Vt 3
.
.
.
V3  (1  g 3 )V2
V2  (1  g 2 )V1
V1  (1  g1 )V0
En remplaçant en cascade les valeurs de V par leurs expressions, on peut trouver :
Vt  (1  g1 )(1  g 2 )...(1  g t  2 )(1  g t 1 )(1  g t ).V0 (c.q.f.d)
(1  g1 )(1  g 2 )...(1  g t  2 )(1  g t 1 )(1  g t ).V0 est appelé multiplicateur composite.
Application 2
Soit une valeur V0 à la date zéro. A la date 1, elle augmente de 50%. A la date 2, elle
augmente de 20%. D’où :
À la date 1 on a : V1(10.5)V0 (a)
À la date 2 on a : V2(10.2)V1 (b)
En remplaçant (a) dans (b) on a : V2(10.2)(10.5)V0
On peut alors trouver la valeur de V2 à la date 2, en multipliant la valeur à la date zéro ( V0 ),
par le nouveau multiplicateur composite: (1+0.2)(1+0.5), sans connaître la valeur à la date 1.

Section 3
Multiplicateurs associés aux grandeurs liées
3.1 La multiplication entre deux grandeurs
Soit deux grandeurs à la date t:
1/ Vt (1gv)V0 et
2/ Ut (1gu)U0
La grandeur qui représente leur produit sera alors égale à :
Wt Vt.Ut (1gv)(1gu)W0 et son taux de croissance gw(1gv)(1gu)1

3.2 La division entre deux grandeurs


Soit deux grandeurs à la date t:

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 4


1/ Vt (1gv)V0 et
2/ Ut (1gu)U0
La grandeur qui représente leur division sera alors égale à :
(1 gv) (1 gv)
Wt  Vt  W0 et son taux de croissance gw 1
Ut (1 gu) (1 gu)

Section 4
Taux de croissance global et taux de croissance moyen
Une grandeur passe de la valeur V0 à l’instant 0 à la valeur Vt à l’instant t . Les deux étant
séparées par n périodes alors, le taux de croissance globale entre ces deux dates est :
V
G  t 1
V0
On appelle taux de croissance moyen le taux unique g qui, répété n fois, fournit le même
résultat que n évolutions successives correspondant au taux global G . C'est-à-dire que :
Vt  (1  G)V0  (1  g ) n V0 (a)

D’où g  n 1  G  1 (b)

V  V
En remplaçant G par sa valeur dans (b) on obtient : g  n 1   t  1  1  n t  1
 V0  V0
1
V n
Ce revient à g   t   1
 V0 
Le taux de croissance moyen est un taux de croissance constant durant toute la période et qui
correspondrait à la même variation
Application 4
En 2004, le taux d’augmentation du prix du livre était de 0,10 et en 2005, pour le même livre,
le taux de croissance était de -0,05.
1. Calculer le taux global G correspondant à ces deux évolutions successives.
2. Calculer le taux moyen annuel g d’évolution durant cette période.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 5


Chapitre III
Les tableaux statistiques
Objectifs spécifiques
- Définir un tableau de distribution d’effectifs ou fréquences absolues, de fréquences
relatives d’une variable qualitative, discrète et continue à amplitude constante ou
variable.
- Définir un tableau de distribution d’effectifs ou de fréquences relatives cumulées,
décroissantes et croissantes d’une variable discrète et continue à amplitude constante
ou variable.
- Interpréter les valeurs des tableaux des différentes distributions des variables
qualitative, discrète et continue à amplitude constante ou variable.

Un tableau est une représentation visuelle donnant très rapidement une information sur des
données statistiques. Cette mise en évidence très rapide d’une information constitue une des
faiblesses des tableaux statistiques par manque de précision.

Section 1
Distribution des effectifs
Pour mettre en évidence les correspondances entre les valeurs d’une variable et l’effectif
correspondant, on peut les consigner tous dans un tableau. Dans la première colonne du
tableau, on range par ordre croissant les différentes valeurs de la variable. Dans la seconde
colonne, on met en face de chaque valeur de la variable le nombre d’élément possédant cette
valeur. On obtient ainsi le tableau des effectifs ou tableau de distribution des effectifs.

Les valeurs de la variable sont généralement désignées par x i et le nombre d’occurrences de


la valeur dans la série statistique par n i . On peut aussi faire un regroupement par classe des
valeurs qui sont très proches. On passe alors d’une distribution discrète à une distribution
continue. Les classes sont des intervalles disjoints telles que toutes les valeurs de la variable
appartiennent nécessairement à l’une d’entre elle. Les intervalles peuvent n’est pas être de
même amplitude.

Que la distribution soit discrète ou continue, la somme des effectifs n i des valeurs x i ou des
classes de valeurs ei 1 , ei  est égale à l’effectif total de la population. On Le note
généralement par n tel que n  n1  n2  ...  ni  ...  n p

1.1. Tableaux de distribution des effectifs d’une variable qualitative


Tableau 1 : Distribution par sexe des étudiants de la seg1-UO II, 2011-2012
Sexe ( x i ) Effectif ( n i )
F 684
M 1491
Total 2175
Source: construit à partir des données du service informatique (scolarité ufr-seg-uo II),
février 2013
Tableau 2 : Distribution par sexe de la population Burkinabè en 2007.
Sexe Effectif
Masculin 6 710 723
Féminin 6 927 608
Total 13 638 331

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 6


Source: Construit à partir de Annexe de EA-QUIBB 2007, page 106
Tableau 3 : Répartition de la mention des étudiants de la seg1-UO II, admis à la première
session de l’année 2011-2012.
Mention Effectif
Passable 274
Assez Bien 56
Bien 8
Très Bien 1
Total 339
Source: construit à partir des données du service informatique (scolarité ufr-seg-uo II),
février 2013

1.2. Tableaux de distribution des effectifs d’une variable discrète


Tableau 4 : Répartition de l’âge des étudiants Tableau 5 : Répartition de la note des
de la seg1-UO II, 2011-2012 étudiants de la seg1-UO II en 2011-2012
au contrôle 2 de statistique
Age Effectif Note ( x i ) Effectif ( n i )
17 1 00,00 710
18 12 0,50 61
19 54 1,00 88
20 149 1,50 64
21 240 2,00 100
22 330 2,17 1
23 390 2,50 74
24 373 3,00 100
25 284 3,50 73
26 170 3,75 1
27 88 4,00 62
28 33 4,50 81
29 18 4,58 1
30 13 4,83 1
31 4 5,00 75
32 3 5,42 1
33 1 5,50 77
34 2 6,00 63
35 4 6,50 54
36 1 7,00 61
37 2 7,50 41
38 2 7,75 1
39 2 8,00 41
Total 2176 8,33 1
8,50 49
9,00 43
9,50 28
9,58 1
10,00 62
10,50 18
10,75 1
11,00 35

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 7


11,50 20
12,00 21
12,50 19
12,83 1
13,00 15
13,50 7
14,00 7
14,50 5
15,00 3
15,50 5
16,00 1
16,50 1
17,50 1
Total 2175

1.3. Tableaux de distribution des effectifs d’une variable continue


Tableau 6 : Répartition par tranche d’âge de la population Burkinabè en 2007
Age Effectif
[0-15[ 6 327 242
[15-65[ 6 786 716
65+ 527 204
Total 13 641 162
Source: Construit à partir de Annexe de EA-QUIBB 2007, page 98

Section 2
Distribution des fréquences simples
Pour tenir compte, de l’effectif total de la population, on introduit la notion de fréquence
d’une modalité. Il s’agit du rapport entre l’effectif de cette modalité ou de cette classe et
n
l’effectif total. On la note: f i  i . Où n est l’effectif total de la population.
n
La fréquence d’une modalité ou d’une classe s’exprime en général en pourcentages et,
p p
généralement f
i 1
i  1 ou encore f
i 1
i  100

2.1. Tableaux de distribution des fréquences simples d’une variable qualitative


Tableau 7 : Distribution des fréquences simples des sexes des étudiants de la seg1-UO II,
2011-2012
Sexe ( x i ) Effectif ( n i ) Fréquence f i %
F 684 31,4
M 1491 68,6
Total 2175 100
Source: construit à partir des données du service informatique (scolarité ufr-seg-uo II),
février 2013
Tableau 8 : Distribution des fréquences des simples des sexes de la population Burkinabè en 2007
Sexe Effectif Fréquence f i %
Masculin 6 710 723 49,20
Féminin 6 927 608 50,80
Total 13 638 331 100

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 8


Source: Construit à partir de Annexe de EA-QUIBB 2007, page 106
Tableau 9 : Répartition des fréquences simples des mentions des étudiants de la seg1-UO II,
admis à la première session de l’année 2011-2012.
Mention Effectif Fréquence f i %
Passable 274 80,83
Assez Bien 56 16,52
Bien 8 2,36
Très Bien 1 0,29
Total 339 100
Source: construit à partir des données du service informatique (scolarité ufr-seg-uo II),
février 2013

2.2. Tableaux de distribution des fréquences simples d’une variable discrète


Tableau 10 : Distribution des fréquences simples Tableau 11 : Distribution des
Des âges des étudiants de la seg1-UO II,
2011-2012 fréquences simples de la note du
contrôle 2 de statistique des étudiants
de la seg1-UO II, 2011-2012
Age Effectif Fréquence f i % Note ( x i ) Effectif ( n i ) Fréquence f i %
17 1 0,05 00,00 710 32,64
18 12 0,55 0,50 61 2,80
19 54 2,48 1,00 88 4,05
20 149 6,85 1,50 64 2,94
21 240 11,03 2,00 100 4,60
22 330 15,17 2,17 1 0,05
23 390 17,92 2,50 74 3,40
24 373 17,14 3,00 100 4,60
25 284 13,05 3,50 73 3,36
26 170 7,81 3,75 1 0,05
27 88 4,04 4,00 62 2,85
28 33 1,52 4,50 81 3,72
29 18 0,83 4,58 1 0,05
30 13 0,60 4,83 1 0,05
31 4 0,18 5,00 75 3,45
32 3 0,14 5,42 1 0,05
33 1 0,05 5,50 77 3,54
34 2 0,09 6,00 63 2,90
35 4 0,18 6,50 54 2,48
36 1 0,05 7,00 61 2,80
37 2 0,09 7,50 41 1,89
38 2 0,09 7,75 1 0,05
39 2 0,09 8,00 41 1,89
Total 2176 100 8,33 1 0,05
8,50 49 2,25
9,00 43 1,98
9,50 28 1,29
9,58 1 0,05
10,00 62 2,85
10,50 18 0,83
10,75 1 0,05
11,00 35 1,61

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 9


11,50 20 0,92
12,00 21 0,97
12,50 19 0,87
12,83 1 0,05
13,00 15 0,69
13,50 7 0,32
14,00 7 0,32
14,50 5 0,23
15,00 3 0,14
15,50 5 0,23
16,00 1 0,05
16,50 1 0,05
17,50 1 0,05
Total 2175 100,00

2.3. Tableaux de distribution des fréquences simples d’une variable continue


La comparaison de classes d’amplitudes différentes se fait à partir du rapport entre l’effectif
ou la fréquence de la classe et son étendue. C’est la densité d’effectif ou de fréquence. En
multipliant la densité d’effectif ou de fréquence par l’amplitude commune, on obtient
l’effectif corrigé ou la fréquence corrigée. Pour la classe [ei−1; ei[:
ni
- la densité d’effectif vaut : d i (ni ) 
ei  ei 1
fi
- la densité de fréquence vaut : d i ( f i ) 
ei  ei 1
ni
- l’effectif corrigé vaut : nic  xac , où ac est l’amplitude commune
ei  ei 1
fi
- la fréquence corrigée vaut : f ic  xac
ei  ei 1
Tableau 12 : Distribution de la densité d’effectif, d’effectif corrigé, de la fréquence simple,
de la densité de fréquence et de la fréquence corrigée de la répartition par tranche d’âge de
la population Burkinabè en 2007
Age Effectif Amplitude
Densité Effectif Densité fréquence
( xi ) ( ni ) ( ai ) effectif corrigé Fréquence f i % fréquence corrigée
[0-15[ 6 327 242 15 421816,13 21090806,67 46,38 3,09 154,61
[15-65[ 6 786 716 50 135734,32 6786716,00 49,75 1,00 49,75
[65-115[ 527 204 50 10544,08 527204,00 3,86 0,08 3,86
Total 13 641 162 ////////// ///////////// ///////////////// 100 /////////////// //////////////
Nous avons pris dans l’élaboration du tableau l’amplitude commune a c  50

Section 3
Distribution des effectifs et des fréquences cumulées
Les effectifs et fréquences définis auparavant donnent des renseignements sur une modalité
donnée. Or, en statistique, on cherche souvent à répondre à des questions du type :
– Pour combien d’individus dans la population la modalité du caractère étudié est-elle
inférieure à une valeur donnée ?
Ou encore
– Quelle est la proportion d’individus dont le caractère étudié prend une valeur supérieure ou
égale à tel nombre ?

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 10


Pour répondre à de telles questions, on définit :
– l’effectif cumulé croissant, noté N(xi)↑, d’une modalité xi comme la somme des effectifs
des modalités x1 à xi-1. Pour une variable continue, c’est la somme du nombre d’individus de
classes de borne strictement inférieure à ei. Il s’agit de n1 + n2 +· · ·+ ni-1.
– l’effectif cumulé décroissant, noté N(xi)↓, d’une modalité xi comme la somme des effectifs
des modalités xi à xp. Pour une variable continue, c’est la somme du nombre d’individus de
classes de borne supérieure ou égale à la borne ei. Il s’agit de ni + ni+1 + · · · + np.
– la fréquence cumulée croissante, noté F(xi)↑, d’une modalité xi comme la somme des
fréquences des modalités x1 à xi-1. Pour une variable continue, c’est la somme des fréquences
des classes de borne strictement inférieure à ei. Il s’agit de f1 + f2 + · · · + fi-1.
– la fréquence cumulée décroissante, noté F(xi)↓, d’une modalité xi comme la somme des
fréquences des modalités xi à xp. Pour une variable continue, c’est la somme des fréquences
des classes de borne supérieure ou égale à ei. Il s’agit de fi + fi+1 + · · · + fp.

3.1. Tableaux de distribution des effectifs et fréquences cumulés d’une variable discrète
Tableau 13 : Distribution des effectifs cumulés croissants et décroissant, des fréquences cumulées
croissantes et décroissantes de la répartition des âges des étudiants de la seg1-UO II , 2011-2012
Effectif Effectif Fréquence Fréquence
cumulé cumulé Fréquence f i % cumulée cumulée
Age Effectif
croissant décroissant croissante décroissante
N(xi)↑ N(xi)↓ F(xi)↑% F(xi)↓%
17 1 1 2176 0,05 0,05 100,00
18 12 13 2175 0,55 0,60 99,95
19 54 67 2163 2,48 3,10 99,4
20 149 216 2109 6,85 9,90 96,92
21 240 456 1960 11,03 21,00 90,07
22 330 786 1720 15,17 36,10 79,04
23 390 1176 1390 17,92 54,00 63,87
24 373 1549 1000 17,14 71,20 45,95
25 284 1833 627 13,05 84,20 28,81
26 170 2003 343 7,81 92,00 15,76
27 88 2091 173 4,04 96,10 7,95
28 33 2124 85 1,52 97,60 3,91
29 18 2142 52 0,83 98,40 2,39
30 13 2155 34 0,60 99,00 1,56
31 4 2159 21 0,18 99,20 0,96
32 3 2162 17 0,14 99,40 0,78
33 1 2163 14 0,05 99,40 0,64
34 2 2165 13 0,09 99,50 0,59
35 4 2169 11 0,18 99,70 0,5
36 1 2170 7 0,05 99,70 0,32
37 2 2172 6 0,09 99,80 0,27
38 2 2174 4 0,09 99,90 0,18
39 2 2176 2 0,09 100,00 0,09

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 11


Total 2176 0 100 0
Tableau 14 : Distribution des effectifs cumulés croissants et décroissant, des fréquences
cumulées croissantes et décroissantes de la notes des étudiants de la seg1-UO II au contrôle
2 de statistique, 2011-2012
Effectif Effectif Fréquence Fréquence
cumulé cumulé Fréquence f i % cumulée cumulée
Effectif
croissant décroissant croissante décroissante
Note N(xi)↑ N(xi)↓ F(xi)↑% F(xi)↓%
0 710 710 2175 32,64 32,64 100
0,50 61 771 1465 2,80 35,45 67,36
1,00 88 859 1 404 4,05 39,49 64,56
1,50 64 923 1 316 2,94 42,44 60,51
2,00 100 1 023 1 252 4,60 47,03 57,57
2,17 1 1 024 1152 0,05 47,08 52,97
2,50 74 1 098 1151 3,40 50,48 52,92
3,00 100 1 198 1077 4,60 55,08 49,52
3,50 73 1 271 997 3,36 58,44 44,92
3,75 1 1 272 904 0,05 58,48 41,56
4,00 62 1 334 903 2,85 61,33 41,51
4,50 81 1 415 841 3,72 65,06 38,66
4,58 1 1 416 760 0,05 65,10 34,94
4,83 1 1 417 759 0,05 65,15 34,89
5,00 75 1 492 758 3,45 68,60 34,84
5,42 1 1 493 683 0,05 68,64 31,39
5,50 77 1 570 682 3,54 72,18 31,34
6,00 63 1 633 605 2,90 75,08 27,8
6,50 54 1 687 542 2,48 77,56 24,9
7,00 61 1 748 488 2,80 80,37 22,42
7,50 41 1 789 427 1,89 82,25 19,62
7,75 1 1 790 386 0,05 82,30 17,73
8,00 41 1 831 385 1,89 84,18 17,68
8,33 1 1 832 344 0,05 84,23 15,79
8,50 49 1 881 343 2,25 86,48 15,74
9,00 43 1 924 294 1,98 88,46 13,49
9,50 28 1 952 251 1,29 89,75 11,51
9,58 1 1 953 223 0,05 89,79 10,22
10,00 62 2 015 222 2,85 92,64 10,17
10,50 18 2 033 160 0,83 93,47 7,32
10,75 1 2034 142 0,05 93,52 6,49
11,00 35 2069 141 1,61 95,13 6,44
11,50 20 2089 106 0,92 96,05 4,83
12,00 21 2110 86 0,97 97,01 3,91
12,50 19 2129 65 0,87 97,89 2,94
12,83 1 2130 46 0,05 97,93 2,07

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 12


13,00 15 2145 45 0,69 98,62 2,02
13,50 7 2152 30 0,32 98,94 1,33
14,00 7 2159 23 0,32 99,26 1,01
14,50 5 2164 16 0,23 99,49 0,69
15,00 3 2167 11 0,14 99,63 0,46
15,50 5 2172 8 0,23 99,86 0,32
16,00 1 2173 3 0,05 99,91 0,09
16,50 1 2174 2 0,05 99,95
17,50 1 2175 1 0,05 100
Total 2175 0 100

3.2. Tableaux de distribution des effectifs et fréquences cumulés d’une variable continue
Tableau 15 : Distribution des effectifs cumulés croissants et décroissant, des fréquences
cumulées croissantes et décroissantes de la population Burkinabè par tranche d’âge en 2007
Age Effectif Effectif Effectif Fréquence Fréquence
cumulé cumulé Fréquence f % cumulée cumulée
i
croissant décroissant croissante décroissante
N(xi)↑ N(xi)↓ F(xi)↑% F(xi)↓%
[0-15[ 6 327 242 6 327 242 13641162 46,38 46,38 100,00
[15-65[ 6 786 716 13113958 7313920 49,75 96,14 53,61
[65-115[ 527 204 13641162 527 204 3,86 100,00 3,86
Total 13 641 162 100

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 13


Chapitre IV
Représentation Graphique
Objectifs spécifiques
- Définir un les graphiques des distributions d’effectifs ou fréquences absolues, de
fréquences relatives d’une variable qualitative, discrète et continue à amplitude
constante ou variable.
- Définir les graphiques des distributions d’effectifs ou de fréquences relatives
cumulées, décroissantes et croissantes d’une variable discrète et continue à amplitude
constante ou variable.
La représentation graphique des données relatives à un caractère unique repose sur la
proportionnalité des longueurs ou des aires des graphiques aux effectifs ou aux fréquences,
des différentes valeurs de la variable.

Section 1
Graphiques des distributions des effectifs et des fréquences simples
Pour les variables qualitatives et quantitatives, l’ensemble des graphiques qui correspond à
une représentation des effectifs ou des fréquences simples prend le nom de diagramme
différentiel
1.1. Variable qualitative
Pour une variable qualitative, on utilise principalement trois types de représentation
graphique. Le diagramme en bâtons, la représentation par tuyaux d'orgue et la représentation
par secteurs.
1.1.1. Diagramme en bâton
Nous portons en abscisse les modalités, de façon arbitraire. Puis en ordonnée des segments de
longueur proportionnelle aux effectifs (ou aux fréquences) de chaque modalité.
1.1.2. Tuyau d’orgue
En abscisses, les modalités sont portées de façon arbitraire. Ensuite, en ordonnées des
rectangles, non contigües de base identique, dont la longueur est proportionnelle aux effectifs,
ou aux fréquences, de chaque modalité.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 14


Graphique 1

Graphique 2
1.1.3. Secteur circulaire
Un disque ou un demi-disque est partagé en tranches ou secteurs correspondant aux modalités
observées. La surface de chaque secteur est proportionnelle à l'effectif ou à la fréquence d’une
modalité.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 15


Graphique 3

1.2. Variable discrète


1.2.1. Diagramme en bâton
A chaque valeur xi de la variable, portée en abscisse, on fait correspondre un segment vertical
de longueur proportionnelle à l’effectif n i ou à la fréquence fi de cette valeur.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 16


Graphique 4

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 17


Graphique 5

1. 3. Variable continue
Quand on construit un histogramme, on fait l'hypothèse implicite que les effectifs sont répartis
uniformément à l'intérieur de la classe, la moyenne de la classe est alors le centre de la classe.

1.3.1. Histogramme
Les modalités exprimées en classes sont portées en abscisses. Puis, en ordonnées des
rectangles dont la longueur est proportionnelle à la densité d'effectif, à la densité de
fréquence, aux effectifs corrigés ou aux fréquences corrigées. L'aire d'un rectangle de cet
histogramme est alors proportionnelle à l'effectif ou à la fréquence de la classe.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 18


Histogramme de la densité d’effectif, de la répartion de la population Burkinabè par tranche d’âge en
2007

450000
400000
Densité des effectifs

350000
300000
250000
200000
150000
100000
50000
0
0 20 40 60 80 100 120
Age ei

Graphique 6

Histogramme de la densité des fréquences , de la répartion de la population Burkinabè par


tranche d’âge en 2007

3,5
densité des fréquences

3
2,5
2
1,5
1
0,5
0
0 20 40 60 80 100 120
Age ei

Graphique 7
Section 2
Graphiques des distributions des effectifs et des fréquences cumulées
Pour les variables quantitatives, la représentation graphique qui correspond à une
représentation des effectifs ou des fréquences cumulés est le diagramme intégral

2.1. Variable discrète


La représentation graphique intégrale correcte est la courbe en escalier des effectifs cumulés
ou des fréquences cumulées : les fréquences des diverses valeurs de la variable statistique
correspondent aux hauteurs des marches de la courbe en escalier.

2.2.1. Courbe en escalier


Par exemple, si x est un nombre réel compris entre deux modalités x 3 et x4 d’une série
statistique, alors l’effectif cumulé croissant associé à la valeur x (c’est à dire, le nombre
d’individus dont le caractère étudié prend une valeur inférieure ou égale à x) est le même que
l’effectif cumulé croissant associé à la modalité x3. Ainsi, l’effectif cumulé croissant est
constant sur tout intervalle du type [xi; xi+1[.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 19


Courbes en escalier des effectifs cumulés croissants et décroissants, des étudiants de la seg1-
UO II selon la note au Contrôle 2 de statistique, 2007-2008

2400
2300
2200
2100
2000
1900
1800
1700
1600
1500
Effectif cumulé

1400
1300 N(x)
1200
1100 N(x)
1000
900
800
700
600
500
400
300
200
100
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Note

Graphique 8

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 20


Courbes en escalier des effectifs cumulés croissants et décroissants, des étudiants de la seg1-UO II selon
la note au Contrôle 2 de statistique, 2007-2008

100
95
90
85
80
75
70
65
Fréquence cumulée

60
F(x)
55
F(x)
50
45
40
35
30
25
20
15
10
5
0
-3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Note

Graphique 9

2.2. Variable continue


La représentation graphique intégrale correcte est la courbe cumulative des effectifs cumulés
ou des fréquences cumulées. Pour que chaque point expérimental représente la fonction de
répartition, il faut prendre pour abscisses les limites supérieures des classes et, pour
ordonnées, les effectifs ou les fréquences cumulées correspondants

2.2.1. Courbe cumulative


La courbe représentative est appelée courbe cumulative. C’est une courbe régulière passant
par les points (ei, N(ei)) ou (ei, F(ei)) où les ei sont les extrémités de classes en abscisses et les
N(ei) ou F(ei) , les effectifs ou les fréquences cumulés en ordonnées.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 21


Courbes cumulatives des effectifs cumulés croissantes et décroissants de la population
Burkinabè par tranche d’âge en 2007

14000000

12000000

10000000
Effectif cumulé

8000000
N(x)
6000000 N(x)

4000000

2000000

0
0 10 20 30 40 50 60 70 80 90 100 110 120
Age ei

Graphique 10

Courbes cumulatives des fréquences cumulées croissantes et décroissantes de


la population Burkinabè par tranche d’âge en 2007

100
90
80
Fréquence cumulée

70
60
F(x)
50
F(x)
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100 110 120
Age ei

Graphique 11

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 22


Chapitre V
Paramètres de position

Les paramètres de position que sont le mode, la médiane, la médiale et les moyennes
permettent de savoir autour de quelles valeurs se situent les valeurs d'une variable statistique.

Section 1
Le mode
Le mode, noté Mo, est la modalité qui admet le plus grand effectif ou la plus grande fréquence
Il est parfaitement défini pour une variable qualitative ou une variable quantitative discrète.
Pour une variable quantitative continue nous parlons de classe modale. C'est la classe dont la
densité d’effectif ou la densité de fréquence ou l’effectif corrigé ou la fréquence corrigée est
maximum.
Exemple 1
Dans le tableau 7, la modalité M représente le mode car ayant le plus grand effectif (1491) ou
la plus grande fréquence (68,6%).

Dans le tableau 8, le mode Mo est représenté par la modalité F. C’est elle qui présente le plus
grand effectif (6 927 608) ou la plus grande fréquence (50,08%).

Dans le tableau 10, le mode Mo est représenté par la modalité 23 ans. C’est elle qui présente
le plus grand effectif (390) ou la plus grande fréquence (17,92%).

Dans le tableau 12, la classe modale est représentée par la classe [0-15[. C’est elle qui
présente la plus grande densité d’effectif ou la plus grande densité de fréquence (50,08%).

Géométriquement, pour une variable qualitative ou une variable discrète, le mode correspond
à la valeur de la variable ayant le plus grand bâton dans leur diagramme en bâton.

Pour une variable quantitative continue le mode peut se définir, en tenant compte des densités
d’effectif de fréquence des 2 classes adjacentes à la classe modale par la méthode suivante.

La classe modale [xi, xi + 1 [ étant déterminée, le mode Mo vérifie :


M o  xi xi 1  M o

1 2
Remarques.
- Lorsque les classes adjacentes à la classe modale ont des densités de fréquences égales, le
mode coïncide avec le centre de la classe modale.
- Le mode dépend beaucoup de la répartition en classes.
- Une variable statistique peut présenter plusieurs modes locaux : on dit alors qu'elle est
plurimodale. Cette situation est intéressante : elle met en évidence l'existence de plusieurs
sous-populations, donc l'hétérogénéité de la population étudiée.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 23


Section 2
La médiane
La médiane Me est telle que l'effectif des observations dont les modalités sont inférieures à
Me est égal à l'effectif des observations dont les modalités sont supérieures à Me. Cette
définition n'a de sens que si les modalités sont toutes ordonnées.

2.1. Variable discrète


Soit k le rang d’une valeur dans la série.
Pour une série discrète, on distingue deux cas suivant la parité de l’effectif total n de la série :
- 1e cas : n est pair. Dans ce cas la médiane est incluse dans l’intervalle [a(k) - a(k+1)] où k
est tel que n = 2k et où a(k) et a(k+1) sont les valeurs associées au rang à k et à k+1
Exemple : si l'on prend la série S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}.
Trouver la médiane
2e cas: n est impair Dans ce cas la médiane est égale à a(k+1) où k est défini par 2k+1 = n et
où a(k+1) est la valeur associée au k+1 position
Exemple : si l'on prend la série précédente mais que l'on enlève le 20ème élément, on alors la
série {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4} ou n = 19, Trouver la médiane.

2.2. Variable continue


Comme dans le cas des séries discrètes, la médiane Me d’une série continue est un nombre
qui sépare les valeurs ordonnées de la série en deux familles de même effectif.

Autrement dit, Me est un nombre en-dessous duquel se trouvent 50% des valeurs de la série.
C’est donc le nombre associé à la fréquence cumulée croissante égale à 50%. La médiane Me
vérifie ainsi la relation : F(Me) = 50%.
Finalement, si ei est la plus petite limite de classe telle que F(ei)  50%, alors la médiane
Me [ei, ei+1[et sera telle que F(ei) <50%< F(ei+1) ou N(ei) < n <N(ei+1). Elle s’obtient par
2
l’interpolation suivante :
n
 N (ei )
F(M e) F(M e) 2
M e ei (ei 1 ei) ou eM  e  ( e  e )
F(ei 1) F(ei) i i 1 i
N (ei 1 )  N (ei )
Exemple : En nous appuyant sur la distribution de fréquences cumulées du tableau 15 et en
appliquant la formule de la médiane on trouve :
F ( M e )  F (15) 50  46,38
M e  15  (65  15)  15  (65  15)  18,63
F (65)  F (15) 96,14  46,38
Sous l’hypothèse de répartition uniforme des valeurs dans les classes, Me est alors l’abscisse
du point d’ordonnée y = 50% sur la courbe des effectifs cumulés ou des fréquences cumulées
croissants ou décroissants de la série classée associée à la série continue étudiée. La médiane
partage aussi l'histogramme des densités d’effectifs ou de fréquence en deux parties d'aires
égales.

Remarque : La médiane ne dépend que de l'ordre des modalités, elle n'est donc pas
influencée par les observations aberrantes.

La médiane n’est pas sensible aux valeurs extrêmes. Si, par exemple, on échange la plus
grande valeur d’une série statistique par une valeur beaucoup plus grande, la médiane reste
inchangée.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 24


Section 3
La médiale
Contrairement à la médiane qui divise la série en deux sous familles de même effectif, la
médiale elle, divise les quantités ou valeurs globales en deux sous familles de même valeur.
La détermination de la médiale nécessite le calcul de fréquences f' ni xi (cas des variables
k
n x
i 1
i i

discrètes) ou f' knici (cas des variables continues), et des fréquences cumulées F'(xi) où
nici i 1
i 1
F'(ei)=  f '.
i 1
i

50F'(ei)
Ml est tel que F'(Ml) =50%, d'où M l ei (ei 1ei)
F'(ei 1)F'(ei)
Tableau 16 : Tableau de calculs de la médiale d’une série de ventes (en millions d’euros) d’un
échantillon de 500 entreprises.
Ventes ei centre ci ni fi % Fci  % n.i ci fi ' % Fi ' ci %  
[0-4[ 2 165 33 33 330 13,15 0
[4-6[ 5 250 50 83 1250 49,80 13,15
[6-9[ 7,5 50 10 93 375 14,94 62,95
[9-11[ 10 25 5 98 250 9,96 77,89
[11-50[ 30.5 10 2 100 305 12,15 87,85
Total ////// 500 100 ////// 2510 100 100
5013,15
M l[46[ . Donc M l 4(64) 5,479919679
62,9513,15
La médiale étant de 5479919,679 euros cela signifie que, le cumule des ventes des entreprises
dont les ventes sont inférieures à 5479919,679 euros est égale au cumule des ventes des
entreprises dont les ventes sont supérieures à 5479919,679 euros.

Remarque : La médiale n'est pas le chiffre d’affaires gagné par l’entreprise qui est "au milieu
de la file", mais le chiffre d’affaires gagné par l’entreprise qui permet d'atteindre la moitié de
la masse totale des chiffres d’affaires.

Section 4
Les quantiles
Par extension de la notion de médiane, on appelle, pour une série aux valeurs ordonnées dans
l’ordre croissant ou décroissant, quantile d’ordre , noté x , une valeur en dessous de laquelle un
pourcentage  d'observations sont situées. F( x ) mesure donc la proportion  des individus qui
possèdent la valeur xi inférieure à x .

Comme la médiane, les quantiles ne sont pas forcément uniques et ne sont pas toujours des
modalités de la série. Leur détermination dépend également de la parité de l’effectif total et de
la parité de l’effectif des sous-séries séparées par la médiane pour une série discrète.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 25


Les quantiles d'ordre 0,25, x0,25 ; d'ordre 0,5, x0,5 ; et d'ordre 0,75, x0,75 ; sont appelés des
quartiles et divisent la population en quatre parties égales. Ils sont aussi notés Q1, Q2, et Q3.
D'où F(Q1)=25%, F(Q2)=50% et F(Q3)=75%.

Sous l’hypothèse de répartition uniforme des valeurs dans les classes, les quartiles Q1, Q2 et
Q3 correspondent, graphiquement, approximativement aux abscisses des points d’ordonnées
respectives y1 = 25%, y2 = 50% et y3 = 75% de la courbe cumulative des fréquences cumulées
croissantes de la série classée associée à une série continue étudiée.

Remarquons que Le quantile d'ordre 0,5 ie x0,5 ou deuxième quartile Q2, n’est autre que la
médiane Me de la série.

Les quantiles d'ordre 0,1, x0,1 ; d'ordre 0,2, x0,2 ; …; et d'ordre 0,9, x0,9 ; sont appelés des
déciles et divisent la population en dix parties égales. Ils sont aussi notés D1, D2, D3, …, et
D9.D'où F(D1)=10%, F(D2)=20%,… F(D9)=90%.

Les quantiles d'ordre 0,01, x0,01 ; d'ordre 0,02, x0,02 ; …; et d'ordre 0,99, x0,99 ; sont appelés des
centiles et divisent la population en cent parties égales. Ils sont aussi notés C 1, C2, C3, …, et
C99.D'où F(C1) =1%, F(C2)=2%,… F(C99)=99%.
On remarque que F( x0,5 )=F(Me)=F(Q2)=F(D5)=F(C50)=50%, alors x0,5 = Q2= D5= C50.

Les valeurs des quantiles peuvent s’obtenir par interpolation linéaire de la manière suivante :
F(x )F(ei)
x = ei (ei 1ei) avec, x est tel que F( x ) =  ou N( x ) = N
F(ei 1)F(ei)
Exemple : Si le salaire médian d’une entreprise s’élève à 1300€, cela signifie que la moitié
des salariés gagne plus de 1300€ et la moitié moins. Si le troisième quartile de cette même
distribution de salaires vaut 2000€, 75% des salariés de l’entreprise ont un salaire inférieur à
2000€ et 25% un salaire supérieur.

Section 5
Les moyennes
La moyenne est un paramètre de position dont le calcul prend en compte l’ensemble des
valeurs de la série statistique. Elle est donc plus appropriée dans beaucoup de cas.

5.1 La moyenne arithmétique


La moyenne arithmétique se calcule pour des phénomènes ou l'addition des valeurs a une
signification concrète:
p

n x i i p
x ou encore x  fi xi
i 1
N i 1
On peut distinguer la moyenne arithmétique simple et pondérée. Dans la moyenne
arithmétique simple, toutes les valeurs de la variable ont le même poids tandis que, dans la
moyenne arithmétique pondérée chacune des valeurs de la variable est affectée d’un poids
différent.
Calculons la moyenne des notes de contrôle 2 de statistique des étudiants de seg1-UO II, en
2007-2008. Pour cela établissons le tableau de calculs suivants :

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 26


Tableau 17 : Tableau de calculs de la moyenne et de la variance de la note de contrôle 2 de
statistique des étudiants de la seg1-UO II, 2011-2012.
Note Effectif fi % ni x i f i xi ni xi2 f i xi2
0 710 32,64 0 0 0 0
0,5 61 2,8 30,5 1,4 15,25 0,7
1 88 4,05 88 4,05 88 4,05
1,5 64 2,94 96 4,41 144 6,615
2 100 4,6 200 9,2 400 18,4
2,17 1 0,05 2,17 0,1085 4,7089 0,235445
2,5 74 3,4 185 8,5 462,5 21,25
3 100 4,6 300 13,8 900 41,4
3,5 73 3,36 255,5 11,76 894,25 41,16
3,75 1 0,05 3,75 0,1875 14,0625 0,703125
4 62 2,85 248 11,4 992 45,6
4,5 81 3,72 364,5 16,74 1640,25 75,33
4,58 1 0,05 4,58 0,229 20,9764 1,04882
4,83 1 0,05 4,83 0,2415 23,3289 1,166445
5 75 3,45 375 17,25 1875 86,25
5,42 1 0,05 5,42 0,271 29,3764 1,46882
5,5 77 3,54 423,5 19,47 2329,25 107,085
6 63 2,9 378 17,4 2268 104,4
6,5 54 2,48 351 16,12 2281,5 104,78
7 61 2,8 427 19,6 2989 137,2
7,5 41 1,89 307,5 14,175 2306,25 106,3125
7,75 1 0,05 7,75 0,3875 60,0625 3,003125
8 41 1,89 328 15,12 2624 120,96
8,33 1 0,05 8,33 0,4165 69,3889 3,469445
8,5 49 2,25 416,5 19,125 3540,25 162,5625
9 43 1,98 387 17,82 3483 160,38
9,5 28 1,29 266 12,255 2527 116,4225
9,58 1 0,05 9,58 0,479 91,7764 4,58882
10 62 2,85 620 28,5 6200 285
10,5 18 0,83 189 8,715 1984,5 91,5075
10,75 1 0,05 10,75 0,5375 115,5625 5,778125
11 35 1,61 385 17,71 4235 194,81
11,5 20 0,92 230 10,58 2645 121,67
12 21 0,97 252 11,64 3024 139,68
12,5 19 0,87 237,5 10,875 2968,75 135,9375
12,83 1 0,05 12,83 0,6415 164,6089 8,230445

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 27


13 15 0,69 195 8,97 2535 116,61
13,5 7 0,32 94,5 4,32 1275,75 58,32
14 7 0,32 98 4,48 1372 62,72
14,5 5 0,23 72,5 3,335 1051,25 48,3575
15 3 0,14 45 2,1 675 31,5
15,5 5 0,23 77,5 3,565 1201,25 55,2575
16 1 0,05 16 0,8 256 12,8
16,5 1 0,05 16,5 0,825 272,25 13,6125
17,5 1 0,05 17,5 0,875 306,25 15,3125
Total 2175 100 8043 370,3845 62355,3523 2873,6451

En appliquant la formule de la moyenne arithmétique, nous trouvons


p

n x i i
8043 p
370,38
x i 1
=x 
 3, 69 ou par la formule : x  fi xi = x   3,70
N 2175 i 1 100
Tableau 18 : Tableau de calculs de la moyenne et de la variance des âges de la population
burkinabè en 2007.
ei ci ni fi % ni ci f i ci ni ci2 f i ci2
[0-15[ 7,5 6327242 46,38 47454315 347,85 355907362,5 2608,875
[15-65[ 40 6 786 716 49,75 271468640 1990 10858745600 79600
[65-115[ 90 527 204 3,86 47448360 347,4 4270352400 31266
Total 13 641 162 100 366371315 2685,25 15485005363 113474,875
En appliquant la formule de la moyenne arithmétique, nous trouvons
p

n c i i
366371315
x i 1
=x   26,85777905 ou par la formule :
n 13641162
p
2685,25
x   f i ci = x   26,8525
i 1 100

5.2 La moyenne géométrique


Si xi sont les observations d'une variables quantitative et ni les effectifs correspondants, la
n p
moyenne géométrique est égale: G  n  xini  p x1n1 .x2n2 ....x pp avec n n
n
i
i 1 i 1

Le coefficient multiplicateur moyen est égal à la moyenne géométrique des coefficients


multiplicateurs. La moyenne géométrique est donc utilisée pour calculer des moyennes de
taux de croissance.

5.3 La moyenne harmonique


Si xi sont les observations d'une variable quantitative, la moyenne harmonique est égale à:
H  pN ou encore H  p1
 
ni fi
i 1 xi x
i 1 i

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 28


La moyenne Harmonique est utilisée souvent pour calculer des performances moyennes par
unité de temps. Elle intervient lorsqu'on demande une moyenne de valeurs se présentant sous
forme de quotient de deux variables x/y (km/h, km/litre,…).

5.4 La moyenne quadratique


La moyenne quadratique Q se calcule dans les cas où l'on désire que la valeur moyenne soit
positive, et les cas où l'on souhaite donner plus de poids aux grandes valeurs. Sa formule est:
p p
Q  ni xi2 ou encore Q
i 1 N
f xi 1
i i2

5.5 Les propriétés de la moyenne


Propriété 1: la moyenne arithmétique est linéaire. Pour deux séries statistiques
( xi , ni ) et ( yi , ni ), si xi  ayi  b où a et b sont des réels, alors x  ay  b

Propriété 2: La moyenne arithmétique peut se calculer par changement de variable


Pour cela, transformons la variable de départ X: X=aY+b en choisissant a comme l'amplitude
commune (ou la plus petite) et b comme le mode ou la médiane. Nous tirons alors une
X b
nouvelle variable Y en fonction de X: Y  . Puis nous calculons la moyenne de la
a
nouvelle Y, de laquelle nous déduisons celle de X par application de la propriété de linéarité.
Cette opération a pour but généralement de simplifier les calculs.

Propriété 3: La moyenne des différences à la moyenne est nulle.


p

 n (x i i  x)
Pour toute série statistique ( xi , ni )  i 1
0
N
Propriété 4: La moyenne est la valeur la plus proche de toutes les observations en raison
de la propriété 3, et parce qu’elle est la valeur qui minimise la moyenne des écarts à tout réel
non nul a.

Section 6
Le boxplot
La boîte à moustaches, ou diagramme en boîte, ou encore boxplot en anglais, est un
diagramme simple qui permet de représenter la distribution d'une variable. Ce diagramme est
composé de :
- Un rectangle qui s'étend du premier au troisième quartile. Le rectangle est divisé par une
ligne correspondant à la médiane.
- Ce rectangle est complété par deux segments de droites.
Pour les dessiner, on calcule d'abord les quartiles. On identifie ensuite la plus petite et la plus
grande observation. On trace les segments de droites reliant ces observations au rectangle.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 29


Chapitre VI
Paramètres de dispersion

Objectifs spécifiques
- Définir les principaux paramètres de dispersion
- Calculer les principaux paramètres de dispersion
- Interpréter les principaux paramètres de dispersion

Les paramètres de dispersion permettent d’avoir une connaissance globale de la répartition


des valeurs autour des paramètres de position. Ils permettent de mieux cerner les
caractéristiques des séries étudiées. Les paramètres de dispersion (étendue, intervalle
interquartile,) sont calculés pour les variables statistiques quantitatives. Certaines de ces
statistiques, tout en résumant la dispersion de la série, tiennent aussi compte de sa valeur
centrale. C’est le cas de l’écart-type, de la variance et du coefficient de variation.

Section 1
L’étendue
L'étendue de X est la différence entre la plus grande valeur de X et la plus petite valeur de X.
Étendue = xmax − xmin
Pour une série continue, l’étendue peut toujours se définir à partir de la série classée, de deux
façons :
– Soit comme la différence entre la limite supérieure emax de la dernière classe et la limite
inférieure emin de la première classe. C’est la définition que nous utiliserons dans le cadre de
ce cours :
Étendue = emax − emin
– Soit comme la différence entre le centre cmax de la dernière classe et le centre cmin de la
première classe :
Étendue = cmax − cmin
L’intérêt de l’étendue est limité par le fait qu'il dépend uniquement des valeurs extrêmes, qui
peuvent être des valeurs aberrantes.

Section 2
Ecarts inter-quantile
Comme la moyenne arithmétique, l’étendue présente le défaut d’être très sensible aux valeurs
extrêmes et aberrantes. Pour éviter de prendre en compte les valeurs extrêmes, on peut utiliser
les écarts inter-quantile

2.1. Intervalle interquartile


L'intervalle interquartile est la différence entre les valeurs du troisième quartile Q3 et du
premier quartile Q1 .
IQ  Q3  Q1
L’intervalle interquartiles [Q3 , Q1 ] délimitent une plage au sein de laquelle environ 50% des
valeurs de la série sont concentrées. Plus cet intervalle est large, plus la série est dispersée.
C’est aussi l’amplitude de l’intervalle qui contient 50% des valeurs ”les moins extrêmes”,
c’est à dire l’intervalle qu’on obtient en enlevant à la série les 25% plus faibles valeurs et les
25% plus fortes valeurs.

2.2. Intervalle interquartile relatif


L'intervalle interquartile relatif est le rapport entre l'intervalle interquartile et la médiane, et
mesure la proportion dans laquelle la médiane est expliquée par l'intervalle interquartile:

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 30


Q3  Q1
IQR 
Q2
2.3. Intervalle inter décile
L'intervalle inter décile est la différence entre le neuvième et le premier décile:
ID  D9  D1
Cet intervalle mesure l'écart entre les 10% plus petites valeurs et les 10% plus grandes
valeurs.

2.4. Intervalle inter centile


L'intervalle inter centile est la différence entre le quatre-vingt-dix neuvième et le premier
centile.
IC  C99  C11
C’est un intervalle mesure l'écart entre les 1% plus petites valeurs et les 1% plus grandes
valeurs.
Remarque
Dans tous les cas ils mesurent la dispersion autour de la médiane. Ils donnent l’amplitude de
l’intervalle qui contient 80% de la population étudiée pour ID et 98% pour IC.

Section 3
Ecarts moyen
Pour tenir compte de toutes les valeurs de la série dans l’estimation de la dispersion de ces
valeurs, on peut calculer la moyenne des écarts entre chaque valeur de la série et la moyenne
arithmétique de cette série. C’est l’écart absolu moyen par rapport à la moyenne noté Eam.
Pour une série statistique notée X d’effectif total n, de modalités x1 , x2 , . . . , xp et d’effectifs
ni , on a:
p

n i xi  x
Eam  i 1

n
Les valeurs absolues sont nécessaires pour que les écarts positifs ne soient pas compensés par
les écarts négatifs.
On pourrait aussi définir l'écart absolu moyen de X par rapport à sa médiane, ou par rapport à
un nombre réel a quelconque.
p

n i xi  a
Eam  i 1

n
On peut démontrer que l'écart absolu moyen par rapport à un nombre réel a est minimum
lorsque a est égal à la moyenne de X.
Plus l’écart absolu moyen par rapport à la moyenne est élevé, plus il y a de valeurs éloignées
de la moyenne. L’écart absolu moyen est donc bien un paramètre de dispersion, c’est à dire un
indicateur de l’étalement des valeurs recueillies.

Remarque
Lorsque les observations sont groupées par classe, on adopte généralement pour valeur de
variable statistique le centre de chaque classe.
L'écart absolu moyen présente un inconvénient majeur : il ne se prête pas facilement aux
calculs algébriques, à cause de la valeur absolue.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 31


Section 4
La variance et l’écart type
4.1 Variance
On appelle variance d’une série statistique X , et on note V ( X ) ou  X2 , la moyenne des carrés
des écarts entre les valeurs de la série et la valeur moyenne. La formule de définition de la
variance est:
p

 n (x i i  x)2 p
 X2  i 1
ou encore  X2  fi(xi  x )
n i 1
La variance est un nombre positif qui est d’autant plus élevé que les valeurs de la série sont
dispersées.
La formule développée de la variance (formule de la variance), qui n’est qu’un cas particulier
du théorème de König, nous donne:
p

n x i
2
i p
 X2  i 1
 x 2 ou encore  X2  fi xi2  x 2
n i 1
Cette formule s’interprète en disant que la variance d’une série statistique X est la différence
entre la moyenne des carrés des valeurs de cette série et le carré de la moyenne des valeurs de
cette série.
L’expression de la variance peut s’obtenir aussi à travers la moyenne quadratique et cela, nous
donne :
p
 Q  x puisque Q
2
X
2 2
f x
i 1
i i2

A partir du tableau 17, calculons la variance des notes de contrôle 2 de statistique des étudiants de la
seg1-UO II, 2007-2008
L’application la formule de la variance en utilisant les effectifs, nous donne :
p

n x i
2
i
62355,35
 X2  i 1
 x2 
 (3,70) 2  14,97
n 2175
L’application la formule de la variance en utilisant les fréquences, nous donne :
p
2873,64
 X2  fi xi2  x 2   (3,70) 2  15,04
i 1 100
A partir du tableau 18, calculons la variance des âges de la population burkinabè en 2007.

L’application la formule de la variance en utilisant les effectifs, nous donne :


p

n c 2
i i
15485005363
 X2  i 1
 x2   (26,85) 2  414,2451171
n 13 641162
L’application la formule de la variance en utilisant les fréquences, nous donne :
p
113474,875
 2
X   f i ci2  x 2   (26,85) 2  413,82625
i 1 100

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 32


Propriété : changement de variable
Comme la moyenne arithmétique, la variance peut se calculer par changement de variable. En
effet, si deux variable statistiques X et Y , sont liées par la relation X  aY  b , alors nous
avons les relations suivantes:
 X2  a2 Y2 où  X2 et  Y2 sont les variances respectives de X et Y:
 X  a  Y ou  X et  Y sont les écarts types respectifs de X et de Y
- X a Y

x ay  b

4.2 L’écart type


Pour se donner un paramètre de dispersion conservant les qualités de la variance et étant de
même dimension que les valeurs de la série à laquelle il se réfère, on introduit l’écart type.
L’écart type  X d’une série statistique X est tout simplement la racine carrée de la variance
de cette série.

De façon générale :
- Si l’écart-type est faible, cela signifie que les valeurs sont assez concentrées autour de la
moyenne.
- Si l’écart-type est élevé, cela veut dire au contraire que les valeurs sont plus dispersées
autour de la moyenne

Formellement, l’écart type est donné par :  X   X2


L’écart type des notes de contrôle 2 de statistique des étudiants de la seg1-UO II, 2011-2012
:  X   X2  15,04  3,87
L’écart type des âges de la population burkinabè en 2007
:  X   X2  414,24  20,35288677

4.3 Le coefficient de variation


Le coefficient de variation est une mesure de la dispersion relative d’une série. Il peut être
utilisé pour comparer des dispersions de différentes séries. D’où la nécessité d’être exprimées

dans la même unité. Aussi le coefficient de variation CV 
x
Il est sans unité et nous l'exprimerons de préférence en pourcentage pour une appréciation
plus immédiate de la dispersion.

Coefficient de variation des notes de contrôle 2 de statistique des étudiants de la seg1-UO II,
2011-2012:
3,86
CV   0,724137 . Soit %
3,70
Coefficient de variation des âges de la population burkinabè en 2007:
20,35
CV   0,757914 . Soit 75,79%
26,85

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 33


Section 5
Les moments
Un moment est une moyenne des écarts par rapport à un réel non nul « a » élevés à une
puissance « r » ; r étant un entier naturel.
Le moment d’ordre r par rapport à a est le nombre mr a  :
p

 n x i i  a
r
p
mr a   i 1
ou encore mr a    f i  xi  a 
r

n i 1

En posant a = 0, nous définissons le moment non centré d’ordre r noté mr :


p

n x i
r
i p
mr  i 1
ou encore mr   f i xir
n i 1

Nous obtenons le moment centré d’ordre r, r , en posant a= x


p

 n x i i  x
r
p
r  i 1
ou encore  r   f i  xi  x 
r

n i 1

Remarque : m0  1; m1  x; m2  Q 2 ;  0  1; 1  0;  2   2  m2  m12
Il existe des relations entre les moments centrés et les moments non centrés que l’on pourra
démontrer en utilisant le binôme de Newton.
r 2 r 2
- r 1 Cr m1 mr  1 r 1m1r et mr Cr r  m1 m1r
 r 1

 0  0

En appliquant la première formule, nous trouvons :


3 m3 3m1m2 2m13 et 4 m4 4m3m16m2m12 3m14 .
Les quatre étapes suivantes sont nécessaires dans le calcul des moments centrés d’une variable X.
a) Effectuer un changement de variable : Y  X b
a
b) Calculer les moments non centrés de la variable Y notés mr Y 
c) Calculer les moments centrés de la variables Y notés rY 
d) Déduire les moments centrés de la variable X notés r X  à partir de la relation
r X ar rY 

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 34


Chapitre VII
Les paramètres de concentration

Objectifs spécifiques
- Définir les principaux paramètres de concentration
- Calculer les principaux paramètres de concentration
- Interpréter les principaux paramètres de concentration

La concentration d’une distribution mesure sa répartition par rapport à une distribution idéale
ou distribution normale où, les écarts entre les observations sont parfaitement égalitaires.
Donc il s’agit de comparer deux séries de fréquences cumulées. Mais ces fréquences
cumulées (distributions) doivent avoir un lien économique rationnel entre elles.
Les paramètres de concentration s’interprètent comment les paramètres de dispersion. Car à
une grande dispersion correspond obligatoirement une forte concentration.

Section 1
Ecart en médiale et médiane
La comparaison des valeurs de la médiale et de la médiane, M l M e , constitue une mesure de
la concentration. Lorsque l'écart entre la médiale et la médiane est important par rapport à
Ml Me
l'étendue de la distribution de la variable, , la concentration est forte.
w

Si la distribution est égalitaire, la concentration est faible et l'écart entre la médiale et la


médiane est faible.
La médiale est toujours supérieure à la médiane, puisque 50 % des effectifs cumulés
croissants ne permettent jamais d'atteindre 50 % de la masse totale.
Mais la concentration d’une distribution s’apprécie difficilement bien à partir de ces
différences. C’est pourquoi en pratique on utilise souvent les courbes et indice de
concentration.

Section 2
Courbe de concentration de Lorenz
Considérons la distribution des salaires dans la population des salariés d'une entreprise.
Les salaires sont divisés en n classes : la ième classe, [ei , ei 1 [ a, pour centre, c i et, pour
effectif, n i .
On note pi la fréquence cumulée de ei 1 : c'est la proportion de salariés dont le salaire est
strictement plus petit que ei 1 .
On note q i la proportion de masse salariale représentée par les salariés dont le salaire est
strictement plus petit que ei 1 .
On appelle courbe de concentration, ou courbe de Lorenz, la courbe régulière passant par les
'
points de coordonnées ( pi , qi ) . Avec F (ei 1 )  p i et F (ei 1 )  qi
La courbe de Lorenz est toujours inscrite dans le carré [0, 100] × [0, 100].

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 35


Tableau 19 : Calcul des éléments intervenant dans la représentation de la courbe de
concentration de Lorenz et du calcul de l’indice de Gini de la série de ventes (en millions
d’euros) d’un échantillon de 500 entreprises (tableau 7).
Ventes centre ni fi % Fci  pi % n.i ci  
fi ' % Fi ' ci qi % qi qi 1 % fiqi qi 1 .104
ei ci
[0-4[ 2 165 33 33 330 13,15 13,15 13,15 433,95
[4-6[ 5 250 50 83 1250 49,80 62,95 76,1 3805
[6-9[ 7,5 50 10 93 375 14,94 77,89 140,84 1408,4
[9-11[ 10 25 5 98 250 9,96 87,85 165,74 828,7
[11-50[ 30.5 10 2 100 305 12,15 100 187,85 375,7
500 2510 6851,75

Courbe de Lorenz des ventes d’un échantillon de 500 entreprises

Courbe de concentration des ventes d'un échantillon de 500


entreprises

100

90

80

70
fréquence F'(ei) = qi

60

50

40

30

20

10

0
0 10 20 30 40 50 60 70 80 90 100
fréquence F(ei) = Pi

Graphique 12

La courbure de la courbe de Lorenz peut être interprétée comme un indice d'inégalité.


En effet, dans une situation hypothétique d'égalité absolue, la courbe de Lorenz et la première
bissectrice seront confondues. Dans ce cas, on aura une concentration nulle.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 36


Section 3
Indice de Gini
L’indice de Gini, est obtenu en déterminant la surface S comprise entre la courbe de Lorenz
et la première bissectrice et en rapportant cette surface à la surface du demi-carré dans lequel
s'inscrit cette courbe. Comme la surface du carré est 1, l'indice de Gini est le double de l'aire
S comprise entre la courbe de Lorenz et la première bissectrice du carré. Numériquement, on
peut calculer l'indice de Gini par la formule :
k
i1 fi(qi qi 1) . Avec 0i1
i 1
De façon générale, l'indice de Gini peut être interprété comme ayant une valeur d'autant plus
grande que l'inégalité est grande : il constitue donc une bonne mesure de l'inégalité.

Pour l’exemple traité, i=1-0,685175=0,314825 soit 31,48%. Ce faible pourcentage relatif


confirme une faible concentration des parts de marchés.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 37


Chapitre VIII
Les paramètres de forme

Objectifs spécifiques
- Définir quelques indices de forme et d’aplatissement
- Calculer les indices de forme et d’aplatissement
- Interpréter les indices de forme et d’aplatissement

Les indices de position et de dispersion ne sont pas toujours suffisants pour caractériser les
données. Car, la forme de la distribution, qui s'apprécier de façon visuelle à l'aide de
diagrammes, constitue aussi un élément d'information important. Mais, l’existence d’aspect
tel que, l’aplatissement, ne pouvant s’apprécier visuellement nous amène à introduire des
indices qui permettent de quantifier exactement ces deux informations de forme que sont :
l’asymétrie et l’aplatissement.

Section 1
L’asymétrie
L’asymétrie, à travers les différents coefficients qui le représente, mesure la régularité ou non
de la répartition des observations autour d’une valeur centrale.

1.1. Comparaison de paramètres de position


Le mode, la médiane et la moyenne arithmétique peuvent être utilisés pour caractériser la
forme ou l’allure de la distribution de fréquence d’une variable.
Si Mo = Me = x , la distribution de la variable est symétrique.
Si Mo > Me > x , la distribution est asymétrique, étalée à gauche (ou oblique à droite).
Si Mo < Me < x , la distribution est asymétrique, étalée à droite (ou oblique à gauche).

1.2. Coefficient d’asymétrie de YULE


Le coefficient d'asymétrie de Yule fait intervenir la médiane et les quartiles, il est défini par:
(Q3 M e)(M e Q1) Q1Q3 2M e
S1 
(Q3 M e)(M e Q1) Q3 Q1
Si S1 = 0 la distribution est dite symétrique. Sinon elle est asymétrique à droite (étalement des
observations vers la droite) : cas où 0S11 , ou asymétrique à gauche (étalement des
observations vers la gauche) : cas où 1S10 .

1.3. Les coefficients d’asymétrie de Pearson


Le coefficient d'asymétrie de Pearson fait intervenir le mode Mo, quand il existe, il est défini
par :
S2  x  M o .

Quand la distribution est plurimodale en lieu et place du mode on utilise la médiane. Cela
donne :
3(x M e)
S2 

Avec 1S2 1 . S2 s’interprète comme S1 .
On utilise souvent un coefficient d'asymétrie de Pearson basé sur les moments centrés. C’est le
second coefficient d’asymétrie de Pearson :
32 2
1  ou encore 1  3 avec 10 .
23 6

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 38


La distribution est dite symétrique pour 10 , faiblement asymétrique pour 1 petit et
fortement asymétrique pour 1 grand.

1.4 Coefficient d’asymétrie de Fisher


Le coefficient d'asymétrie de Fisher fait intervenir les moments centrés, il est défini par:
3 3
 1 ou 1  ou encore  1  1 .
23  3

En pratique, si  1 ]  0,5;0,5[ , la distribution est dite symétrique. Sinon elle est dite
asymétrique à droite pou r 10 , ou asymétrique à gauche pour  1  0 .

Etalement à gauche Symétrie Etalement à droite


Indice négatif Indice nul Indice positif

Section 2
L’aplatissement
L’aplatissement se défini par la variation de la fréquence en fonction de la variation de la
valeur de la variable.
A moyenne et variance égales, l'allure générale de la distribution peut être plus ou moins
voûtée ou aplatie. Il existe plusieurs indices qui permettent de mesurer l'aplatissement, ou à
l'inverse, la concentration des données autour de la moyenne. Car :
Faible concentration  Aplatissement élevé ;

Concentration normale  Aplatissement normal ;


Concentration élevée  Aplatissement faible.
L'aplatissement est plus difficile à apprécier de façon visuelle que l'asymétrie, et un indice
quantitatif est donc particulièrement utile.

2.1. Le coefficient d’aplatissement de Pearson


Il s’écrit :
4 4
2  
2  4
2

Si  2  3 alors la distribution est mesokurtique (moyennement aplatie) ou est normale ;


Si  2  3 alors distribution est leptokurtique (faiblement aplatie) ou moins aplatie que la
distribution normale ;
Si  2  3 alors distribution est platikurtique (fortement aplatie) ou plus aplatie que la
distribution normale.
La quantité 3   2 est appelée excès d’aplatissement.
2.2 Le coefficient d’aplatissement de Fisher
Il s’agit d’un coefficient de Pearson centré sur 0.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 39


4
2   3  2  3
4
Dans la mesure où  2 est exprimé en fonction de  2 , son interprétation est immédiate à partir
de celle de  2 .

Faible concentration Concentration normale Concentration élevée


Aplatissement élevé Aplatissement normal Aplatissement faible

Indice négatif Indice nul Indice positif

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 40


Chapitre IX
Les mélanges de populations

Le mélange de population consiste en l’étude séparée selon le même caractère de sous


ensemble d’une population et à établir une relation entre les paramètres des sous ensembles et
ceux de la population totale.

Section I
Tableau de mélange de populations
Dans un tableau de mélange de populations, on met en lignes les différentes valeurs de la
variable étudié, et en colonnes les sous populations correspondantes. Le tableau 20 est un
exemple de mélange de populations

Tableau 20 : Répartition des âges selon le sexe des étudiants de la seg1-uo2, 2011-2012
Age ( x i ) Filles ( n i1 ) Garçons ( ni 2 ) Ensemble ( ni. )
17 1 0 1
18 8 4 12
19 18 36 54
20 59 90 149
21 74 166 240
22 94 236 330
23 113 277 390
24 120 253 373
25 106 178 284
26 50 120 170
27 24 64 88
28 6 27 33
29 4 14 18
30 3 10 13
31 0 4 4
32 2 1 3
33 0 1 1
34 0 2 2
35 2 2 4
36 0 1 1
37 0 2 2
38 0 2 2
39 0 2 2
Total 684 1492 2176

- P : Population globale, appelé population mère;


- Ph : Sous population où h varie de un au nombre de sous populations. On note
généralement par m le nombre total de sous populations ;
- nh : Effectif de chaque sous population ;
m
- n : Effectif de la population global. Avec n   nh .
h 1

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 41


Dans notre exemple il y a deux sous populations P1 pour les étudiantes et P2 pour les
étudiants.
- nih : Nombre d'individus d’une sous population Ph qui possèdent la modalité x i d'une
variable X ;
- ni. : Effectif total des individus à travers l’ensemble des sous population possédant la
m
modalité x i . Dans ce cas ni.   nih ;
h 1

- nh : Effectif d’une sous population. C’est l’ensemble des individus de cette sous
p
population. Il est donné par la relation suivante : n h   nih
i 1

On peut constater que l’effectif de la population globale peut s’obtenir avec les deux relations
suivantes :
m
- n   nh , c'est-à-dire en additionnant l’effectif de chacune des sous population ;
h 1
p
- n   ni. , c'est-à-dire par addition des effectifs correspondant à chaque modalité x i
i 1
indépendamment de la sous population.

On peut aussi calculer les fréquences correspondantes à toutes les valeurs contenues dans le
tableau de mélange de population.
n
- f h  h : Fréquence de la sous population dans la population globale ou proportion
n
du mélange ;
n
- f ih  ih : Fréquence dans une sous population des individus ayant la modalité x i ;
nh
n
- f i.  i. : Fréquence dans la population globale des individus possédant la
n
modalité x i , indépendamment de la sous population.

On peut aussi établir entre les différentes fréquences des relations qui s’expriment de la
manière suivante :
m
- f i.   f h f ih
h 1
m p P
- h 1
f h   f ih   f i.  1
i 1 i 1

Section 2
Moyenne et relation entre moyenne
Il existe des relations entre les paramètres calculés de la population mère et ceux calculés des
sous populations.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 42


2.1 La moyenne de la population mère
p

n x i. i p
x i 1
  f i . xi
n i 1

Tableau 21 : Tableau de calculs de la moyenne des sous populations et de la moyenne de la


population globale
Age ( x i ) Filles ( n i1 ) Garçons ( ni 2 ) ( ni. ) ni1 xi ni 2 x i ni. xi
17 1 0 1 17 0 17
18 8 4 12 144 72 216
19 18 36 54 342 684 1026
20 59 90 149 1180 1800 2980
21 74 166 240 1554 3486 5040
22 94 236 330 2068 5192 7260
23 113 277 390 2599 6371 8970
24 120 253 373 2880 6072 8952
25 106 178 284 2650 4450 7100
26 50 120 170 1300 3120 4420
27 24 64 88 648 1728 2376
28 6 27 33 168 756 924
29 4 14 18 116 406 522
30 3 10 13 90 300 390
31 0 4 4 0 124 124
32 2 1 3 64 32 96
33 0 1 1 0 33 33
34 0 2 2 0 68 68
35 2 2 4 70 70 140
36 0 1 1 0 36 36
37 0 2 2 0 74 74
38 0 2 2 0 76 76
39 0 2 2 0 78 78
Total 684 1492 2176 15890 35028 50918
L'âge moyen des étudiants de la seg1-uo2 en 2011-2012 de 23,39 ans.
2.2 La moyenne des sous populations
p

n ih xi p
La moyenne de la sous population Ph est xh : x h  i 1
  f ih xi . x1  23,23 ans et
nh i 1

x2  23,47 ans
L’âge moyen des étudiantes est x1 et des étudiants est x2 en 2011-2012. En 2011-2012, les
étudiantes étaient moins âgées que les étudiants en moyenne.
2.3 Relation entre moyennes
La moyenne de la population mère est égale à la moyenne pondérée des moyennes des sous
m

n x h h m
populations pondérées par les proportions du mélange: x  h 1
  ph xh
n h 1

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 43


Nous démontrons facilement cette relation:
p p m m p m
x   f i. xi    f h f ih   f h  f ih xi   f h x h =23,39 ans
i 1 i 1 h 1 h 1 i 1 h 1
Dans cette relation, nous tirons par, définition, une autre relation: La moyenne de la
population mère est comprise entre les moyennes extrêmes des sous populations.
inf( xh )  x  sup( xh ) . L'on pourra vérifier dans notre exemple que: x1 x x2 .

Section 3
Variance et relation entre variance
Comme pour les moyennes, nous donnerons les formules des différentes variances et la
relation qui existe entre elles.
3.1 La variance de la population mère
p

n i. ( xi  x ) 2 p
2  i 1
=  f i. ( xi  x ) 2
n i 1
Tableau 22 : Tableau de calculs de la variance de la variance des sous populations et de la
population globale
Age ( x i ) ( n i1 ) ( ni 2 ) ( ni . ) ni1 xi2 ni 2 xi2 ni. xi2
17 1 0 1 289 0 289
18 8 4 12 2592 1296 3888
19 18 36 54 6498 12996 19494
20 59 90 149 23600 36000 59600
21 74 166 240 32634 73206 105840
22 94 236 330 45496 114224 159720
23 113 277 390 59777 146533 206310
24 120 253 373 69120 145728 214848
25 106 178 284 66250 111250 177500
26 50 120 170 33800 81120 114920
27 24 64 88 17496 46656 64152
28 6 27 33 4704 21168 25872
29 4 14 18 3364 11774 15138
30 3 10 13 2700 9000 11700
31 0 4 4 0 3844 3844
32 2 1 3 2048 1024 3072
33 0 1 1 0 1089 1089
34 0 2 2 0 2312 2312
35 2 2 4 2450 2450 4900
36 0 1 1 0 1296 1296
37 0 2 2 0 2738 2738
38 0 2 2 0 2888 2888
39 0 2 2 0 3042 3042
Total 684 1492 2176 372818 831634 1204452
Ainsi la variance de la série des étudiants de la seg1-uo2 selon l'âge en 2011-2012 est de:
2
  6,42

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 44


3.2 La variance des sous populations
 h2
La variance de la sous population Ph est
p

n ih ( xi  x h ) 2 p
 h2  i 1
=  f ih ( xi  x h ) 2
nh i 1
2
La variance de la série des étudiantes selon l'âge en 2011-2012 est:   5,42
2
La variance de la série des étudiants selon l'âge en 2011-2012 est:   6,55

3.3 Relation entre les variances


La variance d'un mélange de population est égale à la moyenne des variances des sous
populations augmentée de la variance des moyennes des sous populations:
m m

 nh h2  n x h h  x
2
m m
2  h 1
 h 1
  f h h2   f h x h  x 
2

n n h 1 h 1

n  h
2
h
La moyenne des variances,  2  h 1
, est appelée "variance intra sous population". C'est
n
la variance que l'on obtiendrait si toutes les sous populations avaient la même moyenne.
m

 n (x
h 1
h h  x )2
La variance des moyennes, , est appelée "variance inter sous populations".
n
C'est la variance que l'on obtiendrait si toutes les sous populations étaient homogènes.
Cette relation peut se démontrer de la façon suivante:
p p m
 2   f i .  x i  x 2   f h f ih xi  x 
2

i 1 i 1 h 1
m p m p 2

  f h  f ih xi  x    f h  f ih xi  x h   x h  x 
2

h 1 i 1 h 1 i 1
m p m
  f h  f ih  xi  x h    f h  x h  x 
2 2

h 1 i 1 h 1
m m
  f h h2   f h xh  x 
2

h 1 h 1
L'on pourra vérifier à travers l'exemple étudié que:
n1 12  n2 22 n1 ( x1  x ) 2  n2 ( x2  x ) 2
 
2

n n

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 45


Chapitre X
Tableaux des distributions à deux caractères

Une population peut également être décrite à l’aide de deux caractères simultanément, X et Y.
On pourra alors établir et représenter plusieurs distributions. On pourra alternativement
résumer l’information en utilisant à nouveau des paramètres. On pourra enfin étudier la
relation entre les deux variables.

Section 1
Tableaux de contingence
1.1 Construction d’un tableau de contingence
Le tableau de contingence présente l’information apportée par deux variables sur une
population. C’est un tableau à double entré comprenant une variable en ligne et une en
colonne.

Tableau 23 : Répartition des étudiants de seg1-UO selon la note en stat et math de juin 2011-
2012.
math
stat [0;4[ [4;8[ [8;12[ [12;20[ total des lignes
[0;4[ 1068 158 42 4 1272
[4;8[ 267 174 69 8 518
[8;12[ 112 112 60 15 299
[12;16[ 29 26 19 9 83
[16;20] 1 1 1 0 3
total des colonnes 1477 471 191 36 2175

Ce tableau croise l’information apportée par les deux variables sur le groupe d’étudiants.
Ainsi, dans le tableau 24, 26 étudiants ont une note de stat dans l’intervalle [12;16[ et une
note de math dans l’intervalle [4;8[.

Tableau 24 : Tableau de contingence


Y y1 y2 yj yc ni .
X
x1 n11 n12 n1 j n1c n1.
x2 n 21 n 22 n2 j n2c n 2.
. . . . . . . .
.
xi n i1 ni 2 nij n ic ni .
. .
.
xp n p1 n p2 n pj n pc n p.
n. j n .1 n .2 n. j n.c n

1.2 Contenu et lecture des tableaux de contingence

- nij : effectif partiel. Il s’agit du nombre d’individus présentant à la fois la modalité x i


et la modalité y j .

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 46


- ni. : effectif marginal des lignes. C’est le nombre d’individus présentant la modalité
xi
- et n. j : effectif marginal des lignes. C’est le nombre d’individus présentant la modalité
yj
Les modalités étant incompatibles et exhaustives, on doit avoir :  n   n   n
i j
ij
i
i.
j
.j n
c p
Par ailleurs, nous avons: ni.   nij et n. j   nij
j 1 i 1

Section 2
Tableaux de fréquences jointes

2.1 Construction d’un tableau de contingence


Il est obtenu en rapportant les effectifs nij du tableau de contingence à l’effectif total n.
Tableau 25 : Tableau de fréquences jointes
Y y1 y2 yj yc f i.
X
x1 f11 f12 f1 j f 1c f 1.
x2 f 21 f 22 f2 j f 2c f 2.
. . . . . . . .
.
xi f i1 fi2 f ij f ic f i.
. .
.
xp f p1 f p2 f pj f pc f p.
f. j f .1 f .2 f. j f .c 1

Tableau 26 : Tableau de fréquences (%) jointes de la répartition des étudiants de seg1-UO


selon la note en stat et en math de juin 2011-2012.
math
stat [0;4[ [4;8[ [8;12[ [12;16[ [16;20] f i.
[0;4[ 49,10 7,26 1,93 0,18 58,48 49,10
[4;8[ 12,28 8,00 3,17 0,37 23,82 12,28
[8;12[ 5,15 5,15 2,76 0,69 13,75 5,15
[12;16[ 1,33 1,20 0,87 0,41 3,82 1,33
[16;20] 0,05 0,05 0,05 0,00 0,14 0,05
f. j 67,91 21,66 8,78 1,66 100,00 67,91

2.2 Lecture du contenu d’un tableau de fréquences jointes


nij
- f ij  : fréquences jointes. Représentent la proportion d’individus présentant à la
n
fois la modalité x i et la modalité y j .

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 47


- fi.  ni. : fréquences marginales des lignes. Représentant la proportion d’individus
n
présentant la modalité x i (indépendamment de Y).
- f.j  n.j : fréquences marginales des colonnes. Représentant la proportion d’individus
n
présentant la modalité y j (quelles que soient les modalités de X).

2.3 Propriétés
Par ailleurs, nous avons
k p

k p k p  n ij
n
-  f
i 1 j 1
ij  1 puisque  fij 
i 1 j 1
i 1 j 1

n

n
1

Nous avons aussi :


P

c p n i.
n
- f i   f ij et  f i.  i 1
 1
j 1 i 1 n n
c

p c n .j
n
- f . j   f ij et f
j 1
.j   1
i 1 j 1 n n

Section 3
Les tableaux de fréquences conditionnelles f j / i et f i / j
Ils sont construits en rapportant les effectifs nij aux effectifs marginaux ni. (tableau des
profils lignes) ou n. j (tableau des profils colonnes).

3.1 Tableau des profils lignes


Le tableau des profils lignes présente la distribution du caractère Y conditionnellement à la
connaissance de la variable X . Il est obtenu en rapportant les effectifs nij aux effectifs de la
dernière colonne ni. du tableau de contingence.

Tableau 27 : Tableau des profils lignes


Y y1 y2 yj yc Total
X
x1 f1 / 1 f 2 /1 f j /1 f c /1 1
x2 f1 / 2 f2/2 f j/2 fc/ 2 1
. . . . . . . .
.
xi f1 / i f2/i f j/i fc/i 1
. .
.
xp f1 / p f2/ p f j/ p fc/ p 1

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 48


f j / i  nij représente la proportion d’individus présentant la modalité y j sachant qu’ils
ni.
présentent la modalité x i .

Tableau 28 : Tableau de profils lignes en (%) de la répartition des étudiants de seg1-UO


selon la note en stat et en math de juin 2011-2012.
math
stat [0;4[ [4;8[ [8;12[ [12;16[ total
[0;4[ 83,96 12,42 3,30 0,31 100
[4;8 51,54 33,59 13,32 1,54 100
[8;12[ 37,46 37,46 20,07 5,02 100
[12;16[ 34,94 31,33 22,89 10,84 100
[16;20] 33,33 33,33 33,33 0,00 100

3.2 Tableau des profils colonnes


Le tableau des profils colonnes est obtenu en rapportant les effectifs nij aux effectifs de la
dernière ligne n. j du tableau de contingence. Il décrit la distribution de la variable X
conditionnellement à la connaissance de la variable Y .

Tableau 29 : Tableau des profils colonnes


Y y1 y2 yj yc
X
x1 f1 / 1 f1 / 2 f1 / j f1 / c
x2 f 2 /1 f2/2 f2/ j f2/c
. . . . . . .
.
xi f i /1 fi / 2 fi / j fi / c
.
.
xp f p /1 f p/2 f p/ j f p/c
Total 1 1 1 1
fi / j  nij représente la proportion d’individus présentant la modalité x i parmi les individus
n.j
présentant la modalité

Tableau 30 : Tableau de profil colonnes en (%) de la répartition des étudiants de seg1-UO


selon la note en stat et en math de juin 2011-2012.
math
stat [0;4[ [4;8[ [8;12[ [12;20[
[0;4[ 72,31 33,55 21,99 11,11
[4;8[ 18,08 36,94 36,13 22,22
[8;12[ 7,58 23,78 31,41 41,67
[12;16[ 1,96 5,52 9,95 25,00
[16;20] 0,07 0,21 0,52 0,00
total 100,00 100,00 100,00 100,00

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 49


Chapitre XI
Caractéristiques des distributions à deux variables

Section 1
Les distributions marginales

1.1 La distribution marginale selon la variable X


C'est l'étude de la variable X , en calculant ses caractéristiques comme une distribution à une
variable. Les effectifs considères sont les ni. et les fréquences considérées sont f i. . La
moyenne et variance ainsi obtenues, seront appelées moyenne marginale de X et variance
marginale de X .

1.1.1 La moyenne marginale de X


La moyenne de la variable X est appelée moyenne marginale de X . Sa formule est:
p

n x i. i P
x i 1
  f i . xi
n i 1

1.1.2 La variance marginale de X


La variance de la variable X est appelée variance marginale de X et est notée V  X  Sa
formule est:
p

 n (x i. i  x)2 p
V (X )  i 1
  f i . ( xi  x ) 2
n i 1
La relation de Koenig est évidemment applicable et nous donne :
p

n x 2
i. i p
V (X )  i 1
 x 2   f i. xi2  x 2
n i 1
Tableau 31 : Tableau de calculs de la distribution marginale de la variable X (note de stat)
xi ni . ni. xi ni. xi2 f i. % f i. xi f i. xi2
2 1272 2544 5088 58,48 116,96 233,92
6 518 3108 18648 23,82 142,92 857,52
10 299 2990 29900 13,75 137,5 1375
14 83 1162 16268 3,82 53,48 748,72
18 3 54 972 0,14 2,52 45,36
Total 2175 9858 70876 100 453,38 3260,5
Pour la distribution donnée au tableau 24, x  4,53 est la note moyenne en stat des 2175
étudiants et V  X  = 12,06 est la variance des notes en stat.

1.2 La distribution marginale selon la variable Y


C'est l'étude de la variable Y , en calculant ses caractéristiques comme une distribution à une
variable. Les effectifs considères sont les n. j et les fréquences considérées sont f . j . La
moyenne et variance ainsi obtenues, seront appelées moyenne marginale de Y et variance
marginale de Y .

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 50


1.2.1 La moyenne marginale de Y
La moyenne de la variable Y est appelée moyenne marginale de Y . Sa formule est:
c

n .j yj c
  f. j y j
j 1
y
n j 1

1.2.2 La variance marginale de Y


La variance de la variable Y est appelée variance marginale de Y et est notée V Y  Sa
formule est:
c

n .j ( y j  y) 2 c
  f. j ( y j  y) 2
j 1
V (Y ) 
n j 1

La relation de Koenig est évidemment applicable et nous donne :


c

n .j y 2j c
 y 2   f . j y 2j  y 2
j 1
V (Y ) 
n j 1

Tableau 32 : Tableau de calculs des distributions marginales de la variable Y (note de stat)


yj n. j n. j y j n. j y 2j f. j % n. j y j f . j y 2j
2 1477 2954 5908 67,91 135,82 271,64
6 471 2826 16956 21,66 129,96 779,76
10 191 1910 19100 8,78 87,8 878
16 36 576 9216 1,66 26,56 424,96
Total 2175 8266 51180 100 380,14 2354,36
Pour la distribution donnée au tableau 24, y  3,80 est la note moyenne en math des 2175
étudiants et V Y  =9,09 est la variance des notes en math des 2175 étudiants.

Section 2
Les distributions conditionnelles
Une distribution à deux caractères présente deux types de distributions conditionnelles: Les
distributions conditionnelles de X liées par Y que nous notons par X / y j et les distributions
conditionnelles de Y liées par X que notons Y / xi .

2.1 Les distributions conditionnelle de X liées par y j


Elles sont au nombre des c modalités de la variables Y . Pour chaque distribution, une colonne
comprendra les modalités x i et l'autre les effectifs nij (j étant fixé).

2.1.1 Les moyennes conditionnelles de X / y j


La moyenne de la variable X / y j est appelée moyenne conditionnelle de X sachant y j . Sa
formule est:
p

n ij xi p
xj  i 1
  f i / j xi
n. j i 1

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 51


2.1.2 Les variances conditionnelles de X / y j
La variance de la variable X / y j est appelée variance conditionnelle de X sachant y j et est
p

n ij ( xi  x j ) 2 p
notée V j (X ) Sa formule est : V j ( X )  i 1
  f i / j ( xi  x j ) 2
n. j i 1

Ces formules peuvent également être développées selon la relation de Koenig et donne :
p

n ij xi2 p
Vj (X )  i 1
 x 2j   f i / j xi2  x 2j
n. j i 1

Tableau 33 : Tableau de calcul de x1 et de V1 ( X ) avec les effectifs n i1


xi n i1 ni1 xi ni1 xi2
2 1068 2136 4272
6 267 1602 9612
10 112 1120 11200
14 29 406 5684
18 1 18 324
Total 1477 5282 31092

Tableau 34 : Tableau de calcul de x2 et de V2 ( X ) avec les effectifs ni 2


xi ni 2 ni 2 x i ni 2 xi2
2 158 316 632
6 174 1044 6264
10 112 1120 11200
14 26 364 5096
18 1 18 324
Total 471 2862 23516

Tableau 35 : Tableau de calcul de x1 et de V1 ( X ) avec les fréquences conditionnelles du


tableau de profils colonnes
xi f i /1 f i / 1 xi f i / 1 xi2
2 72,31 144,62 289,24
6 18,08 108,48 650,88
10 7,58 75,8 758
14 1,96 27,44 384,16
18 0,07 1,26 22,68
Total 100 357,6 2104,96

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 52


Tableau 36 : Tableau de calcul de x2 et de V2 ( X ) avec les fréquences conditionnelles du
tableau de profils colonnes
xi fi / 2 f i / 2 xi f i / 2 xi2
2 33,55 67,1 134,2
6 36,94 221,64 1329,84
10 23,78 237,8 2378
14 5,52 77,28 1081,92
18 0,21 3,78 68,04
Total 100 607,6 4992

2.2 Les distributions conditionnelle de Y liées par x i


Elles sont au nombre des p modalités de la variable X . Pour chaque distribution, une
colonne comprendra les modalités y j et l'autre les effectifs nij (i étant fixé).

2.2.1 Les moyennes conditionnelles de Y / xi


La moyenne de la variable Y / xi est appelée moyenne conditionnelle de Y sachant x i . Sa
formule est:
c

n ij yj c
  f j/i y j
j 1
yj 
ni . j 1

2.2.2 Les variances conditionnelles de Y / xi


La variance de la variable Y / xi est appelée variance conditionnelle de Y sachant x i et est
c

n ij ( y j  yi ) 2 c
  f j / i ( y j  yi ) 2
j 1
notée Vi (Y ) . Sa formule est : Vi (Y ) 
ni. j 1

Ces formules peuvent également être développées selon la relation de Koenig et donne :
c

n ij yi2 c
 yi2   f j / i yi2  yi2
j 1
Vi (Y ) 
ni . j 1

Tableau 37 : Tableau de calcul de y1 et de V1 (Y ) avec les effectifs nij


yj 2 6 12 16 total
n1 j 1068 158 42 4 1272
n1 j y j 2136 948 504 64 3652
2
n1 j y j 4272 5688 6048 1024 17032

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 53


Tableau 38 : Tableau de calcul de y 2 et de V2 (Y ) avec les effectifs nij
yj 2 6 12 16 total
n2 j 267 174 69 8 518
n2 j y j 534 1044 828 128 2534
2
n2 j y j 1068 6264 9936 2048 19316

Section 3
Relation entre distributions marginales et conditionnelles
n nij n. j nij
f ij  f i. f j / i  f . j f i / j puisque f i. f j / i  i. x et f i. f i / j  x
n ni. n n. j
3.1 Relation entre moyennes marginales et moyennes conditionnelles
La moyenne marginale est égale à la moyenne pondérée des moyennes conditionnelles.

n .j xj c
  f. j x j
j 1
* x
n j 1
p

n i. yi p
*y i 1
  f i. yi
n i 1

En effet:

P p c c p c

 ni . x i  n
i 1 j 1
ij xi  n
j 1 i 1
ij xi n
j 1
.j xj
x i 1
  
n n n n

et
c c p p c p
 n. j y j
j 1
 nij y j
j 1 i 1
 nij y j
i 1 j 1
n i. yi
y    i 1

n n n n

Nous en déduisons la relation qui suit:


inf( x j )  x  sup(x j )
inf( y i )  y  sup( y i )

3.2 Relation entre variances marginales et variances conditionnelles


La variance marginale est égale à la moyenne des variances conditionnelles augmentée de la
variance des moyennes conditionnelles.

c C

 n. jV ( X ) n .j (x j  x)2 c c
  f . jV j ( X )   f . j ( x j  x ) 2
j 1 j 1
* V (X )  
n n j 1 j 1

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 54


p p

 ni.Vi (Y ) n (y i. i  y) 2 p p
* V (Y )  i 1
 i 1
  f i.Vi (Y )   f i. ( yi  y ) 2
n n i 1 i 1

La dispersion de la distribution marginale résulte donc de deux facteurs :


- la dispersion de chacune des distributions conditionnelles autour de leur moyenne;
- la dispersion des moyennes conditionnelles entre elles.

Section 4
La covariance
La covariance peut être considérée comme la variance d’une distribution à deux variables. Si
l’on posait X  Y , on retrouverait la formule de la variance. Autrement, la covariance de
deux variable statistique X et Y , notée COV  X , Y  est le moment centré d’ordre 1 et 1.
p c

 nij( x i  x )( y j  y ) p c
COV  X , Y   ou encore COV  X , Y    f ij ( xi  x )( y j  y )
i j

n i j

La covariance est nulle si les deux variables sont indépendantes. Cette grandeur interviendra
dans l’étude de la liaison entre deux variables et, notamment, dans celle de la corrélation.
Il est possible, pour obtenir une expression mieux adaptée au calcul numérique, de
développer la formule de définition.
p c

 n ij xi y j
Ainsi, on obtient que : COV  X , Y    xy
i j

n
p c
ou encore COV  X , Y    f ij xi y j  x y
i j

Etablissons un tableau de calculs qui nous permettra de calculer COV  X , Y  de la répartition


des étudiants de la seg1-uo2 selon les notes de stat et de math, en juin 2011-2012.
Tableau 39 : Tableau de calcul de la covariance
Y c c

X  n y
ij j
yi
x i  nij y j
2 6 10 16 ni. j 1 j 1

2 1068 158 42 4 1272 3568 2,81 7136


6 267 174 69 8 518 2396 4,63 14376
10 112 112 60 15 299 1736 5,81 17360
14 29 26 19 9 83 548 6,60 7672
18 1 1 1 0 3 18 6,00 324
n.j 1477 471 191 36 2175 46868
p

n
i 1
ij xi
5282 2862 1382 332
xj 3,58 6,08 7,24 9,22
p
y j  nij xi
i 1 10564 17172 13820 5312 46868

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 55


En appliquant la formule, on obtient :
46300
COV ( X , Y )   4,53x3,77  4,33
2175
Remarques
- COV ( X , Y )  0  X et Y varient dans le même sens (corrélation ou dépendance positive).
- COV ( X , Y )  0  X et Y varient en sens contraire (corrélation ou dépendance négative).
- COV ( X , Y )  0  X et Y ne sont pas corrélées. Il y a donc une indépendance linéaire. A
l'inverse, si X et Y sont totalement indépendants, la covariance est nulle; la réciproque étant
fausse.
- COV ( X , X )  V  X  et COV(X, X) = V(X)
-  et   IR , COV (X , Y )   COV ( X , Y )
- Si X  aX   b et Y  aY   b , alors COV ( X , Y )  aaCOV  X , Y  : changement de
variable.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 56


Chapitre XII
Modèles linéaires simples

L’analyse de la régression simple a pour objectifs de :


- Décrire les relations entre une variable privilégiée, appelée variable expliquée ou
dépendante, et une autre variable jouant un même rôle par rapport à la première,
appelée variable explicative ou indépendante ;
- Effectuer des prévisions de la variable expliquée en fonction de la variable explicative.

Les modèles linéaires expriment mathématiquement la relation supposée entre une variable
dépendante notée Y , et une ou plusieurs variables indépendantes notée X . Sans être limitatif,
dans les modèles linéaires simples, on distincte:
- Le modèle de régression linéaire simple. C'est le modèle qui permet de mesurer
l'influence d'une variable quantitative sur une autre variable quantitative;
- L’analyse de la variance. C’est le modèle de régression qui permet de mesurer
l’influence d’une variable qualitative sur une autre variable qualitative ;
- L’analyse de la corrélation. C’est d’elle qu’on déduit la force de la liaison entre les
variables.

L’analyse de la relation logique entre les variables doit précéder toute analyse de régression
ou de corrélation.

Section 1
Le diagramme de dispersion et la courbe de régression
Le diagramme de dispersion est une représentation graphique, dans le plan, des valeurs
ponctuelles obtenues pour deux variables de nature quantitative. Chaque symbole représente
une unité d'observation et sa position dépend des valeurs obtenues pour les variables X (en
abscisse) et Y (en ordonnée). Ce diagramme aide à déterminer s'il existe une relation entre les
deux variables et, si oui, il aide à choisir le type d'équation qui permettrait de décrire cette
relation. Il existe trois types de relations entre deux variables :
- La liaison nulle, signifie qu’il n’y a aucune influence d’un caractère sur l’autre ;
- La liaison totale ou fonctionnelle, signifie que la connaissance de l’un des caractères
entraîne la connaissance de l’autre ;
- La liaison relative, signifie que les caractères sont dépendantes l’une de l’autre dans
une certaine mesure.

La relation entre deux variables peut être de différents types. C'est ce qu'illustrent les
diagrammes suivants

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 57


Graphiques 13

Tableau 40 : Note moyenne de math en fonction de la note de stat des étudiants de la seg1-uo2, en
juin 2011-2012
xi 2 6 10 14 18
yi 2,80 4,59 7,72 6,43 6

Tableau 41 : Note moyenne de stat en fonction de la note de math des étudiants de la seg1-uo2, en
juin 2011-2012
yj 2 6 10 14 18
xj 3,58 6,08 7,24 9,06 12

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 58


Graphique 14

Le diagramme de dispersion montre que plus la note en mathématiques augmente, plus celle en
statistique augmente également de façon un peu prononcée.

Graphique 15

Le diagramme de dispersion montre que plus la note en math augmente, plus celle en stat augmente
également.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 59


Section 2
Régression Linéaire
La régression linéaire est la recherche de la "meilleure" droite résumant au mieux la relation
linéaire entre deux variables.

2.1 La droite de Mayer


C’est la régression linéaire la plus simple. Elle consiste à diviser l'ensemble des points ( xi , y i ) en
deux sous-ensembles E1 et E2 , ayant le même nombre de points si possible. Puis à tracer une droite
appelée droite de Mayer qui passera par le centre de gravité G1 de E1 et le centre de gravité G2 de
E2 . G1 aura pour coordonnées la moyenne des abscisses de E1 ( x1 ) et la moyenne des ordonnées de
E1 ( y1 ) : G1 ( x1 , y1 ). G2 aura pour coordonnées la moyenne des abscisse E2 ( x2 ) et la moyenne des
ordonnées de E2 ( y2 ) : G2 ( x2 , y2 ).
La construction de la droite de Mayer est rapide, simple et fournit une droite convenable lorsque les
points du diagramme de dispersion sont presque alignés comme ici. Mais elle ne donne pas une
mesure de sa fiabilité, due à sa simplicité.

2.2 La droite des moindres carrés


La méthode des moindres carrés résume les points du diagramme de dispersion par une droite
tel que, les distances prises entre chaque point et la droite soient minimale. Cette droite est
appelée droite de régression ou droite d’ajustement par les moindres carrés.

On cherche donc, une droite d'équation y  ax  b telle que celle ci passe le plus près possible
des points du diagramme de dispersion. Le but de la régression est donc de trouver les
paramètres a et b qui caractérisent la droite.

Notons  la moyenne du carré des écarts entre les y j observés et celles théoriques obtenues à partir
de l'équation de la droite y j  axi  b .
p c
   f ij ( y j  axi  b) 2
i 1 j 1

Trouver la droite y  ax  b , c’est minimiser la quantité  . Une quantité est minimale si la dérivée
s’annule. Pour trouver a et b calculons cette dérivée :

Calculons la dérivée de  par rapport à b


 p c
 2 f ij ( y j  axi  b)  0
b i 1 j 1
p c p c p c
  f ij y j  a f ij xi  b f ij  0
i 1 j 1 i 1 j 1 i 1 j 1

c p p c p c
  y j  f ij  a xi  f ij  b f ij  0
j 1 i 1 i 1 j 1 i 1 j 1
c p
  f j y j  a  f i . xi  b
j 1 i 1

 y  ax  b

Calculons la dérivée par rapport à a

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 60


 p c
 2 f ij xi ( y j  axi  b)  0
b i 1 j 1
p c p c p c
  f ij xi y j  a f ij xi2  b f ij xi  0
i 1 j 1 i 1 j 1 i 1 j 1
c p p c p c
  f ij xi y j  a xi2  f ij  b xi  f ij  0
j 1 i 1 i 1 j 1 i 1 j 1
c p p p
  f ij xi y j  a f i. xi2  b f i. xi  0
j 1 i 1 i 1 i 1
c p p p
  f ij xi y j  a f i. xi2  b f i. xi
j 1 i 1 i 1 i 1

Remplaçons b par sa valeur b  y  ax dans l’équation précédente, on obtient :


c p p p

 f ij xi y j  a f i. xi2  ( y  ax ) f i. xi
j 1 i 1 i 1 i 1
c p p p p

 f ij xi y j  a f i. xi2  y  f i. xi  ax  f ij xi
j 1 i 1 i 1 i 1 i 1
c p p

 f
j 1 i 1
ij xi y j  a f i. xi2  xy  ax 2
i 1
c p p

 f ij xi y j  xy  a( f i. xi2  x 2 )
j 1 i 1 i 1
p c

 f
i 1 j 1
ij xi y j  x y
a p

f
i 1
i. ix  x2

p c
L'expression  f
i 1 j 1
ij xi y j  x y (numérateur de a ) est la covariance de X et de Y notée

COV  X , Y  ou  XY
p
L'expression f x  x 2 (dénominateur de a ) est la variance marginale de X , V  X 
i. i
i 1

Finalement, l'équation de la droite de régression de Y en X écrite sous la forme de y  ax  b et


déterminée par la méthode des moindres carrés est définie par:
 COV  X , Y 
a 
 V X 
b  y  ax

a et b sont appelés coefficients de régression. a , pente de la droite, mesure la variation de Y qui


accompagne la variation d'une unité de X . b , ordonnée à l'origine , correspond à la valeur de
Y lorsque X = 0.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 61


L'équation de la droite de régression de X en Y écrite sous la forme x  a ' y  b' et déterminée par
la méthode des moindres carrés est définie par:
 COV ( X ; Y )
a ' 
 V (Y )
b '  x  a ' y

En appliquant les différentes formules les paramètres de régression, de la droite de régression


de Y en X , de la double série de notes de stat et de math du tableau 24 sont ainsi donnés :
46300
 4,53x3,77
a 2175  0,34 ; b  3,77  (0,34 x 4,53)  2,22
12,06
L’équation de la droite de régression de Y en X sera donc : y  0,34 x  2,22 .

a  0,34 : Lorsque la note en stat varie d’un point, celle en math varie de 0,34 points.
b  2,22 : implique une note de 2.22 en stat pour une note de zéro en math.

En appliquant les différentes formules les paramètres de régression, de la droite de régression


de X en Y, de la double série de notes de stat et de math du tableau 24 sont ainsi donnés :

46300
 4,53x3,77
a  2175  0,49 ; b'  4,53  (0,49 x3,77)  2,68
8,44
L’équation de la droite de régression de X en Y sera donc : x  0,49 y  2,68

a '  0,49 : Lorsque la note en math varie d’un point, celle en stat varie de 0,49 points.
b'  2,68 : Implique une note de 2,68 en stat pour une note de zéro en math.

On utilise la droite de régression pour estimer la valeur de la variable dépendante sachant une
valeur (réelle ou potentielle) de la variable indépendante.

Pour faire la prédiction, il s'agit simplement de substituer la valeur donnée à X dans


l'équation de régression et de calculer la valeur de Y .

Ainsi, l’équation y  0,34 x  2,22 permet de connaître la note de math lorsqu’on connaît la
note en stat. Et x  0,49 y  2,68 , permet de connaître la note en math lorsqu’on connaît la
note en stat.

Remarque 1
Si aa' 1 , c’est à dire a 1 les droites de régression seront identique et auront la même
a'
pente. Cette situation correspond précisément au cas où les points du diagramme de
dispersion sont alignés.

Section 3
Autres régression

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 62


Les points peuvent aussi ne pas manifester de structure particulière comme dans la régression
linéaire. Dans ce cas, la régression peut par exemple, présenter un caractère exponentiel, puissance,
ou encore polynomial, et peut se ramener à un cas linéaire par changement de variable.

3.1 Régression par une fonction exponentielle


Si l’allure du diagramme de dispersion laisse pressentir une relation globale de type
exponentiel, liant deux variables X et Y , il convient alors d’ajuster ce diagramme de
dispersion par une courbe dont l’équation prend la forme : Y  AX.
Le raisonnement consiste à dire que si les points xi, yi  sont proches de la courbe Y  AX,
alors les points ( (xi,ln yi) seront proches de la droite d’équation : ln yi ln   xi ln A , obtenue
par le changement de variable suivant :
ln Y  ln( A X )
 ln   ln A X
 ln   X ln A
.
Posons, y lnY , aln A et bln , nous voyons que cette équation prend la forme de
l’équation d’une droite y  aX  b .

Cette droite est déterminée par la méthode des moindres carrés par laquelle nous obtenons les
expressions de a et b :
COV ( X , y ) COV ( X , ln Y )
a a
V (X ) V (X )
b  y  aX
b  ln Y  X ln A

Comme A=ea et  =eb , nous déterminons finalement à partir de ces formules l’équation de la
courbe exponentielle.

Appliquons un ajustement exponentiel au diagramme de dispersion xi, yi  de la note moyenne


de math en fonction de la note en stat des étudiants de la seg1-uo2, en juin 2011-2012
(Tableau 40).
Pour cela, établissons le tableau de calculs suivant :
Tableau 42 : Tableau de calculs pour une régression par une fonction exponentielle
Total
xi 2 6 10 14 18 50
yi 2,80 4,59 7,72 6,43 6 /////////
ln y i 1,02 1,52 1,74 1,86 1,79 7,93
xi ln y i 2,04 9,12 17,4 26,04 32,22 86,82
xi2 4 36 100 196 324 660

50 7,93
A partir du tableau 42, on calcule : x   10 ; y   1,58
5 5
86,82
COV ( X , y )   (10x1.58)  1,56
5

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 63


660
V (X )   (10) 2  32
5
1,56
Les résultats suivants sont obtenus : a   0,048 ; b  1,58  (0,048x10)  1,1 ;
32
A  e a  e 0,048  0,13
  e b  e1,1  2,99
On obtient ainsi la courbe d’équation : Y  2,99(0,13) X .

3.2 Régression par une fonction puissance


Si l’allure du diagramme de dispersion laisse pressentir une relation globale de type
puissance, liant deux variables X et Y, il convient alors d’ajuster ce diagramme de dispersion
par une courbe dont l’équation prend la forme : Y  XA.

Le raisonnement consiste à dire que si les points xi, yi  sont proches de la courbe Y  AX,
alors les points ( (xi,ln yi) seront proches de la droite d’équation : ln yi ln   xi ln A .

Le raisonnement consiste à dire que si les points xi, yi  sont proches de la courbe Y  XA,
alors les points ( (ln xi,ln yi) seront proches de la droite d’équation ln yi ln   Aln xi , obtenue
par le changement de variable suivant :
ln Y  ln( X A )
 ln   ln X A
 ln   Aln X

Posons y lnY , xln X et bln , nous voyons que cette équation prend la forme de
l’équation d’une droite y = Ax+b.

Cette droite est déterminer par la méthode des moindres carrés par laquelle nous obtenons les
expressions de A et b :
 A COV(X, y)  A COV(ln X,lnY)

 V(X) V(ln X)
b  y  Ax  ln Y  A ln X
Comme  =eb, nous déterminons finalement à partir de ces formules l’équation de la courbe
puissance.

Appliquons un ajustement puissance au diagramme de dispersion xi, yi  de la note moyenne


de math en fonction de la note moyenne en stat des étudiants de la seg1-uo2, en juin 2011-
2012 (Tableau 40).
Pour cela, établissons le tableau de calculs suivant :

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 64


Tableau 43 : Tableau de calculs pour une régression par une fonction puissance
Total
xi 2 6 10 14 18 //////
yi 2,8 4,59 7,72 6,43 6 /////
ln x i 0,69 1,79 2,3 2,63 2,89 10,3
ln y i 1,02 1,52 1,74 1,86 1,79 7,93
ln xi ln y i 0,70 2,72 4,00 4,89 5,17 17,49
(ln xi ) 2 0,48 3,20 5,29 6,92 8,35 24,24

10,3
A partir du tableau 43, on calcule : ln x   2,06 ;
5
7,93 24,24
ln y i   1,58 ; V (ln x)   (2,06) 2  0,60
5 5
17,49
COV (ln x, ln y )   (2,06x1,58)  0,24
5
Les résultats suivant sont obtenus : A  0,4 ; b  0,75 ;
  e b  e 0, 75  2,03
On obtient ainsi la courbe d’équation : Y  2,03(0,4) X .

3.3 Régression par une fonction polynomiale


L'allure du nuage peut suggérer que la relation globale liant Y à X est de type polynomial c'est
à dire de la forme:
Y  a p X p  a p 1 X p 1  a p 2 X p 2  ..........  a1 X  a0

On pourra déterminer dans ce cas la courbe de régression de Y en X par la méthode des


moindres carrés.
Cherchons donc les valeurs de a0 , a1 ,..., ak qui minimisent
p c
   f ij ( y j  a p xip  a p 1 xip 1  a p 2 xip 2  .......... a1 xi  a0 ) 2
i 1 j 1

En calculant les dérivées partielles de  par rapport à , et e a0 , a1 ,...,a p n égalisant à zéro, nous
obtenons le système à ( p  1 ) équations à ( p  1 ) inconnues suivant:

 p c
 0  2 f ij ( y j  a p xip  a p 1 xip 1  a p 2 xip 2  .......... a1 xi  a0 )  0
a0 i 1 j 1

 p c
 0  2 f ij xi ( y j  a p xip  a p 1 xip 1  a p 2 xip 2  .......... a1 xi  a0 )  0
a1 i 1 j 1

 p c
 0  2 f ij xi2 ( y j  a p xip  a p 1 xip 1  a p 2 xip 2  .......... a1 xi  a0 )  0
a2 i 1 j 1

. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
 p c
 0  2 f ij xip 1 ( y j  a p xip  a p 1 xip 1  a p 2 xip  2  .......... a1 xi  a0 )  0
a p 1 i 1 j 1

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 65


 p c
 0  2 f ij xip ( y j  a p xip  a p 1 xip 1  a p  2 xip 2  .......... a1 xi  a0 )  0
a p i 1 j 1

En développant le système ci-dessus, on obtient :


p p p
a p  f x  a p 1  f x
i. i
p
i. i
p 1
 a p  2  f i. xip  2  ..... a1 x  a 0  y
i 1 i 1 i 1

p p p p p c
a p  f i. xip 1  a p 1  f i. xip  a p 2  f i. xip 1  ..... a1  f i. xi2  a0 x   f ij xi y j
i 1 i 1 i 1 i 1 i 1 j 1

p p p p p p c
a p  f i. xip  2  a p 1  f i. xip 1  a p 2  f i. xip  ..... a1  f i. xi3  a0  f i. xi2   f ij xi2 y j
i 1 i 1 i 1 i 1 i 1 i 1 j 1

. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
p p p p p p c
ap  f x 2 p 1
i. i  a p 1  f x 2 p 2
i. i  a p 2  f x 2 p 3
i. i  ..... a1  f x  a0  f x
i. i
p
i. i
p 1
  f ij xip 1 y j
i 1 i 1 i 1 i 1 i 1 i 1 j 1

p p p p p p c
a p  f i. xi2 p  a p 1  f i. xi2 p 1  a p  2  f i. xi2 p  2  ..... a1  f i. xip 1  a 0  f i. xip   f ij xip y j
i 1 i 1 i 1 i 1 i 1 i 1 j 1

Ce système résolu, nous donne les valeurs des inconnues

Comme application, régressions par la méthode des moindres carrés la dispersion des points
de la double série des notes à l'aide d'un polynôme du second degré.

Ecrivons l'équation de la courbe sous la forme suivante:


Y  a2 X 2  a1 X  a0
Cherchons donc les valeurs de a0 , a1 ,..., ak qui minimisent
p c
   f ij ( y j  a2 xi2  a1 xi  a0 ) 2
i 1 j 1

En calculant les dérivées partielles de  par rapport à , et e a0 , a1 ,...,a p n égalisant à zéro, nous
obtenons le système à ( 2  1 ) équations à ( 2  1 ) inconnues suivant:

 p c
 0  2 f ij ( y j  a 2 xi2  a1 xi  a0 )  0
a0 i 1 j 1

 p c
 0  2 f ij xi ( y j  a2 xi2  a1 xi  a0 )  0
a1 i 1 j 1

 p c
 0  2 f ij xi2 ( y j  a 2 xi2  a1 xi  a0 )  0
a 2 i 1 j 1

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 66


p c p c p c p c
a 2  f ij x  a1  f ij xi  a0  f ij   f ij y j
2
i
i 1 j 1 i 1 j 1 i 1 j 1 i 1 j 1
p c p c p c p c
a 2  f ij x  a1  f ij x  a0  f ij xi   f ij xi y j
3
i
2
i
i 1 j 1 i 1 j 1 i 1 j 1 i 1 j 1
p c p c p c p c
a 2  f ij x  a1  f ij x  a0  f ij x   f ij xi2 y j
4
i
3
i
2
i
i 1 j 1 i 1 j 1 i 1 j 1 i 1 j 1

……………………………………………………………………………………………….
p p p p c
a 2  f i. xi2  a1  f i. xi  a0  f i.   f ij y j
i 1 i 1 i 1 i 1 j 1
p p p p c
a2  f i. xi3  a1  f i. xi2  a0  f i. xi   f ij xi y j
i 1 i 1 i 1 i 1 j 1
p p p p c
a 2  f i. xi4  a p 1  f i. xi3  a0  f i. xi2   f ij xi2 y j
i 1 i 1 i 1 i 1 j 1

A cette étape, nous construisons un tableau de calculs pour déterminer les différentes valeurs
du système d'équations.

Tableau 44 : Tableau de calculs pour une régression par une fonction polynomiale
p p p

n y
j 1
ij j
ni. xi2 ni. xi3 ni. xi4
xinij y j x
j 1
2
i n y
j 1
ij j
n.j y j
xi ni. ni. xi
2 1272 3560 2544 5088 10176 20352 7120 14240 2954
6 518 2380 3108 18648 111888 671328 14280 85680 2826
10 299 1710 2990 29900 299000 2990000 17100 171000 1910
14 83 534 1162 16268 227752 3188528 7476 104664 476
18 3 18 54 972 17496 314928 324 5832 36
 2175 8202 9858 70876 666312 7185136 46300 381416 8202
S/2175 3,77 4,53 32,59 306,35 3303,51 21,29 175,36 3,77

Le système devient alors équivalent à:


32,59a2 + 4,53a1 + a0 =3,77
306,35a2 + 32,59a1 + 4,53a0 = 21,29
3303,35a2 + 306,35a1 + 32,59a0 = 175,36

Section 4
Evaluation de la liaison entre deux variables
La dépendance entre deux variables se traduit par des paramètres, sans dimension, qui mesure
l'intensité de la liaison entre ces deux variables. L’un de ces paramètres est le coefficient de
corrélation linéaire. Dans la corrélation, le rôle des deux variables est parfaitement
interchangeable, alors que dans la régression linéaire il ne l'est pas.

4.1 Types de liaisons


Deux variables sont totalement indépendantes si les variations de l’une n’entraînent pas la
variation de l’autre. Cette indépendance, ce traduit d’une manière plus formalisée
nij nij
par : f i / j  ou f j / i  . C’est à dire que les fréquences conditionnelles ne dépendant
n. j ni.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 67


plus de j ou de i . La conséquence se traduit par l’égalité entre fréquences conditionnelles et
fréquences marginales : f i / j  fi. ou f j / i  f . j .
Graphiquement, les courbes de régressions ne dépendent plus ni de i ni de j respectivement.

La liaison entre deux variables est fonctionnelle réciproque (dépendance totale) si à chaque
valeur de x correspond une valeur unique de y et rigoureusement déterminée, et
réciproquement. Cela se traduit dans le tableau de contingence, par une seule observation par
ligne et par colonne. Et les moyennes conditionnelles seront toutes égales aux valeurs des
variables, x j  xi et yi  y j . Graphiquement, les courbes de régression conditionnelles sont
confondues. Mais parfois, la liaison fonctionnelle peut n’ai pas être réciproque. C’est à dire
qu’une valeur x fournie une seule valeur de y mais, une valeur de y ne fournie pas une
valeur unique de x .

La liaison relative, se traduit par un tableau de contingence quelconque. Son graphe laisse
apparaître une dispersion de points plus ou moins allongés. On en déduire deux courbes de
régression.

3.2 Coefficient de détermination


Il évalue le degré d’association entre deux variables. C’est à dire, juger de la qualité de
l’ajustement des points par la droite de régression.
(COV ( X , Y )) 2
Il mesure la qualité de l'ajustement linéaire entre X et Y et est noté par: r 2 
V ( X )V (Y )
- Si r  1 : la corrélation linéaire entre X et Y est parfaite (relation fonctionnelle totale ou
2

réciproque linéaire).
- Si r 2  0 : pas de relation linéaire entre X et Y (il indique seulement une indépendance
linéaire).
- Si 0  r 2  1 : 1 il y a une relation linéaire relative d’autant plus forte que r 2 est grand.

4.3 Coefficient de corrélation linéaire


Le coefficient de corrélation linéaire est la racine carrée du coefficient de détermination. Son
signe donne le sens de la relation entre deux variables.

COV ( X , Y )
r avec r  1
 XY
On peut aussi calcule le coefficient de corrélation linéaire par : r   r 2 en décidant du signe
selon le signe de la pente de la droite de régression.

- Si r est proche de 1: il y a une liaison linéaire marquée, et les deux variables varient dans le
même sens.
- Si r est proche de 0: il n'y a pas de liaison linéaire

- Si r est proche de -1: il y a une liaison linéaire marquée, et les deux variables varient en
sens contraire.

4.4 Rapport de corrélation


L'existence d'une liaison non linéaire, entre deux variable X et Y , ne peut se définir par le
calcul du coefficient de détermination. Le paramètre approprié est le rapport de corrélation. Il

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 68


définit, l'existence d'une liaison linéaire ou non linéaire entre deux variables. Il est fondé sur
la propriété de décomposition de la variance marginale.

4.4.1 Le rapport de corrélation de Y en X


C'est la proportion de la variance marginale de Y représentée par la variance des moyennes
conditionnelles de Y.
k k

 fi. ( yi  y ) 2  f V (Y )
i. i
Y , X  i 1
 1 i 1

V (Y ) V (Y )

4.4.2 Le rapport de corrélation de X en Y


C'est la proportion de la variance marginale de X représentée par la variance des moyennes
conditionnelles de X .
p p


j 1
f. j ( x j  x ) 2  f V (X )
j 1
.j j

 X ,Y   1
V (X ) V (X )
Ces deux rapports sont situés entre 0 et 1 en cas de corrélation et, en général, sont différents
l'un de l'autre.
- Si YX  0 , donc V(x j)0 , et la régression de y en x n’explique par la liaison. La courbe de
régression de y en x est une droite parallèle à l’axe Ox .
- Si YX  1 , donc V(x j ) 1, et la régression de y en x explique en totalité la liaison entre y
et x . Il y a une donc une liaison fonctionnelle de y en x . Si  XY  1 également, il y a une
double liaison fonctionnelle, ou liaison fonctionnelle réciproque.
- Si 0  YX  1 , il y a une liaison relative entre y et x d’autant plus fort que YX tend vers 1.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 69


Chapitre XIII
Les séries chronologiques

Une série chronologique se définit comme la succession des valeurs d’une variable ordonnée
par un indicateur de temps. Elle se présente généralement sous la forme d’un graphique.

Tableau 45 : Hauteurs de pluies à Ouagadougou en mm (1986-1990)


jan fév mars avril Mai juin juillet août Sept oct nov Déc
1986 0 0 4,1 10,4 84 130,3 160,7 197,8 165,4 40,6 0,3 0
1987 0 0 13,2 0 67 163,8 148,3 221,9 131,2 39 0 0
1988 0 0 0 0 68,9 65,6 161,9 263,8 88,7 6,2 0 0
1989 0 0 5,5 0 35,7 55,2 233,5 305,3 112,4 48,4 0 1,7
1990 0 0 0 15,3 112,3 81,9 162,2 196,6 103,8 3,8 0 0
Source : INSD, Annuaire séries longues du Burkina Faso, 1996, p. 4

Diagramme de dispersion des hauteurs de pluies à Ouaga en mm (1986-1990)


340

320

300

280

260

240
Hauteurs de pluies en mm

220

200

180

160

140

120

100

80

60

40

20

0
v s l i t t t t v c v s l i t t t t v c v s l i t t t t v c v s l i t t t t v c v s l i t t t t v c
jan fé mar avri Ma juin ille aoû sep oc no dé jan fé mar avri Ma juin ille aoû sep oc no dé jan fé mar avri Ma juin ille aoû sep oc no dé jan fé mar avri Ma juin ille aoû sep oc no dé jan fé mar avri Ma juin ille aoû sep oc no dé
ju ju ju ju ju

Graphique 19

L’Analyse des séries chronologiques considère la décomposition en trois types de variations


que sont:

- La tendance

- La saisonnière ou composante cyclique

- L’aléatoire ou accidentelle
Les valeurs à l’instant t sont la superposition de ces trois sources de variation.

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 70


Section 1
Les composantes d’une série chronologique
On distingue en général quatre effets constitutifs d’une série chronologique :
1. Un effet à long terme noté T, appelée tendance, composante tendancielle ou trend. C’est
l’évolution à long terme de la série. Elle est la composante la plus importante dans une série
chronologique. Cette tendance peut avoir un caractère :
- linéaire : la série croît de la même quantité à chaque période ;
- exponentiel : la série croît d’un taux constant.
2. Les cycles, sont des fluctuations de moyen terme autour du trend de type sinusoïdal.
3. Un effet dit saisonnier, qui réapparaît à intervalles réguliers. Cet effet se traduit par une
composante de la série appelée composante saisonnière noté S.
4. Un effet inexpliqué, que l'on suppose en général dû au hasard, se manifeste par des
variations accidentelles.
Un modèle de série chronologique est une équation précisant la façon dont les composantes
s’articulent les unes par rapport aux autres pour constituer la chronique. Il existe de très
nombreux modèles, et parmi eux deux modèles classiques simples : le modèle additif et le
modèle multiplicatif, auxquels nous nous limiterons.
- Un modèle additif correspond à des mouvements saisonniers d’amplitude constante, donné
par la relation: Yt  t     j   t .

- Un modèle multiplicatif correspondant à une modulation d’amplitude variable croissante ou


décroissante, donné par la relation : Yt (t ) j t
Où le trend et les cycles sont représentés par t   et la composante saisonnière S par  j .

L’indice j est relatif à la saison (jour, mois, trimestre, etc. j  1,..., m ) tandis que t est le
numéro de la saison ( t  1,..., T Avec T  nm ou n représente généralement l’année).
La détermination des composantes d’une série chronologique concerne essentiellement la
détermination du trend t   et des coefficients saisonniers  j .

Section 2
La détermination du trend
Pour faire apparaître plus clairement la tendance, il faut atténuer la composante accidentelle et
saisonnière (cyclique). On utilise pour cela les techniques de lissage telles que, la méthode de
Mayer, la méthode des moindres carrés, la méthode des moyennes échelonnées, des
moyennes mobiles, définies de la façon suivante.
A titre d’exemple, et par la méthode des moindres carrés, le trend de la série des pluies à
Ouagadougou est donné par l’équation Y  0,033t  60,76 .

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 71


Diagramme de dispersion et trend des hauteurs de pluie à Ouaga en mm (1986-1990)
340

320

300

280

260
Trend: Y = 0,0333t + 60,762

240
Hauteurs de pluies en mm

220

200

180

160

140

120

100

80

60

40

20

0
m v

m v

m v
av s

av s

av s

av s

av s

v
Ml

ao t

ao t

ao t
c

Ml

ao t

ao t
c

Ml

Ml

Ml

c
pt

pt

pt

pt

pt
ju in

ju in

ju in

ju in

ju in
n

se t

se t

se t

se t

se t

t
ai

ai

ai

ai

ai
ri

ri

ri

ri

ri
e

e
oc

oc

oc

oc

oc
û

û
ar

ar

ar

ar

ar


no

no

no

no

no
ja

ja

ja

ja

ja
ill

ill

ill

ill

ill
ju

ju

ju

ju

ju
m

Graphique 20

2.1 La méthodes des moyennes échelonnées


La période des variations saisonnières, notée p est la longueur, exprimée en unités de temps,
séparant deux variations saisonnières dues à un même phénomène.
La méthode des moyennes échelonnées consiste à choisir un nombre p d’observations qui
constituent une période, puis à en calculer la moyenne arithmétique que l’on affecte au centre
de la période, et enfin à joindre ces moyennes sur un graphique par des segments de droite
donnant l’allure générale du trend
Les moyennes échelonnées d’ordre p , pour p impair, de la variable Y sont les moyennes Y '
suivantes :
Y1  Y2  ::: Y p Y p 1  Y p  2  ::: Y2 p Y2 p 1  Y2 p  2  ::: Y3 p
Y p' 1  ; Y3' p 1  ; Y5' p 1  ;
2
p 2
p 2
p
Y3 p 1  Y3 p  2  ::: Y4 p Y4 p 1  Y4 p  2  ::: Y5 p
Y7' p 1  ; Y9' p 1  etc.
2
p 2
p

Lorsque p est pair, les moyennes s’écrivent :


Y1 Y p 1 Y p 1 Y2 p 1
 Y2  ::::   Y p  2  :::: 
Y p'  2  2 2 ; Y3' p  2  2 2 ;
2
p 2
p
Y2 p 1 Y3 p 1 Y3 p 1 Y4 p 1
 Y2 p  2  ::::   Y3 p  2  :::: 
Y5' p  2  2 2 ; Y'
7 p2 
2 2
2
p 2
p

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 72


Tableau 46 : Tableau de calculs des moyennes échelonnées d’ordre 8, de la série des pluies
T Yt Y’ t Yt Y’ t Yt Y’ t Yt Y’ t Yt Y’ t Yt Y’
1 0 11 0,3 21 131,2 92,21 31 161,9 41 35,7 51 0
2 0 12 0 22 39 32 263,8 42 55,2 52 15,3
3 4,1 13 0 21,29 23 0 33 88,7 43 233,5 53 112,3 77,53
4 10,4 14 0 24 0 34 6,2 44 305,3 54 81,9
5 84 83,75 15 13,2 25 0 35 0 45 112,4 96,79 55 162,2
6 130,3 16 0 26 0 36 0 46 48,4 56 196,6
7 160,7 17 67 27 0 37 0 9,24 47 0 57 103,8
8 197,8 18 163,8 28 0 38 0 48 1,7 58 3,8
9 165,4 19 148,3 29 68,9 75,57 39 5,5 49 0 59 0
10 40,6 20 221,9 30 65,6 40 0 50 0 60 0
Sur les 60 observations, nous avons une perte de 53 observations soit 7 moyennes
échelonnées calculées.

2.2 La méthodes des moyennes mobiles


On appelle moyennes mobiles d’ordre p , pour p impair, de la variable Y , les moyennes
successives Y ' calculées sur une période de longueur p consécutifs et rapportées à la date du
milieu de la période.

Y1  Y2  ::: Y p Y2  Y3  ::: Y p 1 Y3  Y4  ::: Y p  2


Y p' 1  ; Y p' 3  ; Y p' 5  ;
2
p 2
p 2
p
Y4  Y5  ::: Y p 3 Y5  Y6  ::: Y p  4
Y p'  7  ; Y p' 9  etc.
2
p 2
p
Lorsque p est pair, les moyennes s’obtiennent par les relations suivantes :
Y1 Y p 1 Y2 Y p2 Y3 Y p 3
 Y2  :::   Y3  :::   Y4  ::: 
Y p'  2  2 2 ; Y p'  4  2 2 ; Y p' 6  2 2 ;
2
p 2
p 2
p
Y4 Y p4 Y5 Y p 5
 Y5  :::   Y6  ::: 
Y p' 8  2 2 ; Y'  2
p 10
2
2
p 2
p
Tableau 47 : Tableau de calculs des moyennes mobiles d’ordre 8, de la série des pluies
T Yt Y’ t Yt Y’ t Yt Y’ t Yt Y’ t Yt Y’ t Yt Y’
1 0 11 0,3 61,38 21 131,2 92,21 31 161,9 81,89 41 35,7 86,43 51 0 36,53
2 0 12 0 39,8 22 39 77,79 32 263,8 81,89 42 55,2 96,48 52 15,3 58,86
3 4,1 13 0 21,29 23 0 58,28 33 88,7 77,58 43 233,5 99,16 53 112,3 77,53
4 10,4 14 0 22,84 24 0 35,14 34 6,2 68,18 44 305,3 98,62 54 81,9 84,25
5 84 83,75 15 13,2 39,79 25 0 17,38 35 0 55,3 45 112,4 96,79 55 162,2 84,49
6 130,3 96,63 16 0 62,91 26 0 15,15 36 0 29,04 46 48,4 91,11 56 196,6 83,53
7 160,7 98,93 17 67 84,98 27 0 26,93 37 0 9,24 47 0 73,07 57 103,8
8 197,8 98,04 18 163,8 95,61 28 0 53,54 38 0 8,99 48 1,7 40,35 58 3,8
9 165,4 92,14 19 148,3 97,23 29 68,9 75,57 39 5,5 26,64 49 0 22,22 59 0
10 40,6 78,74 20 221,9 96,4 30 65,6 81,5 40 0 60,32 50 0 24,31 60 0

Par la méthode des moyennes mobiles, seules les observations au début et à la fin de la séries
p p
disparaissent : soit p observations quand p est pair ( au début et à la fin) ou et
2 2
p 1 p 1
p  1 observations quand p est impair ( au début et à la fin).
2 2

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 73


Il n'est pas toujours facile de distinguer la tendance lorsque la série chronologique est soumise
à des variations saisonnières. La méthode mathématique consiste à calculer les moyennes
échelonnées et mobiles en choisissant comme longueur de la période des variations
saisonnières, de façon à les faire disparaître. Si la moyenne échelonnée ou mobile choisie est
de longueur différente, les variations saisonnières ne sont pas toujours éliminées
Les moyennes échelonnées et mobiles ont en outre l'avantage d'atténuer les variations
accidentelles mais, l'inconvénient de n'être définies ni au début ni à la fin de la période
observée.

Diagramme de dispersion et trend des hauteurs de pluie à Ouaga selon la méthode des moyennes mobiles

340
320 Trend: moyennes mobiles
300
280
260
240
Hauteur de pluie

220
200
180
160
140
120
100
80
60
40
20
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60

Temps t

Graphique 21
Section 3
La détermination des coefficients saisonnier
L’élimination de la composante saisonnière d’une chronique requière au préalable le calcul
des coefficients saisonniers, indicateur des variations saisonnières. Leurs méthodes de calculs
sont :
- La méthode des différences ou des rapports à la moyenne générale, appropriée pour les
chroniques à trend stationnaire,
- La méthode des différences ou des rapports au trend, appropriée pour les chroniques à trend
croissant ou décroissant.

3.1 Chronique à trend stationnaire


La stationnarité du trend entraine, pour le calcul des coefficients saisonnier, la méthode des
différences à la moyenne générale pour un modèle additif et la méthode des rapports à la
moyenne générale pour un modèle multiplicatif.

3.1.1 Modèle additif


Pour un modèle additif, la différence se fait par rapport à la moyenne générale de la
chronique. C’est pourquoi la méthode prend le nom de « différences à la moyenne générale »
Par cette méthode, le calcul des coefficients saisonnier se fait à travers les étapes suivantes

1. Calculer la moyenne générale y des observations Yt .


2. Calculer les moyennes saisonnières y j .

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 74


3. Le coefficient saisonnier  j , pour chaque saison, sera calculé comme la différence de la
m
moyenne saisonnière à la moyenne générale. Soit :  j = (y j  y) . En principe, 
j 1
j 0 . Dans
m
le cas contraire, il conviendrait de prendre comme coefficients saisonniers les  'j m j  j .
j 1
m
Et on aura cette fois ci 
j 1
'j 0

Tableau 48 : Calcul des coefficients saisonniers pour modèle additif à trend stationnaire
(méthode des différences à la moyenne générale)
jan fév mars avril Mai Juin juillet août Sept oct nov Déc
1986 0 0 4,1 10,4 84 130 160,7 197,8 165 40,6 0,3 0
1987 0 0 13,2 0 67 164 148,3 221,9 131 39 0 0
1988 0 0 0 0 68,9 65,6 161,9 263,8 88,7 6,2 0 0
1989 0 0 5,5 0 35,7 55,2 233,5 305,3 112 48,4 0 1,7
1990 0 0 0 15,3 112 81,9 162,2 196,6 104 3,8 0 0

y j 0 0 22,8 25,7 367,9 496,8 866,6 1185,4 602 138 0,3 1,7
yj 0 0 4,56 5,14 73,58 99,36 173,32 237,08 120 27,6 0,06 0,34
 j  ( y j  y ) -61,778 -61,78 -57,22 -56,64 11,8 37,58 111,54 175,3 58,5 -34,18 -61,72 -61,44

3.1.2 Modèle multiplicative


Pour un modèle multiplicatif, le rapport se fait par rapport à la moyenne générale de la
chronique. C’est pourquoi la méthode prend le nom de « rapport à la moyenne générale ». Par
cette méthode, le calcul des coefficients saisonnier se fait à travers les étapes suivantes :
1. Calculer la moyenne générale y des observations Yt .
2. Calculer les moyennes saisonnières y j .
3. Le coefficient saisonnier  j , pour chaque saison, sera calculé comme le rapport de la
m
moyenne saisonnière à la moyenne générale. Soit :  j  . En principe,  j m . Dans le cas
yj
y j 1

m j
contraire, il conviendrait de prendre comme coefficients saisonniers les  'j  m . Et on aura

j 1
j

m
cette fois ci 
j 1
'j m

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 75


Tableau 49 : Calcul des coefficients saisonniers pour modèle multiplicatif à trend stationnaire
(méthode des rapports à la moyenne générale)
Jan fév mars Avril Mai Juin juillet août Sept oct nov Déc
1986 0 0 4,1 10,4 84 130 160,7 197,8 165 40,6 0,3 0
1987 0 0 13,2 0 67 164 148,3 221,9 131 39 0 0
1988 0 0 0 0 68,9 65,6 161,9 263,8 88,7 6,2 0 0
1989 0 0 5,5 0 35,7 55,2 233,5 305,3 112 48,4 0 1,7
1990 0 0 0 15,3 112 81,9 162,2 196,6 104 3,8 0 0

y j 0 0 22,8 25,7 367,9 496,8 866,6 1185,4 602 138 0,3 1,7
yj 0 0 4,56 5,14 73,58 99,36 173,32 237,08 120 27,6 0,06 0,34
yj
j 
y 0 0 0,0738 0,083 1,191 1,608 2,8055 3,8376 1,95 0,447 0,001 0,0055

3.2 Chronique à trend variable


Elle est la plus utilisée, car s’appliquant au trend le plus fréquent. Cette variabilité du trend
induit, pour le calcul des coefficients saisonnier, la méthode des différences au trend pour un
modèle additif et la méthode des rapports au trend pour un modèle multiplicatif.

3.2.1 Modèle additif


Pour un modèle additif, la différence se fait par rapport au trend de la chronique. C’est
pourquoi la méthode prend le nom de « différences au trend» Par cette méthode, le calcul des
coefficients saisonnier se fait à travers les étapes suivantes
1. Calculer les valeurs Yt ' obtenues par l’équation du trend ou par la méthode des moyennes
échelonnées ou mobiles.
2. Calculer les  t comme les différences entre chaque observation Yt et la valeur du trend Yt '
correspondante :  t  Yt  Yt ' .
3. Le coefficient saisonnier  j , pour chaque saison, sera calculés comme la moyenne ou la
médiane des  t

Tableau 50 : Calcul des coefficients saisonniers pour modèle additif à trend variable
(méthode des différences au trend)
jan fév mars Avril Mai Juin juillet août Sept oct nov Déc
1986 0,25 33,7 61,8 99,76 73,26 -38,1 -61,08 -39,8
1987 -21,29 -22,84 -26,59 -62,91 -17,98 -68,2 51,1 125,5 38,99 -38,8 -58,28 -35,14
1988 -17,38 -15,15 -26,93 -53,54 -6,67 -15,9 80 181,9 11,12 -62 -55,3 -29,04
1989 -9,24 -8,99 -21,14 -60,32 -50,73 -41,3 134 206,7 15,61 -41,7 -73,07 -38,65
1990 -22,22 -24,31 -36,53 -43,56 34,77 -2,35 77,7 113,1

 t -70,13 -71,29 -111,19 -220,33 -40,36 -94,05 404,9 726,92


139 -181 -247,7 -142,6

j -17,533 -17,823 -27,798 -55,083 -8,072 -18,81 80,98 145,38 34,75 -45,16 -61,933 -35,658

3.2.2 Modèle multiplicative


Pour un modèle multiplicatif, le rapport se fait par rapport au trend de la chronique. C’est
pourquoi la méthode prend le nom de « rapports au trend » Par cette méthode, le calcul des
coefficients saisonnier se fait à travers les étapes suivantes:

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 76


1. Calculer les valeurs Yt ' obtenues par l’équation du trend ou par la méthode des moyennes
échelonnées ou mobiles.
2. Calculer les  t comme les rapports entre chaque observation Yt et la valeur du trend
Yt
Yt ' correspondante:  t  .
Yt '
3. Le coefficient saisonnier  j , pour chaque saison, sera calculés comme la moyenne ou la
médiane des  t

3.3 La dessaisonalisation, ou série CVS


Les coefficients saisonniers permettent d'éliminer d'une observation les effets de la variation
saisonnière correspondante. On obtient ainsi les valeurs corrigées des variations saisonnières,
ou encore les valeurs désaisonnalisées. L'avantage de cette dessaisonalisation est de permettre
la comparaison de deux observations soumises à des variations saisonnières différentes.
Pour un modèle additif la série CVS est : CVS = Yt   'j
Tableau 51 : Série CVS (pour modèle additif)
Jan Fév mars avril Mai Juin juillet août Sept oct nov Déc
1986 61,778 61,78 61,32 67,04 72,2 92,42 49,16 22,5 106,5 74,78 62,02 61,44
1987 61,778 61,78 70,42 56,64 55,2 126,42 36,76 46,6 72,5 73,18 0 61,44
1988 61,778 61,78 57,22 56,64 57,1 28,02 50,36 88,5 30,2 40,38 0 61,44
1989 61,778 61,78 62,72 56,64 23,9 17,62 122 130 53,5 82,58 0 63,14
1990 61,778 61,78 57,22 71,94 100,2 44,32 50,66 21,3 45,5 37,98 0 61,44
j -61,778 -61,78 -57,22 -56,64 11,8 37,58 111,5 175,3 58,5 -34,18 -61,72 -61,44
Yt
Pour un modèle multiplicatif la série CVS est : CVS =
 'j
Tableau 52 : Série CVS (pour modèle multiplicatif)
jan fév mars avril Mai Juin juillet août Sept oct nov Déc
1986 0 0 55,556 125,301 70,529 80,846 57,28 51,54 84,615 90,83 300 0
1987 0 0 178,86 0 56,2552 101,99 52,86 57,82 67,179 87,25 0 0
1988 0 0 0 0 57,8505 40,796 57,71 68,74 45,487 13,87 0 0
1989 0 0 74,526 0 29,9748 34,328 83,23 79,55 57,436 108,3 0 309,09
1990 0 0 0 184,337 94,0386 50,933 57,82 51,23 53,333 8,501 0 0
j 0 0 0,0738 0,083 1,191 1,608 2,8055 3,8376 1,95 0,447 0,001 0,0055
3.4 Prévision
L’étude d’une série chronologique à souvent pour bu également de faire des prévisions pour
l’évolution future de la variable Y .
Ainsi, en faisant varier t au-delà de la période étudiée, on détermine les valeurs prévues par le
trend (Yt ' ) . Pour obtenir des prévisions plus proches de la réalité, il convient de ré-
saisonnaliser ces valeurs. Pour un modèle additif la valeur prévue est donnée par :
Yˆt  Yt '   j (ou  'j ). Pour un modèle multiplicatif la valeur prévue est donnée par :
Yˆ  Y ' x (ou  'j )
t t j

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 77


Chapitre XIV
Les indices statistiques

Les indices statistiques, sont des indicateurs qui, synthétisent l’évolution d’une grandeur
économique dans l’espace et dans le temps. On peut distinguer les indices élémentaires, qui
mesurent l’évolution d’une seule grandeur, des indices synthétiques, qui mesurent l’évolution
simultanée de plusieurs grandeurs.

Section 1
Les indices simples ou élémentaires
Soit G , une grandeur économique notée G t à la date t où t varie de 0 à n .
1.1 Définitions
L’indice élémentaire de G est un rapport entre deux de ses valeurs mesurées à des dates
différentes. Une des dates étant choisie comme date de référence. It / 0(G) Gt où t est appelée
G0
date courante, et 0 date de base ou date de référence.
On convient de multiplier le résultat de ce rapport par 100. Ce qui signifie que la grandeur G
est à l’indice It / 0(G) à la date t , base 100 à la date 0.
En fait l’indice simple, lorsqu’il n’est pas multiplié par 100, est le coefficient multiplicateur.
Nous déduisons de l’indice simple, le taux de variation de G noté Tt / 0(G) :
Tt / 0(G) Gt G0  Gt  G0 Tt / 0(G) It / 0(G)1
G0 G0 G0
Le taux de variation est donc égal à la différence entre l’indice simple et l’unité. Par
équivalence nous aurons aussi : It / 0(G)1Tt / 0(G) .
Ainsi, un indice simple supérieur à 1 (ou 100) indique une augmentation de la grandeur G
entre les deux dates, et un indice simple inférieur à 1 (ou 100) en indique une diminution.

1.2 Propriétés des indices simples


Les indices simples possèdent la propriété de circularité ou de transférabilité, qui permet
d’effectuer des changements de base, de raccorder des séries d’indices, de connaître les
variations de G entre deux dates quelconques, et d’établir les relations de réversibilité et
d’enchaînement.
1.2.1 Circularité ou transférabilité
Un indice à la date t exprimé par rapport à une année de référence 0, peut être décomposé en
plusieurs indices élémentaires à des dates successives ou à des dates intermédiaires tel que :
It / 0(G)It /1(G)xI1/ 0
1.2.2 Enchaînement
La généralisation de la propriété de circularité, nous donne la relation d’enchaînement
suivante : It / 0(G)It /t 1(G)xIt 1/ t 2(G)x...xI1/ 0(G)
1.2.3 Réversibilité
A partir de la propriété de circularité, nous pouvons écrire que It / t (G)It / 0(G)xI0/ t . Comme
It /t(G)1 , nous en déduisons que : It / 0(G) 1 . Ce qui signifie que l’indice simple est
I0 / t (G)
réversible.
1.2.4 Changement de base et raccordement
Ils permettent d’obtenir la valeur d’un indice simple à une nouvelle base connaissant sa valeur
It / 0(G)
à une ancienne base. Formellement, It / 0(G)It /1(G)xI1/ 0  It /1(G) où 0 est la base de
I1/ 0(G)

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 78


l’ancien indice, et 1, la base du nouvel indice. La valeur I1/ 0(G) est appelée coefficient de
raccordement.
1.2.5 Multiplication
Si G  ExF , alors It / 0(G)It / 0(E)xIt / 0(F) . La variation de G dépend ainsi de la variation de
E et de celle de F . Comme exemple, l’évolution du chiffre d’affaires qui dépend de
l’évolution des prix et de celle de la quantité.
1.2.6 Division
It / 0(E)
Si G E , alors It / 0(G)
F It / 0(F)

Section 2
Les indices Synthétiques
Un indice synthétique est une grandeur composite qui résume un ensemble d’indices simples
basés sur des grandeurs hétérogènes. C’est donc une moyenne d’indices simples. Les plus
courants sont l’indice de Laspeyres, de Paasche et de Fisher.

2.1 L’indice de Laspeyres


C’est une moyenne arithmétique d’indices simple pondérée par des coefficients calculés à la
date de base. Ces coefficients sont des coefficients de pondération.
Pour des indices simples de prix de plusieurs produits i i  1,...,n l’indice de Laspeyres des
n
prix l’année t , base 100 l’année 0 est : Lt / 0(P)0i It / 0(Pi ) . Avec 0i  n 0 0 . C’est la part
PiQi
i 1
P0iQ0i i 1
n
du produit i en valeur sur la valeur totale à la date de base. Par conséquent  1 . Le
i 1
i
0

coefficient de pondération, est aussi appelé coefficient budgétaire dans certains cas de
dépenses de consommation de ménages.
Une deuxième formule de Laspeyres des prix peut être déduite de la première :
n
P Q t
i i
0
Lt / 0(P) i 01
P Q
i 1
0
i i
0

En considérant les indices simples de quantités, nous définissons de la même manière l’indice
n

n P Q 0
i
t
i

de Laspeyres des quantités : Lt / 0(Q)0i It / 0(Qi ) ou Lt / 0(Q) i 01


i 1
P Q
i 1
0
i i
0

L’indice de Laspeyres des quantités mesure la variation de la valeur d’un panier de biens à
des prix constants, donc en fait des variations des quantités.

2.2 L’indice de Paasche


L’indice de Paasche se présente comme une moyenne harmonique d’indices simples pondérée
par des coefficients calculés à la date courante.
2.2.1 L’indice de Paasche des prix
n

1
P Q t
i
t
i

Pt / 0(P) ou Pt / 0(P) i 1
n
ti n

I
i 1 t /0 (Pi ) P Q
i 1
0
i
t
i

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 79


Pt iQti
Avec ti  n
.C’est la part du produit i en valeur sur la valeur totale à la date courante.
PtiQti
i 1
n

 1
i 1
i
t

2.2.2 L’indice de Paasche des quantités


n

1
P Q t
i
t
i

Pt / 0(Q) ou Pt / 0(Q) i 1
n
ti n

i 1
I
(Q i) t /0
i 1
Pt iQ0i
L’indice de Paasche des prix compare la valeur courante d’un panier de biens à la valeur qu’il
aurait eu à la période de base, tandis que l’indice de Paasche des quantités compare cette
même valeur courante à la valeur courante du panier de biens à la période de base.
2.3 L’inde de Fisher
C’est la moyenne géométrique des indices de Laspeyres et de Paasche.
2.3.1 L’indice de Fisher des prix
Ft / 0(P) Lt / 0(P)xPt / 0(P)
2.3.2 L’indice de Fisher des quantités
Ft / 0(Q) Lt / 0(Q)xPt / 0(Q)
L’indice de Fisher est compris entre l’indice de Laspeyres et l’indice de Paasche.
2.4 L’indice de valeur
Il mesure la variation de la valeur d’un produit ou d’un ensemble de produits entre la date 0 et
n

PtQt P Q t
i
t
i

la date t . It / 0(V) pour un seul produit, ou It / 0(V) i n1 pour plusieurs produits.
P0Q0
P Q
i 1
0
i i
0

En multipliant un indice de prix par un indice de quantité, on obtient un indice de valeur.


Ainsi on peut établir les relations suivantes :
It / 0(V)It / 0(P)xIt / 0(Q)
It / 0(V)Lt / 0(P)xPt / 0(Q)
It / 0(V)Pt / 0(P)xLt / 0(Q)
It / 0(V)Ft / 0(P)xFt / 0(Q)
2.5 Propriétés des indices synthétiques
2.5.1 Absence de circularité
Les indices de Laspeyres et de Paasche ne possèdent la propriété de circularité
Lt / 0(G) Lt /1(G)xL1/ 0(G)
Pt / 0(G) Pt /1(G)xP1/ 0(G)
2.5.2 Présence de relation
Il existe des relations entre les indices de Laspeyres et de Paasche telles que :
- Lt / 0(P) 1 ; Lt / 0(Q) 1
P0/ t (P) P0 / t (Q)
- Pt / 0(P) 1 ; Pt / 0(Q) 1
L0/ t (P) L0 / t (Q)
2.5.3 Réversibilité
L’indice de Fischer est réversible entrainant : Ft / 0(G) 1
F0/ t (G)

Boureima Zerbo-cours-statistique-descriptive-S1-2019-2020-ufr-seg-Univ-Thomas SANKARA 80

Vous aimerez peut-être aussi