Académique Documents
Professionnel Documents
Culture Documents
4
3
2
1
0
0 1 2 3
SUPPORT DE COURS
DE STATISTIQUE
DESCRIPTIVE
n (x − x)
n
2
V (X ) = = f (x − x)
i i
i =1 2
n i i
n i
i =1
yi = axi + b
n
xi ni
X = i =1
n = f i xi
ni
i =1
1
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
Le questionnaire : ................................................................................................................................. 6
2. Echantillon..................................................................................................................................... 8
a. Caractère..............................................................................................................................8
b. Modalités..............................................................................................................................8
5. Différents types de caractères ....................................................................................................... 8
a. Le recensement .................................................................................................................... 9
b. Le sondage ......................................................................................................................... 10
c. Enquête statistique ............................................................................................................ 10
d. Dépouillement .................................................................................................................... 10
CHAP II : TABLEAUX STATISTIQUES ET REPRESENTATIONS GRAPHIQUES.................. 11
2
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
A. Le mode ....................................................................................................................................... 22
1. Définition .............................................................................................................................. 22
2. Détermination pratique ..................................................................................................... 22
a. Cas d’une variable discrète ou discontinue................................................................... 22
b. Cas d’une variable continue .......................................................................................... 23
B. Les moyennes ............................................................................................................................ 24
1. Définition .............................................................................................................................. 24
2. Détermination pratique de la moyenne arithmétique........................................................... 24
a. Définition moyenne arithmétique simple ..................................................................... 24
b. Définition : moyenne arithmétique pondérée .............................................................. 25
C. La médiane ( M e ) ........................................................................................................... 27
3
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
Introduction ......................................................................................................................................... 38
I. – GENERALITES ......................................................................................................................47
1. Définition ........................................................................................................................... 47
2. Types d’indice..................................................................................................................... 47
II. – ETUDE DES INDICES ELEMENTAIRES .........................................................................47
1) Définition........................................................................................................................................ 47
2) Propriétés ......................................................................................................................................48
III – ETUDE D’INDICE SYNTHETIQUE ......................................................................................... 48
1. Définition ...........................................................................................................................48
4
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
I. – GENERALITES ..................................................................................................................... 52
1- Définition ........................................................................................................................ 52
2- Les composantes des séries temporelles................................................................. 52
3- Les modèles de composition ....................................................................................... 53
a. Schéma additif Yt = Ct + S t + t , avec t = 1,, n . ................................................. 53
b. Schéma multiplicatif .................................................................................................... 54
4- Les méthodes de décomposition d’une série chronologique ............................. 54
II. – TENDANCE GENERALE OU TREND D’UNE SERIE CHRONOLOGIQUE................55
5
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
Monsieur X voudrait créer, dans son village, un centre de gymnastique et de musculation. Avant de
se lancer, il entreprend une étude de marché. Cette étude comporte un questionnaire.
A- Comment va-t-il dépouiller ce questionnaire pour savoir s’il est opportun ou non d’ouvrir ce centre ?
B- Comment présenter les données recueillies de la meilleure façon ?
Le questionnaire :
1°/ Etes-vous favorable à la création d’un centre de gymnastique et de musculation ? Oui Non
(Entourez la bonne réponse)
- si oui, passez aux questions suivantes
- si non, ce questionnaire est terminé
2°/ Vous êtes favorable à la création d’un centre de gymnastique et de musculation.
Combien d’heures par semaine y consacreriez-vous ? Nombre d’heures :
3°/ Indiquez votre âge :
4°/ Quel est votre sexe ? M F (entourez la bonne réponse)
Pour faciliter la lecture des renseignements recueillis, on les présente en général dans un tableau.
Des calculs sur ces informations permettent d’obtenir des renseignements complémentaires. Ainsi,
les solutions trouvées à ces questions permettront à Monsieur X de disposer des informations
nécessaires et indispensables qui l’amèneront à créer ou pas le centre de gymnastique dans son
village. Cette méthode de résolution est une méthode statistique.
En fait, les études statistiques sont des sources d’informations précieuses. Elles s’étendent à tous les
domaines d’activités (domaines tels que commercial, assurance, banque, santé, éducation,
agriculture, etc.). Alors qu’est-ce que c’est que la (les) statistique(s) ?
Le terme « statistique » a un sens différent selon qu’il est employé au pluriel ou au singulier.
Au pluriel, dans le langage courant, le terme statistique signifie : données numériques sur un
sujet quelconque. C’est l’ensemble des documents regroupant les données. Par exemple les
statistiques de vente, d’accident de travail.
Dans son second sens, employé au singulier, le mot « statistique » désigne la méthode
scientifique dont le but est l’étude des propriétés numériques des ensembles de faits quelle que soit
leur nature.
6
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
La statistique regroupe l’ensemble des méthodes permettant d’obtenir et de traiter ces statistiques.
Les définitions sont nombreuses. Nous en citerons trois qui permettent de comprendre sous des
angles différents, son objet :
• C’est une science qui a pour objet de recueillir un ensemble de données numériques relatives à tel ou
tel phénomène aléatoire et d’exploiter ces informations pour établir toutes les relations de causalité
par l’analyse et l’interprétation.
• C’est une science dont l’objet est de récolter une information quantitative concernant des individus,
des groupes, des séries de faits… et de déduire, grâce à l’analyse de ces données, des significations
précises ou des prévisions pour l’avenir.
Bref, la statistique permet d’avoir une meilleure connaissance des faits et de faciliter la prise de
décisions.
7
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
2. Echantillon
C’est un sous ensemble ou une partie de la population statistique.
4. Caractère et modalités
a. Caractère
C’est le trait commun à tous les individus de la population ; ou encore la qualité attachée à chacun
des individus. C’est ce que l’on observe sur chacun des individus de la population. Il est observé un
ou plusieurs caractères pour chaque individu.
Exemple : les marques des véhicules d’un parc automobile ; le nombre de personnes faisant achat
dans un magasin donné entre 12 et 14 heures ; la situation matrimoniale des personnes habitant un
village…
b. Modalités
Les modalités d’un caractère sont les différentes valeurs que peut prendre ce caractère sur l’ensemble
de l’univers statistique. Chaque caractère observé peut prendre deux ou plusieurs modalités.
Exemple : les marques des véhicules d’un parc automobile (BMW, Mercedes Benz, Toyota,
Honda, …) ; le nombre de personnes faisant achat dans un magasin donné entre 12 et 14 heures (0,
1, 2, 3, 4, 5, …) ; la situation matrimoniale des personnes habitant un village (célibataire, marié,
divorcé, séparé, veuf) …
8
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
Un caractère est dit quantitatif si toutes ses modalités sont mesurables ou peuvent être repérées par
un nombre. Ce type de caractère est aussi appelé variable statistique.
Exemple : Nombre d’enfants d’un ménage donné ; poids ; taille ; salaire ; âge ; nombre d’étudiants.
Par convention, la variable statistique est désignée par la lettre X . Soit X i une variable quelconque.
L’indice « i » affecté à X identifie les différentes modalités que peut prendre la variable.
Deux types de caractères (variables) quantitatifs sont à distinguer : les caractères quantitatifs
discrets et les caractères quantitatifs continus.
Un caractère est dit discret ou discontinu lorsque ses modalités sont des nombres isolés ou finis et le
plus souvent entiers et qu’elles ne peuvent pas prendre toutes les valeurs d’un intervalle.
Exemple : Nombre d’enfants d’un ménage ; valeur des billets de banque ; nombre de pièce
d’appartement ; nombre de salariés ; nombre d’étudiants…….
- Variables quantitatives continues
La variable est en revanche dite continue lorsqu’elle peut prendre toutes les valeurs possibles d’un
intervalle donné.
Exemple : le poids ou la taille d’un individu ; le chiffre d’affaires d’un magasin….
b. Caractères qualitatifs ou caractères non mesurables
Un caractère est dit qualitatif si ses différentes modalités ne sont pas mesurables. Ce
caractère n’est pas repérable par un nombre mais par une qualité ou un adjectif.
a. Le recensement
9
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
b. Le sondage
Ce sont les renseignements pris sur un échantillon de population. Cet échantillon peut être
pris au hasard parmi une population recensée ou à partir de critères bien déterminés
représentatifs de la population à étudier.
Exemple : une enquête relative à un produit à la sortie d’un magasin ; ….
c. Enquête statistique
d. Dépouillement
10
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
Après classement suivant le (ou les) caractère(s) retenu(s), les observations forment une distribution
ou série statistique. Le terme série est assez souvent réservé aux distributions des observations dans
le temps (exemple série chronologique ou série temporelle). Les distributions statistiques les plus
simples sont naturellement les séries à un seul caractère : elles sont présentées sous forme de
tableaux statistiques à une dimension. Néanmoins, la lecture de ces tableaux, la synthèse des
informations qu’ils contiennent, est parfois assez difficile. Une distribution statistique peut souvent
être exprimée de façon beaucoup plus claire sous forme de diagramme (un graphique). Ainsi, suivant
la nature qualitative ou quantitative, discrète ou continue du caractère étudié, on utilise différents
types de représentation graphique.
Il existe plusieurs niveaux de description statistique : la présentation brute des données, des
présentations par tableaux numériques, des représentations graphiques et des résumés numériques
fournis par un petit nombre de paramètres caractéristiques.
A. TABLEAUX STATISTIQUES
Il s’agit de regrouper sous forme d’un tableau les différentes observations correspondant à chaque
modalité du caractère étudié.
1. Présentation d’une série statistique (on appelle série statistique la suite des valeurs prises par une variable
X sur les unités d’observation).
Dans une première colonne seront inscrites les différentes rubriques de la nomenclature, les
différentes valeurs des modalités ou encore les classes selon que l’on étudie un caractère qualitatif
ou quantitatif. Les valeurs de la variable X sont notées x1 ,......., xi ,......, xn .
La seconde colonne contiendra les effectifs dénombrés. La troisième colonne pourra donner la
répartition en pourcentage (fréquences).
Caractère étudié
Dépouillement Effectif Fréquence
K ou Modalités
x1 n1 n1 N
x2 n2 n2 N
… ….
xi ni ni N
…. ….
xk nk nk N
k
Total n
i =1
i 1
11
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
▪ A chaque modalité du caractère (ou de la variable X), peut correspondre un ou plusieurs individus
dans l’échantillon de taille n .
▪ On appelle effectif de la modalité xi , le nombre ni où ni est le nombre d’individus de cette
modalité . On appelle effectif d’une modalité ou d’une valeur distincte, le nombre de fois que cette
modalité apparait. On note ni l’effectif de la modalité xi .
k
▪ On appelle effectif total n1 + n2 + n3 + ..... + ni + ... + nk = n
i =1
i =N
Remarque : Parfois on peut rencontrer le terme de fréquence absolue pour les effectifs.
▪ La fréquence d’une modalité xi est l’effectif divisé par le nombre d’unités d’observation ou l’effectif
total. Le nombre f i tel que :
k
ni n effectif de la mod alité
fi = = i = avec f i = 1 .
ni N
i =1
effectif total i =1
pi =
ni n
100 = i 100 avec p = 100 .
ni
i
N i =1
i =1
▪ L’emploi des fréquences ou fréquences relatives s’avère utile pour comparer deux distributions
de fréquences établies à partir d’échantillons de taille différente.
▪ Les données en pourcentage, ou en fréquences facilitent très souvent l’interprétation des chiffres et
ne doivent pas être négligées.
Le tableau de distribution de fréquences est un mode synthétique de présentation des données. Sa
constitution est immédiate dans le cas d’un caractère discret mais nécessite en revanche une
transformation des données dans le cas d’un caractère continu.
Dans le but de faciliter la représentation graphique, les modalités d’une variable quantitative sont
rangées dans l’ordre croissant.
0 IIII 4 0,27
1 IIIII II 7 0,47
12
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
2 II 2 0,13
3 II 2 0,13
Total 15 1
32 58 59 52 53 43 37 39 86 40
51 30 52 50 51 36 79 63 64 48
82 53 24 59 20 44 45 45 41 75
90 61 55 22 56 47 76 62 66 100
• Population observée ?
• Unité statistique ?
• Caractère (ou variable) quantitatif ?
• Modalités ?
➢ Population observée : 40 entreprises industrielles de la région ouest africaine
➢ Unité statistique ou individu : une entreprise industrielle
➢ Caractère (ou variable) quantitatif : nombre de salariés
➢ Modalités :
20 22 24 30 32 36 37 39 40 41
43 44 45 47 48 50 51 52 53 55
56 58 59 61 62 63 64 66 75 76
79 82 75 76 79 82 86 90 100
Dans le cas d'une variable quantitative continue, la construction d’un tableau de fréquences implique
d’effectuer au préalable une répartition en classes des données. Cela nécessite de définir le
nombre de classes attendu et donc l’amplitude associée à chaque classe ou intervalle de classe.
En règle générale, on choisit des classes de même amplitude. Pour que la distribution en
fréquence ait un sens, il faut que chaque classe comprenne un nombre suffisant de valeurs ( ni ).
13
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
A partir de X min on obtient les valeurs extrêmes ou bornes de classes par addition successive de
l’intervalle de classe. En règle général, on tente de faire coïncider la valeur centrale ou l’amplitude
de la classe avec un nombre entier ou ayant peu de décimales.
Exemple précédent suite :
1. A partir des données de l’enquête, établir la distribution des entreprises selon le nombre de
salariés dans un tableau de 5 classes.
2. Tracer le diagramme différentiel de cette distribution et commenter
3. Définir la fonction de répartition et tracer les courbes cumulatives
Solution
X max − X min 100 − 20
1. Déterminons l’amplitude k telle que k = k= = 16
N 5
Total 40 1 100
c. Variables qualitatives
Pour dépouiller ces variables, on convient souvent d’une codification
Exemple : Un cafetier relève sur les vingt premiers clients consommant de la bière, la marque
choisie (Guinness ; Flag ; Lager ; Pils ; Awooyo ; Eku ; Heineken) dans l’ordre suivant :
G ; G ; F ; H ; P ; G ; E ; L ; L ; E ; A ; F ; F ; A ; H ; G ; P ; P; F; G.
Total 20
C’est la somme des effectifs ou fréquences de cette modalité et des modalités qui la suivent.
Les fréquences cumulées croissantes permettent de connaître la proportion d’individus présentant
un caractère inférieur (ou égal) à une certaine modalité.
C’est la somme des effectifs ou fréquences de cette modalité et des modalités qui la précèdent.
Les fréquences cumulées décroissantes donnent la proportion des individus ayant un caractère
supérieur (ou égal) à une certaine modalité.
Exemple précédent sur la vente de la nourriture pour animaux :
Dresser le tableau faisant apparaître les effectifs cumulés croissants et décroissants, les fréquences,
ses cumuls croissant et décroissant simples et en %.
Effectifs Eff. Eff. Fréq. Fréq. Fréq.
Cum. Cum. Fréq en % cum. cum.
Modalités ni Crois. décrois. crois. décrois.
Xi Ni Ni fi fi % Fi Fi
15
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
Total 40 1 100 - - - -
Une représentation graphique permet souvent de mieux visualiser une série statistique. C’est donc
un mode d’expression qui permet « visuellement » de saisir et de mémoriser un certain nombre
d’informations. C’est pourquoi, lors de la présentation des résultats statistiques et
complémentairement aux tableaux, on utilise souvent une représentation graphique.
Suivant que la variable soit qualitative, quantitative discrète ou continue, la représentation
graphique est différente. C’est l’objet de ce sous chapitre.
D’une façon générale, pour construire un graphique, certaines précautions préalables doivent être
prises. A cet effet, il faut :
- déterminer les intervalles de variation de la variable pour en déduire l’échelle adéquate ;
- choisir l’intervalle unité qui permet de représenter correctement le phénomène et qui assure la
meilleure utilisation de l’espace disponible ;
- indiquer de façon apparente le titre et la signification des axes.
En conclusion, il ne faut jamais oublier qu’un graphique pour être utile, doit se suffire à lui-même et
dispenser le lecteur de toute référence à un autre document.
16
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
Par ailleurs, la représentation graphique des effectifs ou des fréquences cumulées d’une variable
quantitative discrète s’effectue sous forme de graphique en escalier appelée diagramme en
escalier ou courbe cumulative.
17
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
Cette représentation se fait à l’aide d’un repère orthogonal : en abscisse on a « les différentes classes
de la variable étudiée rangées dans l’ordre croissant » puis en ordonnée « les effectifs ou fréquences
».
α) Cas où toutes les classes sont de mêmes amplitudes
Exemple : Une société publicitaire recense les sociétés avec lesquelles elle travaille. Elle les classe
en fonction du chiffre d’affaires dégagé en milliers de francs.
Fréquence
CA Effectifs
%
]15 – 20] 4 20
]20 – 25] 8 40
]25 – 30] 5 25
]30 – 35] 2 10
]35 – 40] 1 5
Total 20 100
9
8
7
6
Effectif
5
4
3
2
1
0
15 20 25 30 35 40
Chiffre d'affaires
A partir de ce diagramme on peut tracer le polygone des fréquences (ou effectifs) en joignant les
milieux des sommets des rectangles, c’est-à-dire les points correspondant aux centres des classes.
ni c
ni' =
k
18
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
On prend comme amplitude de référence la plus petite ou la plus fréquente des amplitudes.
Ainsi la superficie de chaque rectangle représente alors l’effectif associé à chaque classe.
Exemple :
Reprenons le même exemple que précédemment mais avec un classement différent tel que :
Histogramme ci-dessous erroné (Erreur de l’aire par rapport à l’effectif de la classe représenté).
Faux graphique
8
7
6
Effectifs
5
4
3
2
1
0
]15 – 20] ]20 – 25] ]25 – 32] ]32 – 40]
chiffre d'affaires
Remarque : Le polygone des effectifs est obtenu par des segments de droite. Une extrémité a pour
abscisse le centre de la classe et pour ordonnée la hauteur du rectangle associé.
Par ailleurs, la courbe de la fréquence cumulée croissante se construit en portant les points
correspondant à chaque classe à la limite supérieure de l’intervalle de classes. La présence
d’amplitude inégale n’entraîne aucune modification en ce qui concerne la construction de cette
courbe.
19
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
• Variable qualitative
On utilise généralement pour les variables qualitatives les représentations suivantes :
C’est un disque découpé en secteurs. L’effectif est représenté par ce disque. Chaque modalité est
représentée par un secteur circulaire dont l’aire ou la surface (l’angle au centre) est proportionnelle
Effectif de la mod alité
à l’effectif correspondant. L’angle de chaque modalité se calcule par : 360
Effectif total
soit : ni
360 soit : f i 360 ou f i % 3,6 .
ni
20
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
100%
Ce diagramme est constitué d’un empilement 90% Entreprises
de rectangles représentant chacun une 80% mixtes; 30
modalité. 70%
Fréquence
60% Entreprises
Même exemple : Répartition du marché de privées; 25
l’électricité au Togo. 50%
40%
30% Entreprises
20% publiques; 45
10%
0%
3. Tuyaux d’orgues
Chaque modalité est représentée par une colonne dont la hauteur est proportionnelle à son effectif
(ou à sa fréquence).
50
45
40 Entreprises
35 publiques;
45
30
25 Entreprises
mixtes; 30
20
Entreprises
15
privées; 25
10
5
0
21
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
Les tableaux statistiques et les représentations graphiques donnent une idée sommaire de la
distribution statistique. Cependant, la vraie physionomie d’une série statistique est donnée par des
paramètres chiffrés : les caractéristiques numériques. Elles sont au nombre de 4.
Il s’agit des :
- Caractéristiques de tendance centrale et de position,
- Caractéristiques de dispersion
- Caractéristiques de forme
- Caractéristiques de concentration
Trois caractéristiques de tendance centrale et de position sont utilisées de façon courante : le mode,
la médiane et la moyenne arithmétique. Cette dernière est, de loin, la plus largement employée.
A. Le mode
1. Définition
Le mode M 0 d’une série statistique est la valeur de la variable pour laquelle l’effectif ou la
fréquence est maximal c’est-à-dire le plus élevé ou le plus dominant.
Une série statistique peut présenter un seul mode (distribution unimodale) ou plusieurs modes
(distribution bi, tri, ou plurimodale, …). Comment se calcule le mode ?
2. Détermination pratique
a. Cas d’une variable discrète ou discontinue
Dans ce cas, le mode est défini avec précision et se détermine d’une manière très simple. C’est la
valeur de la variable qui correspond à l’effectif le plus élevé.
Sur le graphique de distribution, le mode correspond au « bâton » le plus élevé. Sa valeur est donnée
par l’axe des abscisses.
n0 − n1 d1
M 0 = L1 + k ou M 0 = L1 + k avec (d1 = n0 − n1 ); (d 2 = n0 − n2 )
(n0 − n1 ) + (n0 − n2 ) d1 + d 2
Avec
L1 : borne inférieure de la classe modale
k : amplitude de la classe modale
n0 : Effectif de la classe modale
n1 : effectif qui précède celui de la classe modale
n 2 : effectif qui suit celui de la classe modale
Exemple n°1. Une société publicitaire recense les sociétés avec lesquelles elle travaille. Elle les
classe en fonction du chiffre d’affaires dégagé en milliers de francs. Déterminer le mode.
CA en milliers de Résolution :
Effectifs Fréquence %
francs
]15 – 20] 4 20 1ère étape : Vérification des amplitudes des classes
]20 – 25] 8 40 (k = B − A) : amplitude commune k = 5 ; d’où
]25 – 30] 5 25 l’effectif le plus élevé étant égal à 8 alors, la classe
]30 – 35] 2 10 modale est ]20 - 25].
]35 – 40] 1 5 2è étape : calcul du mode qui est égal à :
Total 20 100
n0 − n1 8−4
M 0 = e0 + a = 20 + 5 = 22,86 milliers de francs
(n0 − n1 ) + (n0 − n2 ) (8 − 4) + (8 − 5)
Exemple n°2. Soit les notes du devoir de mathématiques des étudiants de la filière CGE d’une
grande école universitaire présentées dans le tableau suivant :
Effectif Résolution :
Notes Effectifs
corrigé
0–4 10 5 1ère étape : Vérification des amplitudes des classes (k = B − A) : on
4–6 8 8 constate que les amplitudes des classes ne sont pas toutes identiques.
6–8 14 14 Pour ce faire, il faut d’abord corriger les effectifs avant de déterminer
8 – 12 20 10 la classe modale. La plus petite ou la plus fréquente des amplitudes
12 – 14 6 6 est 2. La 3e colonne indique les effectifs corrigés ; d’où l’effectif le plus
14 - 20 9 3 élevé est 14 ; alors, la classe modale est [6 – 8[.
Total 67 -
2è étape : calcul du mode qui est égal à :
n0 − n1 14 − 8
M 0 = e0 + a = 6 + [2 ] = 7,2
(n0 − n1 ) + (n0 − n2 ) (14 − 8) + (14 − 10)
B. Les moyennes
1. Définition
La moyenne est la valeur de la variable qui en même temps qu’elle donne une idée générale sur la
distribution statistique peut remplacer toutes les variables sans pour autant modifier l’image
objective du phénomène à étudier. Quatre types de moyennes sont à distinguer :
Ainsi, la moyenne arithmétique d’une série statistique notée X est égale à la somme
des valeurs prises par cette variable, divisée par le nombre total d’observations.
2. Détermination pratique de la moyenne arithmétique
a. Définition moyenne arithmétique simple
Soit une distribution de n valeurs observées x1 ; x2 ; x3 ; .......xi ;.....; xk d’une variable quantitative X
, on définit sa moyenne observée x comme la moyenne arithmétique des n valeurs :
n
x1 + x 2 + x3 + .... + x k x i
1 n
X = = i =1 = xi
N N N i =1
avec N le nombre total d’observations ou Effectif total.
Exemples :
1. Déterminer la note moyenne d’un étudiant qui a obtenu les notes suivantes en statistique :
17 – 08 – 15 – 12 – 13.
X =
x1 + x2 + x3 + ..........+ xk
=
x i
=
17 + 08 + 15 + 12 + 13
= 13
N N 5
2. 8 ouvriers d’un petit établissement ont reçu en janvier 1970 les salaires suivants : 750, 830, 910,
960, 960, 960, 910, 1080, 1080, 1250, 1350. Calculer le salaire moyen de ces ouvriers.
Résolution :
830 + 910 + 960 + 960 + 960 + 910 + 1080 + 1080 + 1250 + 1350
X = = 1029
10
Aussi peut-on préalablement grouper les observations ayant même valeur dans un tableau
statistique
Salaire Effectif
830 1
910 2
960 3
1080 2
1250 1
1350 1
Total 10
Soit une variable statistique pouvant prendre les valeurs : x1 ; x2 ; x3 ; .......xi ;.....; xk auxquelles
correspondent respectivement les effectifs n1 ; n2 ; n3 ; .......ni ;.....;nk . La moyenne arithmétique a
pour expression x :
n
n x + n2 x 2 + n3 x3 + .... + nk x k n x i i
1 n
X = 1 1
n1 + n3 + n3 + ..... + nk
= i =1
k
= ni xi ; avec n = n1 + n2 + .... + nk
n
n i =1
i
i =1
k
n1 n n n
X = x1 + 2 x 2 + 3 x3 + ..... + k x k = f1 x1 + f 2 x 2 + f 3 x3 + ... + f k x k = f i xi
ni n i ni ni i =1
k
avec f
i =1
i =1
Remarque : Une des propriétés de la moyenne arithmétique est que la somme des écarts à la
n
moyenne est nulle: (x
i =1
i − x) = 0
Nombre d’enfants
Effectif
par personnes ni xi
xi ni
0 17 0
168
1 31 31 X = = 1,68
100
2 29 58
3 16 48 Ainsi, le nombre d’enfants moyen est de 1,68
4 4 16
5 3 15
Total 100 168
directement dans le tableau par ajout d’une colonne désignée colonne des ni xi
C. La médiane ( M e )
La médiane M e est la valeur de la variable qui partage l’effectif en deux parties égales, les
éléments de la population étant rangés par ordre croissant.
C’est la valeur de la variable pour laquelle la fréquence cumulée est égale à 0,5 ou 50%. Elle
correspond donc au centre de la série statistique classée par ordre croissant, ou à la valeur pour
laquelle 50% des valeurs observées sont supérieures et 50% sont inférieures.
➢ Dans le cas d’une variable discrète simple la médiane est déterminée de la manière suivante :
• Dans une série comportant (2k + 1) observations et si n (le nombre d’observations est impair), alors
n = 2k + 1 et la médiane correspond à la valeur du milieu ( M e = xk +1 ) après avoir ordonné la série
par ordre croissant ou décroissant.
Exemple : Déterminer la note médiane d’un étudiant ayant obtenu les notes en statistique :
17 – 08 – 15 – 12 – 13
Ordonnons la série par ordre croissant : 08-12-13-15-17
• Dans une série comportant (2k ) observations et si n (le nombre d’observations est pair), il n’y a pas
à proprement parler la médiane mais un intervalle médian dont les extrémités correspondent aux
valeurs de la k ième et de la (k + 1) observation M e ( xk − xk +1 ) après avoir ordonné la série par
ième
ordre croissant ou décroissant. Dans ce cas il peut être commode de prendre le milieu.
Exemple : Déterminer la note médiane d’un étudiant ayant obtenu les notes en statistique :
17 – 08 – 15 – 12 – 13 - 19
Ordonnons la série par ordre croissant : 08-12-13-15-17-19
n = 2k avec n = 6 2k = 6 k = 3 d’où la médiane
13 + 15
M e [ x k − x k +1 ] M e [13 − 15] = = 14
2
➢ Dans le cas où les valeurs prises par le caractère étudié sont groupées en classe, on cherche la classe
contenant le ( n i / 2) ième individu appelée classe médiane. La classe médiane est alors celle qui
correspond au 1er effectif cumulé croissant strictement supérieur à la moitié des observations ou à la
1ère fréquence cumulée croissante (en %) strictement supérieure à 50%.
En supposant que tous les individus de cette classe sont uniformément répartis à l’intérieur, la
position exacte du ( n i / 2) è individu est déduite de la façon suivante par interpolation linéaire.
Si N 1 est l’effectif cumulé croissant qui précède celui de la classe contenant la médiane et si N 2 est
l’effectif cumulé croissant de la classe contenant la médiane.
Si [ L1 − L2 [ est la classe contenant la médiane alors, par interpolation linéaire, la médiane est telle
que : M e − L1 L − L1 1 2 ni − N1 ;
= 2 M e = L1 + ( L2 − L1 )
ni − N N 2 − N 1 N 2 − N1
1
2
la formule devient : M e = L1 + k
1
2 n i − N1
ne
avec
L1 : borne inférieure de la classe médiane.
k : amplitude de la classe médiane.
ni : Effectif total de la distribution
N 1 : Effectif cumulé croissant qui précède celui de la classe médiane
ne : effectif de la classe médiane
Remarque : Que les classes ou intervalles de classe aient ou non même amplitude, il
n’y a pas d’influence sur le résultat.
Exemples
CA 1 34
(Millions)
ni ECC
2
ni =
2
= 17
05 - 15 3 3
M e − L1 L − L1 M e − 25 30 − 25 M e − 25 5
15 - 25 7 10 = 2 = =
ni − N N 2 − N1 17 − 10 22 − 10 7 12
25 - 30 12 22 2
1
30 - 35 8 30
35 - 45 4 34
M − 25 5 75
=e
M = + 25 = 27,916667millions
e
Total 34 7 12 12
Autre méthode
( ni / 2) è =
34
= (17) è ; le 1er ECC 17 est 22 , d’où la classe médiane est [25 – 30[
2
Par suite 1
ni − N1 17 − 10
M e = L1 + k = 25 + (30 − 25) = 27,916667millions
2
ne 12
Interprétation
50% des entreprises les moins performantes réalisent un chiffre d’affaire compris entre 5 000 000
et 27 916 667 et 50% des entreprises les plus performantes réalisent un CA compris entre 27 916 667
et 45 000 000.
➢ Détermination graphique
On trace la courbe des fréquences cumulées croissantes et/ou décroissantes et on lit la valeur x pour
l’ordonnée égale à 50%. C’est aussi l’abscisse du point d’intersection des courbes cumulées
croissantes et décroissantes.
On appelle quantile d’ordre la valeur notée x( ) de la variable telle que la proportion des
individus présentant un caractère inférieur ou égal à x( ) soit égale à .
Exemple : la médiane est le quantile d’ordre 0,5.
1. Les quartiles
Ce sont les valeurs de la variable Q1 , Q2 , Q3 qui partagent l’effectif total en quatre parties égales et
de formule Qx = L1 + k
x
4 n i − N1
avec x = 1, 2, 3
nQx
2. Les déciles
Ce sont les valeurs de la variable D1 , D2 , .........., D9 qui partagent l’effectif total en 10 parties égales
et de formule D x = L1 + k
x
10 n i − N1
avec x = 1, 2, 3,4, 5, 6,7, 8, 9
n Dx
Ce sont les valeurs de la variable P1 , P2 , .........., P99 qui partagent l’effectif total en 100 parties égales
et de formule Px = e0 + a
x
100 n i − N1
avec x = 1, 2, 3,....., 99
n Px
Deux séries statistiques, bien qu’ayant des caractéristiques de tendance centrale identiques,
pourraient être fort différentes. Il est donc nécessaire pour différencier statistiquement ces deux
séries, de définir les caractéristiques de dispersion qui sont destinées à :
• Synthétiser la plus ou moins grande homogénéité des valeurs observées et
• Mettre en relief l’écart existant entre deux valeurs (étendue, intervalle interquartile) ou entre les
valeurs du caractère et une valeur caractéristique centrale (écart absolu moyen, écart-type)
1. Etendue (e)
C’est la différence entre la valeur maximale (la plus grande) X max et la valeur minimale (la plus petite)
X min des observations. Encore appelée intervalle de variation, ce paramètre est le plus simple,
mais aussi le moins significatif. L’étendue est trop sensible aux valeurs aberrantes.
e = X max − X min
CA
ni e = 45 − 5 = 40 millions
(Millions)
05 - 15 3
15 - 25 7
25 - 30 12
30 - 35 8
35 - 45 4
Total 34
2. Intervalle interquartile ;
L’intervalle interquartile d’une série statistique est égal à la différence entre les valeurs du troisième
Q3 et du premier quartile Q1 . C’est donc l’intervalle qui contient 50% des observations, en laissant
25% à droite et 25% à gauche. Q3 − Q1
3. Ecart absolu ( e )
a
ea =
n ( x − a)
i i
ou ea =
( x −a)
i
avec a = x, M e , M o
n i n
Cet écart est calculé par rapport à la moyenne, mais aussi on peut le calculer par rapport aux
caractéristiques de tendance centrale : le mode et la médiane. La valeur de cet écart est minimale
lorsqu’on le prend par rapport à la médiane.
Interprétation : Plus cet écart est grand plus la distribution est dispersée ; plus il est petit, plus la
distribution est concentrée autour de la caractéristique de tendance centrale choisie.
La variance V (x) de la variable x est la moyenne arithmétique des carrés des écarts à la moyenne
n ( x − x ) 2 + n2 ( x 2 − x ) 2 + ...... + nk ( x k − x ) 2
arithmétique. V ( x) = 1 1 V ( x) =
n (x − x)
i i
2
n1 + n2 + ..... + nk n i
V ( x) =
n (x − x)
i i
2
= f i ( xi − x ) 2
n i i
V ( x) =
n (x
i
2
i − 2 xi x + x 2 )
=
n x i
2
i − 2 x ni xi + x 2 ni
=
n xi
2
i
− (x)2
n i n i n i
V ( x) =
n x i
2
i
− ( x ) 2 = ( f i xi2 ) − ( x ) 2 V ( x) = ( x²) − ( x ) 2 (4)
n i
- Ecart-type
L’écart-type est donc la moyenne quadratique (moyenne d’ordre 2) des écarts à la moyenne
arithmétique. Pour cette raison, on le nomme parfois écart quadratique moyen. C’est la racine carrée
de la variance. ( x) =
n (x − x)
i i
2
; ( x) = V ( x)
n i
Ces trois caractéristiques ont un même objet ; résumer la série des observations en un nombre
unique qui décrira l’ordre de grandeur.
Dans le cas de distribution unimodale, la médiane est en général comprise entre la moyenne et le
mode.
• Si on a M 0 M e X alors la distribution est étalée à droite
Il existe une relation empirique valable pour les courbes unimodale peu asymétriques qui peut être
utile pour vérifier ses calculs :
(X − M 0 ) 3( X − M e )
AS1 = AS 2 =
X x
• Si AS1 et AS 2 >0; alors la distribution a une courbe étalée vers la droite
• Si AS1 et AS 2 <0; alors la distribution a une courbe étalée vers la gauche
• Si AS1 = AS 2 = 0 ; alors la distribution a une courbe normale (une symétrie parfaite)
Si une distribution est symétrique, ses différents moments centrés d’ordre impair sont nuls.
Considérant le 1er moment centré d’ordre impair (3) , Fisher a proposé un indice pour évaluer
l’asymétrie de la courbe différentielle :
(3) 1
1 = avec (3) = (x − x)3
3 ni
i
Ce coefficient est sans dimension et invariant par changement d’échelle et d’origine et nul pour les
courbes symétriques.
Interprétation :
Si 1 0 alors la distribution est étalée à droite
Ce coefficient est sans dimension et invariant par changement d’échelle et d’origine et nul pour une
distribution normale.
Interprétation :
• 2 = 3 , pour une distribution qui suit une loi normale centrée réduite.
• Si 2 3 , la concentration des valeurs de la série autour de la moyenne est forte: la distribution
moins aplatie que la distribution normale
• Si 2 3 , la concentration des valeurs autour de la moyenne est faible: la distribution est plus
aplatie que la distribution normale
IV – CARACTERISTIQUES DE CONCENTRATION.
La notion de concentration a été introduite par le statisticien italien Corrado Gini en 1912 à propos
de la distribution des salaires et des revenus.
Ainsi, l’indice de concentration est une mesure de la dispersion relative utilisée pour la description
de certaines distributions statistiques : distribution de salaires ou de revenus, distributions
d’entreprises suivant leur taille (nombre de salariés, chiffre d’affaires) etc. Cette caractéristique ne
s’applique qu’aux variables statistiques continues à valeurs positives.
Son calcul exige la connaissance pour chaque classe du nombre d’observations (nombre d’individus,
nombre d’entreprises…) et de la somme des valeurs correspondantes (masse des salaires, montant
du chiffre d’affaires).
On observe un caractère X dont on connaît les fréquences f (i ) pour chaque classe ( i ). On porte en
abscisse la fréquence relative cumulée croissante des effectifs et en ordonnée la fréquence relative
cumulée croissante de la masse du caractère ( mi ) telle que mi = xi ni
Salaire Effectif
30 – 40 5
40 – 50 7
50 – 60 8
60 – 80 12
80 – 100 3
Total 35
Courbe de Gini
100
90
80
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
La courbe de Gini de par sa définition, se trouve toujours dans le carré de côté 100 et au-dessous de
la diagonale.
Interprétation : La courbe de Gini sert à étudier l’inégalité de la distribution.
1er cas : Tous les individus ont la même valeur du caractère ; la distribution est donc égalitaire, la
courbe est confondue avec la diagonale.
2ème cas : Tous les individus ont un caractère nul sauf un qui possède à lui seul la totalité de la masse
du caractère ; la courbe est confondue avec le cadre inférieur du carré.
3ème cas : C’est le cas que l’on rencontre le plus souvent puisque ces deux premiers exemples sont
extrêmes ; la courbe se trouve alors entre ces deux positions extrêmes.
Plus la courbe se rapproche de la diagonale, plus la distribution est proche de la distribution
égalitaire.
Plus la courbe se rapproche des bords inférieurs du carré, plus la distribution est inégalitaire et plus
la concentration sera importante.
2. La médiale
La médiale ( Mle ) est la valeur de la variable qui partage la masse totale ( mi ) en deux parties égales.
1 2 mi − M 1
Mle = e0 + a avec e0 = borne inférieure de la classe médiale
me
1020 − 930
Mle = 60 + 20 = 62,14 . Calculons la médiane M
840 e
17,5 − 12
M e = 50 + 10 = 56,87 Mle M e
8
Interprétation de la médiale
- Si M est « grand (supérieur) » par rapport à l’étendue e alors la distribution est fortement
inégalitaire et présente une forte concentration.
- Si M est « faible (inférieur) » par rapport à l’étendue e alors la distribution est plutôt égalitaire.
3. L’indice de Gini
L’indice de Gini I est le double de l’aire comprise entre la courbe de concentration et la diagonale.
1
IG = 1−
10000
( Fi − Fi −1 )(Pi + Pi−1 )
Fi = fréquence relative cumulée croissante de l’effectif
Pi = fréquence relative cumulée croissante de la masse
Interprétation :
• Lorsque l’indice de Gini est proche de 0, la dispersion des observations est faible : on dit que la
distribution a une faible concentration.
• Lorsque l’indice de Gini est égal à zéro ( I G = 0 ), la courbe de Gini est confondue avec la diagonale
et correspond à une distribution parfaitement égalitaire.
• Lorsque l’indice de Gini est proche de 1, la dispersion des observations est grande : on dit que la
distribution a une forte concentration.
• Lorsque l’indice de Gini est égal à un ( I G = 1 ), cela correspond à l’inégalité absolue des différents
individus composant la population.
1
IG = 1 − 8504,2 = 0,15
10000
Introduction
L’étude unidimensionnelle des variables statistiques donne une idée tronquée (idée dont les
éléments importants sont supprimés) de la réalité car les phénomènes économiques sont les plus
souvent liés entre eux. C’est ainsi qu’on ne peut étudier la consommation sans le revenu, le chiffre
d’affaires sans les dépenses publicitaires, les quantités achetées sans le prix, la récolte sans la
quantité d’engrais fournie au sol, etc.
Pour analyser et étudier l’interaction entre ces phénomènes économiques, la statistique de
dépendance propose l’étude de la corrélation et de la régression.
Monsieur Z se demande si les tonnages annuels des produits frais et du lait frais dépendent l’un de
l’autre.
Il se pose la même question quant au nombre de jours de livraison par semaine et le nombre total
de livraison associé.
Enfin, ayant comparé les livraisons hebdomadaires entre 1987 et 1990, il aimerait en faire la
prévision pour les années 1991 et 1992.
Pour savoir si deux variables quantitatives X et Y dépendent l’une de l’autre, deux méthodes sont
possibles :
- L’étude de la forme du nuage de points
- Le calcul d’un indicateur appelé coefficient de corrélation linéaire.
1- Le nuage de points
L’étude du nuage de points consiste à représenter graphiquement les observations des deux variables
X et Y puis analyser l’allure des points.
Soit un échantillon de taille n ayant comme mesures x1 , x2 ,, xn et y1 , y 2 ,, y n . On peut reporter
l’ensemble de ces points sur un graphique orthonormé et on obtient un nuage de points.
On porte les modalités xi de la variable X sur l’axe des abscisses (variable explicative ou
indépendante) et les modalités yi de la variable Y (variable expliquée ou dépendante). On obtient
des points M ( xi , yi ) représentant chacun une unité statistique : l’ensemble des points forme le
nuage de points de la série.
Si le nuage de points forme une courbe, alors il existe une dépendance certaine entre les variables.
Si cette courbe est une droite, on parle de corrélation linéaire. Pas de dépendance dans le cas
contraire c’est-à-dire si le nuage de points n’a pas l’allure d’une courbe.
Ainsi, dans le cas d’une corrélation linéaire, l’une des deux variables se détermine en fonction de
l’autre par une relation du type y = ax + b ou x = a y + b avec « a et a » des réels non nuls
(coefficients directeurs) et « b et b » des réels.
Résolution :
Soit X la variable associée au nombre de démarchage. Soit Y la variable associée au nombre de
contrats signés.
Méthode par graphique : nuage de points
50
45
40
Y (contrats signés)
35
30
25
20
15
10
5
0
0 10 20 30 40 50 60 70 80 90 100
X (démarcharge)
Le nuage de points est « allongé » donc la corrélation linéaire existe. X et Y varient dans le même
sens donc la corrélation est positive.
On peut aussi par le calcul savoir s’il existe ou non une corrélation linéaire entre les variables X et
Y Pour cela, on calcule un indicateur appelé coefficient de corrélation linéaire.
2- Le coefficient de corrélation
Le Coefficient de corrélation linéaire permet par le calcul de montrer que 2 variables X et Y sont
liées de façon linéaire ou sont en corrélation linéaire.
Cependant, avant le calcul, il est nécessaire d’identifier ou de préciser la variable expliquée (encore
appelée variable dépendante ou endogène) de la variable explicative (c’est-à-dire variable
indépendante ou exogène).
On appelle coefficient de corrélation linéaire d’une série à 2 variables X et Y , le nombre réel r tel
que :
COV ( X , Y )
rxy = où ( x) et ( y ) sont les écarts-types respectifs de x et y ; COV ( X , Y ) désigne
( x). ( y )
rxy =
(x i − x ) ( yi − y )
(1) avec ( x) =
(x i − x )2
; ( y) =
(y i − y )2
n ( x) ( y ) n n
rxy =
(x − x ) ( y − y )
i i
(2) rxy =
x y i i −nx y
(3)
( ( x − x ) )( ( y − y ) )
i
2
i
2
( x 2
i − n x2 )( y 2
i − ny 2 )
xy − x y
rxy = (4)
( x) ( y )
Exemple précédent suite : Procédons au calcul du coefficient de corrélation linéaire.
Régions xi yi xi − x yi − y (xi − x )( yi − y ) (xi − x )2 ( yi − y )2
1 20 10 -35 -16 560 1225 256
2 60 30 5 4 20 25 16
3 40 18 -15 -8 120 225 64
4 30 15 -25 -11 275 625 121
5 90 45 35 19 665 1225 361
6 50 25 -5 -1 5 25 1
7 80 35 25 9 225 625 81
8 70 30 15 4 60 225 16
Total 440 208 0 0 1930 4200 916
x=
x 440
i
=
= 55 y=
yi = 208 = 26
n 8 n 8
rxy =
( xi − x ) ( y i − y ) =
1930
= 0,984
((
ix − x ) 2
i ( y − y )(
) 2
4200 916 )
a- Validité du coefficient
r n
Le coefficient de corrélation est valide s’il vérifie la formule suivante : M = 2,6
1− r 2
b- Interprétation
et c’est ce dernier coefficient qui mesure la part imputable à la variable explicative dans l’application
de la variable expliquée.
Dans notre cas d’exemple D= (0,984) ² = 0,9682 soit 96,82% ; ce qui signifie que les contrats signés
(effet) sont expliqués à 96,82% par le démarchage (cause) autrement dit le démarchage permet donc
d’établir de nouveaux contrats.
c- Propriétés
➢ Le coefficient de corrélation est toujours compris entre -1 et 1 c’est-à-dire − 1 rxy 1
➢ Si rxy 0 alors il existe une relation inverse entre les 2 variables
Par rapport à l’application ; rxy = 0,98 0,7 : les 2 variables sont fortement corrélées.
d- Inégalité de BOUNIAKOVSKY
IB : ( a b ) a b
i i
2 2
i i
2
Posons ai = xi − x et bi = yi − y alors
IB : ( ( x i − x ) ( y i − y ) ) ( xi − x ) 2 ( y i − y ) 2
2
( ( x − x )( y − y ))
2
2
( xi − x )( y i − y ) 1
1
i i
( ( x − x ) ( y − y)
i
2
i
2
)
2
( ( xi − x ) 2 )( ( y i − y ) 2 )
rxy2 1 − 1 rxy 1
Soit un échantillon de taille n ayant comme mesures x1 , x2 ,, xn et y1 , y 2 ,, y n . On peut reporter
l’ensemble de ces points sur un graphique orthonormé et on obtient un nuage de points. Sur ce
graphique, on peut souvent tracer une courbe épousant au mieux les données, c’est la courbe
d’ajustement. Il existe deux types d’ajustement : ajustement linéaire et ajustement non linéaire.
Elle consiste à faire l’hypothèse selon laquelle la droite de régression passe par les points extrêmes
A et B, les coordonnées de ces 2 points doivent vérifier l’équation de la droite yi = axi + b .
Application :
xi yi A (2, 5) et B (21, 30) yi = axi + b
2 5
5 = 2a + b
5 12 a = 1,316; b = 2,368 yi =1,316xi + 2,368
30 = 21a + b
11 19
12 20
15 25
21 30
On partage le nuage de points de la distribution en deux nuages de points ayant ou non le même
nombre de points. On détermine pour chaque nuage le point moyen. En joignant ces 2 points, on
obtient une droite appelée droite de Mayer.
La méthode de Mayer est un ajustement affine de la série. Elle permet donc de faire des prévisions.
xi yi
2 5 2 + 5 + 11 5 + 12 + 19
A ( x1 , y1 ) A , A (6 ,12)
5 12 3 3
11 19
12 + 15 + 21 20 + 25 + 30
12 20 B (x2 , y 2 ) B , B (16, 25)
15 25 3 3
21 30
12 = 6a + b
a = 1,3; b = 4,2 yi =1,3xi + 4,2
25 = 16a + b
La méthode des moindres carrés consiste à minimiser la somme des erreurs au carré c’est-à-dire la
différence entre la valeur réelle et la valeur ajustée.
yˆ i = axi + b
S = ( yˆ i − yi ) 2 = (axi + b − yi ) 2
S S
=0 ; =0
a b
a xi2 + b xi = xi yi a x 2 + bx = xy
a xi + nb = yi ax + b =y
xy − x y xy − x y y
a= ; b = y − ax or rxy = a= rxy
2
x ( x) ( y ) x
xy − x y
• La droite de régression (D) notée D y x d’équation yˆ = ax + b où a = est une droite de y
x2
en x (c’est-à-dire y en fonction de x ).
xy − x y
la droite notée Dx y d’équation xˆ = a y + b est déterminé par la formule suivante : a =
y2
x
ou a = rxy ; b = x − a y
y
• Connaissant les coefficients a et a le coefficient de corrélation peut être déterminé par la formule
suivante : rxy = aa
Dans certains cas, l’ajustement à une fonction linéaire n’est pas adéquat : un ajustement des données
à une fonction non linéaire doit être envisagé. Les deux cas que nous considérons sont ceux où on
peut se ramener par simple transformation à un ajustement affine.
Supposons que les variables statistiques x et y liées par une relation de la forme y = bx .
a
Dans ce cas, cette équation peut être transformée en prenant le logarithme (peu importe la base, le
logarithme naturel) :
ln ( y) = ln (bx a ) = ln (b) + ln ( x a ) = ln (b) + a ln ( x)
En effectuant les changements de variables suivants Y = ln ( y ); X = ln ( x); B = ln (b) nous nous
ramenons au cas d’un ajustement linéaire : Y = aX + B .
De ce fait, on applique les mêmes méthodes de moindres carrés comme pour la détermination des
réels a et b . L’équation de droite déterminée sera ramenée sous la forme de fonction puissance
par changements de variables réciproques.
2. Ajustement à une fonction exponentielle
Supposons que les variables statistiques x et y liées par une relation de la forme y = be .
ax
Dans ce cas, cette équation peut être transformée en passant aux logarithmes :
ln ( y) = ln (beax ) = ln (b) + ln (e ax ) = ln (b) + a x
III. – LA PREVISION
Après avoir vérifié l’existence de la corrélation linéaire par le calcul de rxy , on trace une ou les deux
droites de régression. Celles-ci nous servent alors, connaissant la valeur d’une des variables, d’en
déduire la valeur associée de l’autre variable. Ceci nous permet par exemple d’évaluer l’augmentation
de l’une des variables, connaissant l’augmentation de l’autre.
Exemple : La société Manuella a relevé ses dépenses publicitaires et son chiffre d’affaires entre
1980 et 1984 dans le tableau suivant (valeurs exprimées en millions de francs) :
Le chiffre d’affaires pour l’année 1985 est de 20 millions de francs. Quelles sont les dépenses
publicitaires prévisionnelles correspondantes ?
Résolution :
Vérifions l’existence de la corrélation linéaire entre ces deux variables par le calcul du coefficient de
xy − x • y
corrélation rxy tel que rxy =
( x) ( y )
yi xi xi y i y i2 xi2 51 1,6
y= = 10,2 x= = 0,32
5 0,25 1,25 25 0,0625 5 5
8 0,3 2,4 64 0,09
10 0,32 3,2 100 0,1024 17,13
xy = = 3,426
12 0,35 4,2 144 0,1225 5
16 0,38 6,08 256 0,1444 589
y2 = = 117,8
51 1,6 17,13 589 0,5218 5
0,5218
x2 = = 0,10436
5
Chapitre VI – INDICES
I. – GENERALITES
Pour l’étude des phénomènes économiques et sociaux, on a souvent besoin de décrire les variations
de grandeurs simples (par exemple, prix du riz, production de fer, exportation d’automobile, taux de
fécondité etc.). Ces comparaisons, dans le temps et dans l’espace, se font généralement en effectuant
le rapport des grandeurs considérées : on parle d’indices statistiques élémentaires.
Mais il est encore plus important d’être en mesure de suivre les évolutions de grandeurs complexes
(le niveau général des prix, la production industrielle, les importations, etc.). Celles-ci peuvent être
résumées par telles ou telles caractéristiques de tendance centrale des indices élémentaires qui leur
correspondent : on parle alors d’indice synthétique.
1. Définition
L’indice est un indicateur économique qui permet de mesurer, de comparer et d’analyser l’évolution
d’un phénomène économique dans le temps et dans l’espace.
2. Types d’indice
On distingue deux types d’indice :
- Indice élémentaire ou indice simple
- Indice synthétique ou indice composé
1) Définition
L’indice simple caractérise l’évolution d’un seul produit entre deux dates données. L’indice simple
noté I 1 0 d’une valeur d’un produit à la date t1 , base 100 à la date t 0 est :
P1
I1 / 0 = 100
P0
Exemple : Le prix du pain en 1980 est de 30F. Il vaut 75F en 2003. Calculer l’indice du pain en
2003 base 100 1980.
Résolution :
P2003 75
I 2003 / 1980 = 100 = 100 = 250
P1980 30
2) Propriétés
a. Circularité
I2 0 P2 P1 P2
I 2 0 = I 2 1 I1 0 I 2 1 = Preuve : I 2 / 1 I 1 / 0 = = = I2 0
I1 0 P1 P0 P0
b. Réversibilité
1 P0 1
I 0 /1 = =
I1 / 0 P1 P1
P0
1. Définition
L’indice synthétique ou indice composé caractérise l’évolution d’un groupe de produits entre deux
dates de données ; dont l’une est la date de base et correspond à la valeur 100 de l’indice. Les indices
se calculent comme des moyennes arithmétiques pondérées.
Plusieurs types de calculs d’indices sont possibles.
Exemple : La société Belle Fleur a fabriqué au cours du premier trimestre, 5 sortes de vêtements.
Elle souhaiterait évaluer sa progression. Elle recense les fabrications dans le tableau suivant
Janvier Février Mars
Pantalons 50 150 130
Jupes 20 20 50
Vestes 100 150 100
Chemises 40 80 30
T-shirts 100 80 150
Résolution :
Janvier Février Mars Indice Fév. Indice Mars
Pantalons 50 150 130 100 150 50 = 300 100 130 50 = 260
Jupes 20 20 50 100 250
Vestes 100 150 100 150 100
Chemises 40 80 30
200 75
T-shirts 100 80 150 80 150
830 835
Prenons le mois de janvier comme période de base et calculons les indices simples pour Fév. puis
mars.
L’indice synthétique de fabrication des vêtements en février, base 100 en janvier est de :
830 / 5 = 166 . Celui en mars base 100 en janvier est de : 835 / 5 = 167 .
Les fabrications ont progressé de 66% de janvier à février et de 67% de janvier à mars.
Soient I 1 0 les indices à la date t1 (période courante) base 100 à la date t 0 (période de base)
1. Indice de PRIX :
I 1P0 =
P Q 100
1
P Q 0
• Si la quantité est relative à la période de base alors il s’agit d’un indice prix de Laspeyres
I1P0 ( L) =
P Q1 0
100
P Q0 0
• Si la quantité est relative à la période courante alors il s’agit d’un indice prix de Paasche
I 1P0 ( Pa ) =
P Q1 1
100
P Q0 1
I FP = I1P0 ( L) I1P0 ( Pa )
2. Indice de QUANTITE :
I 1q0 =
P Q 1
100
P Q 0
• Si le prix est relatif à la période de base alors il s’agit d’un indice quantité de Laspeyres
I1q0 ( L) =
P Q 0 1
100
P Q 0 0
• Si le prix est relatif à la période courante alors il s’agit d’un indice quantité de Paasche
I 1q0 ( Pa ) =
P Q 1 1
100
P Q 1 0
I Fq = I1q0 ( L) I1q0 ( Pa )
3. Indice de Valeur
Iv =
P Q 1 1
100 (1) Iv =
I 1P0 ( L) I 1q0 ( Pa )
(2)
P Q 0 0 100
I1P0 ( Pa ) I1q0 ( L)
Iv = (3)
100
Q0 P0 Q1 P1 P0 Q0 P1Q0 P0 Q1 P1Q1
Hôtel 120 80 90 100 9600 12000 7200 9000
Restaurants 200 50 150 70 10000 14000 7500 10500
Consommations
dans les cafés 40 20 50 60 800 2400 1000 3000
Total
20400 28400 15700 22500
Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 50
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
I 1P0 ( L) =
P Q 100 = 28400 100 = 139,22
1 0
P Q 0 20400
0
I 1q0 ( L) =
Q .P 100 = 15700 100 = 76,96
1 0
Q .P 0 20400
0
I 1P0 ( Pa ) =
Q .P 100 = 22500 100 = 143,31
1 1
Q .P 1 15700 0
I 1q0 (P ) =
Q .P 100 = 22500 100 = 79,22
1 1
Q .P
a
0 28400 1
Iv =
P Q 1 1
100 =
22500
100 = 110,29 (1)
P Q0 0 20400
I. – GENERALITES
1- Définition
On appelle série chronologique, série temporelle ou chronique une suite d’observations chiffrées
ordonnées dans le temps. C’est une série statistique à deux variables quantitatives dont l’une est une
mesure de temps et l’autre une variable numérique yt prenant ses valeurs aux instants t . C’est donc
une série bidimensionnelle (t , yt ) . Les valeurs de la composante t sont rangées dans l’ordre
chronologique.
Le but de l’analyse des séries chronologiques est d’analyser et d’isoler les facteurs qui commandent
l’évolution du phénomène étudié au cours du temps puis de construire un modèle à vocation
prévisionnelle.
Quelques exemples de séries évoluant en fonction du temps : évolution d’indices, de consommation
d’un bien, l’indice des prix à la consommation (Economie) ; Population urbaine, rurale, d’un pays,
comportement des familles : naissance, mariage (Démographie).
En pratique, la série chronologique ( yt ) est donnée sous forme d’un tableau bidimensionnel où la
date peut être remplacée par le n° d’observation t .
Exemple : considérons la série statistique suivante qui montre l’évolution du chiffre d’affaires (en
millions de francs) trimestriel d’une entreprise au cours des 4 années consécutives :
Année N Année N+1 Année N+2 Année N+3
Trimestres 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
CA 8 10 7 30 13 14 8 40 16 18 11 50 20 20 14 60
Yt = f (Ct , S t , t )
Certains phénomènes économiques étudiés à très long terme présentent une composante cyclique
(cycles d’activité). Cette composante traduit les oscillations autour de la tendance générale. Ces
oscillations sont approximativement périodiques (succession de phases : prospérité, crise,
dépression, reprise).
Les modèles de composition les plus simples sont les schémas additifs et multiplicatifs.
Dans le modèle additif, l'amplitude de la composante saisonnière et du bruit reste constante au cours
du temps. Ceci se traduit graphiquement par des fluctuations autour de la tendance d'amplitude
constante.
p n
En supposant que S j = 0 et et = 0 , les composantes ( St ) et ( et ) sont centrées et donc toute
j =1 t =1
120
100
60
40
20
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Trim es tres de 1995 à 1998
b. Schéma multiplicatif
Yt = Ct S t t , avec t = 1,, n .
Dans ce modèle, l'amplitude de la composante saisonnière et du bruit n'est plus constante au cours
du temps : elles varient au cours du temps proportionnellement à la tendance ( yt ).
p p
1 n n
Supposons que S j = p et
j =1
et = 1 , Yt = Ct (1 + st ) (1 + et ) avec
n t =1
S j = 0 et
j =1
e
t =1
t =0
140
120
Ventes (en milliers)
100
80
60
40
20
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Trim es tres de 1995 à 1998
Décomposer une série chronologique revient donc à estimer pour chaque date d’observation ou
période, les valeurs de la composante extra saisonnière C t et de la composante saisonnière S t . Deux
grandes catégories de méthodes sont utilisées : les méthodes analytiques et les méthodes empiriques.
Le trend ou tendance générale indique l’évolution de la série chronologique et permet d’établir des
prévisions. Pour dégager la tendance générale, il faut éliminer ou atténuer les variations. Différentes
méthodes sont possibles suivant que la tendance est linéaire (calcul du coefficient de corrélation) ou
non.
Cette méthode est la plus souvent utilisée pour l’analyse des séries temporelles. Elle a pour but de
déterminer le trend par le calcul des moyennes mobiles. Elle permet de lisser la série c’est-à-dire
d’atténuer les « pointes ».
Principe : on remplace la série chronologique par une nouvelle série chronologique composée des
moyennes arithmétiques des modalités de la série initiale.
Calcul : La 1ère moyenne arithmétique est calculée à partir d’un nombre donné des 1 ères modalités. La
suivante se calcule en décalant les modalités d’un rang, etc.
Exemple : Au cours des quatre derniers exercices, le CA (en millions de F) d’un groupe français de
communication et de tourisme a évolué de la manière suivante :
Résolution :
Année Trim. Période CA Totaux mobiles Moyennes mobiles
1 1 1,8
1987 2 2 1,4
3 3 2,3 1,750
4 4 1,5 7,0 1,875
1 5 2,3 7,5 1,975
1988 2 6 1,8 7,9 2,100
3 7 2,8 8,4 2,150
4 8 1,7 8,6 2,300
1 9 2,9 9,2 2,550
1989 2 10 2,8 10,2 2,650
3 11 3,2 10,6 2,750
4 12 2,1 11,0 2,850
1 13 3,3 11,4 2,825
1990 2 14 2,7 11,3 2,975
3 15 3,8 11,9 2,900
4 16 1,8 11,6
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Exemple : Un important fabricant de vêtement relève entre 1980 et 1989, le nombre de succursales
ouvertes dans son pays et son chiffre d’affaires, qu’il consigne dans le tableau suivant :
C.A.
Années Périodes ( xi ) Nombre de succursales ( yi ) '
(en milliers de F) ( yi )
1980 1 10 700
1981 2 20 700
1982 3 20 500
1983 4 20 600
1984 5 40 400
1985 6 30 400
1986 7 40 500
1987 8 60 200
1988 9 60 300
1989 10 50 300
Résolution
1+ 2 + 3 + 4 + 5
=3
Le point moyen Z 1 a pour coordonnées : Z 1 5
10 + 20 + 20 + 20 + 40
= 22
5
d. 2e nuage : 6 xi 10 ; les couples sont (6 ;30), (7 ;40), (8 ;60), (9 ;60), (10 ;50)
6 + 7 + 8 + 9 + 10
=8
Le point moyen Z 2 a pour coordonnées : Z 2 5
30 + 40 + 60 + 60 + 50
= 48
5
22 = 3a + b
a = 5,2; b = 6,4 . D’où yi = 5,2 xi + 6,4
48 = 8a + b
1+ 2 + 3 + 4 + 5 6 + 7 + 8 + 9 + 10
=3 =8
C1 C
5 5
700 + 700 + 500 + 600 + 400 2
400 + 500 + 200 + 300 + 300
= 580 = 340
5 5
580 = 3a + b
a = −48; b = 724 . D’où y ' i = −48xi + 724
340 = 8a + b
Conclusion : le nombre de succursales est en progression (car le signe du coefficient directeur « a »
est positif) alors que le C.A. est en régression (le coefficient directeur a un signe négatif).
Principe : on cherche la droite (D) d’équation yi = axi + b , la plus proche du maximum des points.
cov( x, y ) xy − x y
Avec a = = ; b = y − ax
V ( x) x 2 − (x)2
Résolution
2. Prévisions
* 4e trimestre 1991 correspond à la période 20 soit x = 20 . y = 4,66 20 + 880,3 = 973,56
1ère étape : étude de la tendance par le lissage des séries en utilisant la méthode de calcul des
moyennes mobiles. On obtient des valeurs appelées données tendancielles.
2e étape : remplacement de chaque donnée tendancielle de la série par le calcul d’un coefficient
partiel d i défini par : d = donnée brute − donnée tendancielle
i
3e étape : calcul des coefficients saisonniers comme moyenne arithmétique des coefficients partiels
d i pour chaque période (généralement mensuellement ou trimestrielle).
4e étape : modification éventuelle des coefficients saisonniers afin que leur somme soit égale à 0.
La série corrigée des variations saisonnières s’obtient alors ainsi :
Exemple : Le CA (en millions de F) de la société Junior entre 1980 et 1983 est le suivant :
1980 1981 1982 1983 Désaisonnaliser cette série par la méthode des
1er Trimestre 90 120 200 300 écarts à la tendance.
2e 160 100 80 90
3e 300 290 310 350
4e 320 260 240 230
Résolution
400
Chiffre d'affaires (en millions de F)
350
300
250
200
150
100
50
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Trimestres (années 1980 à1983)
Exemple : Une entreprise fabrique des réfrigérateurs. Ses ventes ont été entre 1988 et 1990 les
suivantes :
1988 1989 1990 Désaisonnaliser cette série par la méthode des moindres
1er Trimestre 650 700 800 carrés.
2e 700 800 1000
3e 1050 1150 1400
4e 750 800 1100
Résolution
Période yi
Année Trim. CA Y XY X² Yˆ ri =
X yˆ i
1 1 650 650 1 681 0,95
1988 2 2 700 1400 4 722 0,97
3 3 1050 3150 9 763 1,38
4 4 750 3000 16 804 0,93
1 5 700 3500 25 845 0,83
1989 2 6 800 4800 36 886 0,90
3 7 1150 8050 49 927 1,24
4 8 800 6400 64 968 0,83
1 9 800 7200 81 1009 0,79
1990 2 10 1000 10000 100 1050 0,95
3 11 1400 15400 121 1091 1,28
4 12 1100 13200 144 1132 0,97
y = 908,3
x y = 6395,8
x 2 = 54,2
a = 41
b = 640
yˆ = 41 x + 640
La somme des coefficients saisonniers doit toujours être égale au nombre de périodes (4 si trim.) ;
ce qui est vérifié ; donc pas de modification des coefficients saisonniers.
La série corrigée des variations saisonnières est alors en arrondissant à la valeur entière :
Autre exemple : Coût de la construction, indice INSEE de base 100 au 4e trimestre 1953
1987 1988 1989 1990
1er Trimestre 884 908 929 939
2e 889 912 924 951
3e 895 919 925 956
4e 890 919 927 952
Résolution :
1. L’équation de la droite de régression calculée précédemment : yˆ = 4,66 x + 880,3
y
a. Calcul des données tendancielles et du coefficient ri =
yˆ
1987 1988 1989 1990
y y y y
y ŷ ri = y ŷ ri = y ŷ ri = y ŷ ri =
yˆ yˆ yˆ yˆ
1er Trim. 884 885 0,999 908 904 1,004 929 922 1,008 939 941 0,998
2e 889 890 0,999 912 908 1,004 924 927 0,997 951 946 1,005
3e 895 894 1,001 919 913 1,007 925 932 0,992 956 950 1,006
4e 890 899 0,990 919 918 1,001 927 936 0,990 952 955 0,997
y
c. Calcul des séries corrigées CVS =
Ci
Série initiale Série corrigée
1er Trim. 884 908 929 939 1,002 882 906 927 937
2e 889 912 924 951 1,001 888 911 923 950
3e 895 919 925 956 1,002 893 917 923 954
4e 890 919 927 952 0,995 894 924 932 957
CA annuel
coefficient saisonnier du trimestre
4 (trimestres)
Enseignant : AKPALOU D. Emmanuel. Contact : 90 30 88 67 _ eakpalou@gmail.com 65
Cours de statistique descriptive et de probabilités adapté aux Grandes Ecoles Supérieures
➢ 5e étape : analyse
Si l’entreprise ne connaissait pas de ventes saisonnières mais régulières, le coefficient de chaque mois
serait égal à 1 et le total serait égal à 4.
Si le coefficient saisonnier est >1, l’activité du trimestre ou du mois est considérée comme supérieure
à la moyenne. Il s’agira des moments de l’année où l’entreprise vendra le plus : c’est la haute saison.
Si le coefficient saisonnier est < 1, le CA du trimestre ou du mois est inférieur à la moyenne. Il s’agira
des moments de l’année où l’entreprise vendra le moins : c’est la basse saison.
Plus les coefficients seront éloignés de 1 et plus l’activité de l’entreprise sera saisonnière.
IV – PREVISIONS
Pour effectuer des prévisions, il faut pouvoir déterminer une droite de tendance. De ce fait il faut
donc une série dont le coefficient de corrélation vérifie la propriété suivante − 1 r 1 . Enfin si
nécessaire, il faut saisonnaliser la prévision. Suivant la série chronologique initiale, les méthodes
employées pour effectuer des prévisions sont différentes.
Résolution
Période Matériels y
Année Trim. y xy x2 y2 y ' i = 7,5xi + 19,3 ri =
x y 'i
1 1 20 20 1 400 26,8 0,747
1985 2 2 30 60 4 900 34,3 0,875
3 3 30 90 9 900 41,8 0,718
4 4 40 160 16 1600 49,3 0,811
1 5 60 300 25 3600 56,8 1,056
2 6 90 540 36 8100 64,3 1,399
1986 3 7 100 700 49 10000 71,9 1,392
4 8 110 880 64 12100 79,4 1,386
1 9 70 630 81 4900 86,9 0,806
EXERCICES D’APPLICATIONS
Niveaux d’indices 200 250 300 350 400 450 500 550
Effectifs 15 27 32 12 7 4 2 1
Exercice 3 :
L’analyse de la situation des rayons d’un supermarché est représentée par le tableau ci-contre :
Représenter :
1 - par un diagramme circulaire.
2 - par un diagramme à bandes
Rayons Surface en m²
Epicerie 360
Liquides 265
Produits frais 250
Non alimentaires 125
68
Exercice 4 : Lors du dernier Certificat Préparatoire aux Etudes Comptables et Financières, les
membres du jury décidèrent de prendre un échantillon de 30 copies anonymes parmi celles des
candidats aux épreuves :
- n°1
- n°2
- n°3
Les résultats de cet échantillonnage furent les suivantes :
Classe des notes Nombre de candidats (Effectif)
obtenues sur 20 Epreuve n°1 Epreuve n°2 Epreuve n°3
3-5 - 3 -
5-7 9 4 2
7-9 11 3 7
9 -11 3 9 8
11-13 2 4 2
13-15 3 5 9
15-17 2 2 2
a) Déterminer, pour chaque épreuve : le mode, la médiane, la moyenne arithmétique des différentes
notes de l’échantillon
b) Déterminer, pour chaque épreuve : l’étendue, les deux quartiles et l’intervalle interquartile ; l’écart
type de la distribution.
Exercice 5 :
Une étude réalisée dans un village-vacances a permis d’obtenir la distribution suivante de l’âge des
adultes séjournant au cours du mois d’août :
Classes 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70
Effectifs 27 38 21 10 4
a- Calculer la moyenne arithmétique
b- Calculer l’écart-type
c- Déterminer le coefficient de variation
Exercice 6 : Le directeur d’une société a décidé de réviser à la hausse le taux horaire ses heures
supplémentaires. Afin de connaître l’impact de cette mesure, il veut d’abord connaître la médiane et
la moyenne. Le tableau suivant a été obtenu :
Série 1 2 3 4 5 6
Effectif 2 3 8 5 7 10
Déterminer le mode, la médiane et la moyenne de cette série.
69
Exercice 8 : Dans la ville, à la même heure et dans les mêmes conditions, on a mesuré la
température pendant trois semaines, les observations recueillies jour après jour étant les suivantes
(en degrés Celsius) :
11° ; 10° ; 10° 12° 10° 13° 12° 10° 12° 14° 16° 15° 16° 14° 12° 10° 14° 16° 14° 16° 16°.
1 - Déterminer la température moyenne et la température médiane.
2 – Déterminer le mode et les quartiles
3 – Déterminer l’étendue, l’intervalle interquartile, l’écart absolu moyen par rapport à la moyenne
arithmétique et l’écart-type ;
4 – Déterminer le coefficient de variation.
Exercice 10 :
Un organisme d’enquête et de sondage a réalisé une enquête, pour le compte d’un syndicat de
Personnel, sur le nombre de salariés de 40 entreprises industrielles de la région ouest africaine. Le
dépouillement des questionnaires a donné les résultats suivants :
32 58 59 52 53 43 37 39 86 40
51 30 52 50 51 36 79 63 64 48
82 53 24 59 20 44 45 45 41 75
90 61 55 22 56 47 76 62 66 100
70
b. A partir des données de l’enquête, établir la distribution des entreprises selon le nombre de
salariés dans un tableau de 5 classes.
c. Tracer le diagramme différentiel de cette distribution et commenter
d. Définir la fonction de répartition et tracer les courbes cumulatives
Exercice 11 :
Un sondage a été effectué sur 100 personnes à la sortie d’une grande surface sur le choix du café. Il
fallait répondre à la question :
« Quel type de café prenez-vous ? 100% Arabica (code A), 100% Robusta (code R), 50% Arabica et
50% Robusta (code C) ».
Les réponses obtenues ont été les suivantes :
R A A A R R R C R R C A R C R A A A C C
R R C C C R R A A C A R C A C R A C R R
C C A R R A A C R A C R R C C A A R C A
C R R C A A C C R A R R R C A A A C C C
R A R A C A R C C C A A R R R C R A C A
Exercice 13
Les primes de fin d’année des employés d’une entreprise sont consignées dans le tableau suivant :
Prime en FCFA ] 1500-1600] ] 1600-1800] ] 1800-2000] ] 2000-2500] ] 2500-3000]
Nombre d’employés 10 20 25 25 20
a) Déterminer graphiquement et par calcul la médiane de cette distribution et conclure
b) Déterminer le mode et la moyenne arithmétique de cette distribution.
71
Exercice 15 : Le tableau suivant donne la distance de freinage d’un véhicule roulant sur route
sèche en fonction de sa vitesse.
vitesse en km/h 40 50 60 70 80 90 100 110
distance en m 8 14 18 24 32 40 48 58
a) Représenter cette série statistique par un nuage de points. Calculer la vitesse moyenne et la
distance moyenne.
b) En utilisant la méthode des moindres carrées, déterminer l’équation de la droite représentant la
distance en fonction de la vitesse.
c) Estimer, à l’aide de cette équation, la distance de freinage d’un véhicule roulant à 120km/h ?
72
b) Chacune des classes de la distribution précédente est divisée en deux classes de même amplitude,
auxquelles on fait correspondre un effectif moitié de l’effectif initial de la classe qui a été divisée.
Faire un nouveau tableau. Comment sont modifiées la moyenne et la variance ?
Exercice 17
Le montant global en milliards de francs des exportations et la part de la construction automobile
dans le commerce extérieur français pour les années 1970 à 1979 étaient les suivants :
Années 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979
Construction automobile yi 6 7 8 9 11 14 18 21 24 28
Exercice 18
On a procédé à l’ajustement affine d’un nuage de points (X, Y). Les équations obtenues sont les
suivantes : Droite d’ajustement de y en x , D : y = x + 30
Droite d’ajustement de x en y , D : x = 1 4 y + 60
1. Calculer le coefficient de corrélation linéaire.
2. Calculer la covariance entre x et y et l’écart type de x , sachant que la variance de y est égale à 36.
3. Calculer coefficient de variation de x .
Exercice 19
Réactualisant régulièrement les remboursements de frais de déplacement de ses collaborateurs, le
directeur s’intéresse à l’évolution des prix de différents carburants qui sont les suivants (prix TTC) :
Super plombé Super sans plomb Gazole
Avril 1991 5,31 5,08 3,45
Mai 1991 5,35 5,13 3,47
Juin 1991 5,38 5,16 3,49
73
Exercice 20
Soit six espèces de poissons dont nous avons relevé le prix et les quantités vendues par le même
poissonnier entre le 1er septembre 1991 et le 1er septembre 1992.
01/09/1991 01/09/1992
Prix Quantité Prix Quantité
Baudroie (lotte) 136,40 2,60 130,70 2,70
Cabillaud 77,55 28,60 79,10 18,30
Lieu noir 45,20 35,40 41,80 44,20
1) Calculer l’indice I de Laspeyres (base 100 :1991) correspondant aux prix, aux quantités, aux valeurs
globales
2) Calculer l’indice I de Paasche (base 100 :1991) correspondant aux prix, aux quantités, aux valeurs
globales
3) Vérifier, avec les valeurs obtenues, que :
Indice de Laspeyres prix multiplié (X) par Indice de Paasche quantités = Indice de Laspeyres
quantités multiplié (X) par Indice de Paasche prix = Indice valeurs globales.
Exercice 21
Pour une grande mutuelle ivoirienne, le taux de souscription d’un contrat d’assurance depuis l'année
1999, est donné dans le tableau suivant :
74
Exercice 22 : Le tableau ci-dessous donne l'évolution du chiffre d'affaires (en milliards d’euros)
d’un secteur de production des années 1995 à 2001.
Années 1995 1996 1997 1998 1999 2000 2001
Rang de l'année 1 2 3 4 5 6 7
Chiffre d'affaires 69 72 75 81,7 88,6 91,6 93,5
75